QuRating: Selecting High-Quality Data for Training Language Models.

AllImages Videos Books Maps News Shopping

QuRating: Selecting High-Quality Data for Training Language Models - arXiv

Feb 15, 2024 · We introduce QuRating, a method for selecting pre-training data that can capture human intuitions about data quality.

princeton-nlp/QuRating: [ICML 2024] Selecting High-Quality Data for ...

github.com › princeton-nlp › QuRating

This is the official repository for our ICML'24 paper QuRating: Selecting High-Quality Data for Training Language Models and contains code for (1) collecting ...

[PDF] QURATING: SELECTING HIGH-QUALITY DATA FOR ...

openreview.net › pdf

Selecting high-quality pre-training data is important for creating capable language models, but existing methods rely on simple heuristics.

QuRating: Selecting High-Quality Data for Training Language Models

deeplearn.org › arxiv › qurating:-selectin...

Jun 13, 2024 · Our best model is based on educational value andperforms similarly to a model trained with uniform sampling for 50% more steps.Beyond data ...

People also search for

Qurating selecting high quality data for training language models github

Qurating selecting high quality data for training language models pdf

Qurating selecting high quality data for training language models python

Data selection for language models via importance resampling

Detecting pretraining data from large language models

How to train data-efficient LLMs

QuRating: Selecting High-Quality Data for Training Language Models

arxiv-sanity-lite.com › ...

Selecting high-quality pre-training data is important for creating capable language models, but existing methods rely on simple heuristics.

QuRating: Selecting High-Quality Data for Training Language Models

www.aimodels.fyi › papers › arxiv › qur...

Jun 16, 2024 · Overview · This paper introduces a method called QuRating for selecting high-quality pre-training data for large language models (LLMs).

QuRating: Selecting High-Quality Data for Training Language Models

iclr.cc › virtual

Workshop: 2nd Workshop on Mathematical and Empirical Understanding of Foundation Models. QuRating: Selecting High-Quality Data for Training Language Models.

Pramodith B. on LinkedIn: QuRating: Selecting High-Quality Data for ...

www.linkedin.com › posts › pramodith_...

Feb 22, 2024 · QuRating: Selecting High-Quality Data for Training Language Models We all know that a high-quality dataset is very important in ML, ...

princeton-nlp/QuRater-1.3B - Hugging Face

huggingface.co › QuRater-1

Mar 29, 2024 · QuRater model fine-tuned from 1.3B Sheared-LLaMA model. From the paper: QuRating: Selecting High-Quality Data for Training Language Models.

[PDF] QuRating: Selecting High-Quality Data for Training Language Models

arxivtools.blob.core.windows.net › ...

Feb 16, 2024 · QuRating: Selecting High-Quality Data for Training Language Models. Alexander Wettig 1. Aatmik Gupta 1. Saumya Malik 1. Danqi Chen 1. 英寸.

People also search for

LESS: Selecting Influential data for targeted instruction tuning

Training data selection

Dsdm: model-aware Dataset Selection with Datamodels

LLM training data

LLM training efficiency

LLM pre-training

AutoMathText