






Ziya2: Data-centric Learning is All LLMs Need









近年来,大语言模型(Large Language Models)在人工智能领域取得了巨大的成功。大语言模型在大量无监督的文本数据上进行预训练,并在没有大量监督数据的情况下,在多个下游任务展现出了出色的性能。代表性的大语言模型包括ChatGPT、GPT-4和PaLM-2等等。








Figure 1: The overall data-centric process for learning Ziya2, where the pipeline to obtain high-quality data, the training strategies, and the three-stage training process are presented in the bottom, middle, and top part of the figure, respectively, Notably, the training strategies for different stages are illustrated by comparisons of data distributions.











The Data Factory




Figure 2: An overview of the proposed data-centric learning approach of Ziya2, which includes five components: data preprocessing (DP), automatic scoring (AS), rule-based filtering (RF), content de-duplication (CD), and data evaluation (DE). The gray and colored blocksindicate the proportion of data that is filtered out andretained relative to the original dataset, respectively.


预处理数据(DP) 我们搜集了700TB common crawl的语料和其他13TB高质量开源语料,如Wudao、Yuan1.0、Pile、Big Code等,并自动对文本进行语种分类和标准化。


自动评分(AS) 随后,我们用模型对预处理之后的数据打分得出PPL值。PPL得分前30%的数据被标记为高质量,30%到60%之间的为中等质量。用于打分的模型是基于KenLM框架在中文和英文维基百科语料上自主训练的。


基于规则的过滤(RF) 网络上的数据存在大量的色情、暴力、政治偏见等倾向性严重的文本,所以我们尽可能对这类文本进行了过滤。我们从文档级别、段落级别、句子级别三个粒度设计了30多种文本过滤的规则,并按照这个顺序进行逐级过滤。我们用人工抽检的方式确保了过滤规则的准确性并进行多次规则的迭代优化。


消除重复内容(CD) 由于开源的数据里存在大量重复的网页,我们利用bloomfilter技术对网址进行精准去重。其次,我们发现很多通过转载、拷贝等方式产生的新网页内容,在处理后只有标点符号或者表情的差异。因此,我们对这类文本去掉符号和表情等符号后再次进行精准去重。对于剩下的海量数据,采用simhash进行文本内容的模糊去重。


评估数据(DE) 完成上述数据处理步骤后,我们对处理后的数据进行了评估,随机抽取了1%的处理后的数据,并用一系列指标对其进行自动评估。同时我们也对这部分抽取的语料使用人工进行逐条评估,评估的结果帮助优化数据处理流程。经过多轮迭代,当不合格的样本比例少于0.1%时,认为数据合格。





Table 2: The information of high-quality pre-training datasets used to train Ziya2. The "pre-training stage" illustrates the stages that the datasets are used: "en", “zh”, “multi" mean the language of the datasets are English, Chinese, and multi-lingual, respectively: “Sampling” refers to the ratio of data sampled from the original dataset.









Continual Pre-training Details


Initialization 我们对LLaMA2的词表新增了7400个中文字符,新增的中文字符作为一个新的token。相比于LLaMA2将单个中文字符拆成2-4个token,对于每个新增的中文字符,将该字符原来LLaMA2对应的embedding进行加权平均,初始化Ziya2中文字符对应的embedding。这种做法不仅能够提高编解码的效率,同时能利用LLaMA2已经学到的中文信息,具有更低的初始loss。


Training Strategy灾难性遗忘是继续预训练的关键问题之一。为了在不丢失模型的英文能力的同时,增强其中文能力和其它能力,我们采用了三阶段的训练方式进行继续预训练。


第一阶段,我们采样了接近LLaMA2原始分布的英文数据,同时采样了清洗后的中文数据和格式化后的代码数据,混合构成了650B无监督的数据进行继续预训练。我们完全打乱这些数据,并将不同的数据片段拼接成长度为4096的样本,通过attention mask避免不同数据片段互相影响,最大程度提高训练效率。


第二阶段,我们通过增加中文和英文的有监督数据,如Wanjuan-Idea来增强Ziya2在下游任务的效果。不同于第一阶段随机组合数据,我们把相同类型的有监督数据拼接成一个样本,并且确保每个样本里拼接的数据都是完整的。Figure  3介绍了上面提到的两种样本拼接方式。






Figure 3: The process of constructing unsupervised andsupervised pre-training data in the three stages.


Training Efficiency and Stability 我们使用Megatron+DeepSpeed作为训练框架。Megatron使用了数据并行、张量并行和流水线并行来实现大模型分布式训练。DeepSpeed的ZeRO技术用于节省显存。我们在此基础上实现了LLaMA2模型结构适配,同时还增加了flash-attention、fused-softmax等技术来提升训练效率,最终能够使每个GPU达到163.0TFLOPS的业界领先效率。同时我们通过使用BF16混合精度训练解决了训练不稳定的问题。如Figure 5 所示,在训练Ziya1时,我们使用FP16混合精度训练,在训练后期经常会遇到loss spike的情况。这是因为FP16的取值范围不够,在计算时出现了数值溢出的情况。在采用BF16替换FP16并进行底层代码适配后,我们在Ziya2的继续预训练中解决了该问题。



Figure 4: The pre-training loss of Ziya2-13B and Ziya-13B with respect to the number of training steps.


Data Efficiency






















本文所提出的开源LLM Ziya2,基于开源的 LLaMA2 模型,通过提出的以数据为中心的学习方法进行继续预训练。Ziya2 在中英文下游任务中的表现不仅优于 LLaMA2,而且优于同期规模相近的开源 LLM,证明了以数据为中心的学习方法对 LLM 预训练的有效性。




未来,我们计划继续Ziya2系列的开发,探索具有 70B 参数的更大模型,同时基于Ziya2的对话, 写作,代码,多模态、特别是同样与中科大联合研发的医疗领域的专业模型也将在近期发布,敬请期待。我们将持续为社区提供先进的大模型技术和经验,推进大模型生态发展。




