从文本到多模态：大模型非结构化数据加工及质量控制实践

时间：2026-07-01 08:46:54 编辑：袖梨来源：一聚教程网

深入解析大模型数据处理的工业级实践，从原始网页到多模态数据的全链路加工方案。
核心内容：
1. 文本数据从原始网页到训练语料的六步加工流程
2. 多模态数据（VQA、Interleave、音频）的处理方法
3. 构建数据工程基建与Agentic数据生产管线

作者：重工，蚂蚁集团-语言与机器智能部

_{前言：面向大模型（LLM）场景，数据不再仅仅是原材料，而是决定模型能力的天花板。针对非结构化数据（文本、多模态）的加工与质量控制，介绍大模型预训练、后训练数据生产，结合存储、计算引擎，构建工业级非结构化数据生产管线。本文总结了非结构化数据处理的工业级实践方案，主要从三个方面进行介绍：文本数据处理、多模态数据处理以及数据处理工程基建。}

目录
第一章 文本数据：从原始网页到训练语料

1.1 文本预训练：以原始网页到训练语料为例
1.2 后训练数据现状
（1）种子数据构建
（2）合成轨迹生成
第二章多模态数据处理

2.1 VQA

2.2 Interleave

2.3 音频数据处理

第三章数据工程处理基建

3.1 Agentic Data Pipeline

3.2 后训练数据生产平台

第四章总结

一、文本数据：从原始网页到训练语料

LLM 的训练流程通常可以分为预训练、中期训练、监督微调和强化学习四个阶段。

在 Pre-Training （预训练）阶段，数据主要来源于真实物理世界，例如网页、PDF文件和书籍等。在 Mid-Training （中期训练）阶段，模型会在第一阶段学习大量知识的基础上，向模型引入合成数据，以激发其推理能力。SFT（Supervised Fine-Tuning，监督微调）阶段，通过指令数据和监督信号，让模型学习更符合用户意图的响应方式。RL（Reinforcement Learning，强化学习）阶段，结合奖励建模与价值函数，进一步优化回答质量，偏好一致性和任务完成效果。在过去的时间里，我们已经积累了大量的跨领域数据，包括网页、代码、视频和音频等。这些数据的总量一直在持续增长，已经从百亿、千亿攀升至现在的万亿级别。

1.1 文本预训练：以原始网页到训练语料为例

以网页数据为例，从原始 HTML 到可用于训练的语料，通常需要经过六个步骤。

1.原始HTML获取：在合规授权和公开许可范围内获取网页、文档等原始数据。原始网页中通常包含正文、评论、导航栏、广告、脚本、标签等多类内容。

2.网页内容解析：从这些数据中提取关键信息，清洗掉无用的网页标签，最终将数据转化为结构化格式，其中包括问题及评论信息的提取。

3.网页特征标签：对数据进行打标、包含对URL、时间等元信息、以及特征属性。在网页上添加标签，例如标记内容属于数学、物理或金融等不同领域，以及语言标签，如中文、英文或其他小语种。

4.标准化流程：对数据进行去重、去毒、去污处理。去重——在真实的物理世界中，大量的信息实际上是重复的。这些重复的内容可能在讲述同一事情，因此没有必要将它们重复地输入模型中进行训练。去污主要是因为，在训练模型时，会查看模型在我们预设榜单上的表现。为避免榜单中的问题和答案进入训练样本中，使得对榜单的评估失效。因此，我们会从训练语料中移除与榜单相关的所有数据。去毒——去除不符价值观数据，以防止模型学习到不良内容。

5.数据上架&质量评级：对已经构建好的数据集进行上架和质量评估。对数据质量进行评估，分为A、B、C、D四个等级。A级表示数据质量较好，而D级则表示数据质量较差。如果数据质量不达标，会重新进行数据加工。

6.通过消融实验验证数据有效性：这个环节至关重要，在生产完数据后，需要验证这些数据对模型的有效性。例如，你可能生成了一份数据，其中包含模型已经掌握的知识。在这种情况下，再对它进行训练，模型将无法产生预期效果。这一过程称为消融实验，在此过程中，我们在一个小型模型上对现有数据进行训练，然后观察其在各个榜单上的表现是否有所变化。变化可能表现为上升、下降或保持不变。如果出现下跌，意味着该数据表现不佳。有时，如果数据的增益效率不足，即表现不理想，我们也会选择排除它。最理想的情况是，在各个维度上均有显著提升，例如知识力、推理力等。这样的数据是非常优质的。我们把这个环节称为“数据实验”。数据实验结束后，这些数据就可以用于训练基模了。

在数据生产过程中，可以看到漏斗效应非常明显。例如，万亿级网页数据存储容量为20PB，而真正进入模型训练阶段时，数据量已缩减至几十亿规模的TB级别，中间的数据量减少了整整一个数量级。在整个数据处理过程中，包括数据毒性、难度和多样性等多个方面，都会进行不同程度的数据过滤。除了网页，其他类型的数据如PDF文件或书籍等，其大致流程与网页类似，但在数据处理环节，过滤策略和（算子）实现细节可能会有所不同，总体流程相似。

1.2 后训练数据现状

与预训练阶段相比，后训练数据的规模通常更小，但质量要求更高。预训练更关注海量、多样和覆盖面，数据规模往往以十亿级、百亿级甚至更高 token 量级计；后训练则更关注任务构造、答案质量和推理轨迹的可靠性，常见规模可能是百万级样本，但每条样本都需要更严格的质量校验。

后训练阶段的数据生成主要以合成为主，即构造一个问题，该问题可能源自现实世界中已存在的物理问题，或者由原始语料库中提取生成。用这个问题去询问一个比我们效果更好的模型，利用它的答案及其思考过程作为训练样本，以提升我们自己模型的能力。这一过程被称为“蒸馏”或“合成”，基本上是后训练阶段主要的数据生产方式。

种子数据构建

在训练过程中，不仅包括问题的答案，也包括思考过程本身，这些都将作为训练样本的一部分，用于模型的训练。前面提到，后训练阶段的关键在于构建相应的问题。使用不同的模型合成出对问题的解决方案，无论是称之为thinking还是轨迹也好。这里有一个关键点，就是如何合成问题或者说种子。

以SWE（Software Engineering，软件工程）任务为例，来解释合成数据问题的构建过程。

首先，SWE 的背景是：假设你现在有一个需要解决的代码问题，例如修复一个 bug，或添加一个新 feature。针对这个问题，你需要生成相应的 PR，其中包含 code diff。这个过程就像日常开发一样：根据需求在现有代码库中进行开发，修改或新增代码，接着编写与需求对应的测试用例，最后将代码合并或上线。SWE 的目标是通过构建相应的 Pipeline，生成 issue、PR 以及测试用例，让模型学会解决这类软件工程问题。

在生成种子数据的过程中，我们采用了两种方法。第一种方法是从 GitHub 爬取数据。GitHub 上有大量真实的代码仓库，以及开发者编写的源代码、注释和测试用例等。我们提取这些信息，并将其转化为训练样本。

转换过程涉及几个主要步骤。首先，我们需要构建一个能够运行测试用例的隔离环境，即 Docker 镜像（Docker Image）其次，还需要验证测试用例的有效性：在未应用 PR 时，测试用例应该失败；而一旦应用了 PR，测试用例就应该通过。这就是在该领域从真实世界中提取数据的过程。

合成轨迹生成

第二种方法是合成： 即通过修改现有的 代码仓库 ，通常采用‘注入 Bug’的方式。例如，修改函数中的条件判断逻辑，或直接删除部分核心代码。通过这种方式构建出带有缺陷的 Bug，再让模型尝试修复，从而完成在SWE 中构建种子数据的合成。

当然，这只是一个引子。不同领域的种子数据构建方法存在显著差异。以 PPT 自动生成为例，必须基于特定场景来构建数据，例如‘投资研究报告’与‘软件架构汇报’。场景的差异决定了构建逻辑的不同。因此，我们必须先锁定具体场景，再根据场景合成种子数据及其相应的解决轨迹（Trajectories），才能达到理想的训练效果。

在获得种子数据后，通过以下四步合成完整的解决轨迹：

首先，我们会集成开源的领域 Agent。以金融相关场景为例，可以先集成一个开源的 finance Agent 库。第二步，我们会编写合成和评估脚本，其中合成脚本包括合成策略，评估脚本则用于评估模型生成答案的效果。第三步，开始执行任务。第四步，对轨迹结果进行分析，其中包括 Agent 解决问题时的完整过程。

二、多模态数据处理

多模态数据处理主要分为图像和音频两部分，视频可以归类为图像理解范畴，因为视频可以通过抽取图片来理解。在图像处理方面，多模态数据处理主要可以分为三部分：VQA、图像分类和图像检索。

2.1 VQA

VQA，即给定一张图片后，针对这张图片提出一个问题，并给出答案。

VQA数据的生成主要有两种方式。

1.直接构建一个 Query（查询/指令），然后用该 Query（查询/指令）去请求搜索引擎，让搜索引擎返回相关图片。这样就可以得到对应的 Query（查询/指令）和图片。

2.从原始语料中提取图片，并直接进行合成。例如，已有一张图片后，可以将这张图片输入到能力更强的模型中，让模型生成相应的问题和答案。

2.2 Caption

与 VQA 不同的是，对于 Caption，我们通常是让模型对一张图片进行描述。也可以基于同一张图片提出多个问题。例如，“这张图片里有什么？”是一个问题；“这张图片属于什么场景或领域？”则是另一个问题。通过这种方式，可以在同一张图片上生成多个问题，从而合成所需的数据。

但 Caption 任务的问题设置通常较为固定，核心要求是以清晰、简洁的方式描述图片。问题也可能有一些细微变化，例如要求描述图片时特别关注细节。但其本质是：对于这一批数据中的所有图片，使用相同或相似的问题进行提问，目的是获取关于每张图片更详细的理解和信息。

如下图所示，这是我们针对原始图片合成的 Caption。其中描述了主体，例如密集的鱼群；也描述了环境信息，例如水质、倒影等。此外，还包含了视觉细节，例如岸边植被和光影分布。在 Caption 数据中，对同一张图像提供的细节越丰富、越准确，模型在看到这张图或类似图片时，就越能给出更精确的理解信息。

Q：以清晰简洁的方式描述图像。

2.3 Interleave

Interleave 指文本和图片按上下文顺序交替出现的数据，旨在帮助模型在面对图文交错的情境时，更好地理解整个事件的发展过程。

实际上，互联网上的网页（HTML）、PDF 文档、微信公众号文章等，本身就是图文交错的排版结构。人类在排版时，文字和图片的相对位置包含了大量“隐式语义信息”。在解释一个知识点时，通常会附带一张图片，以加深读者对该知识点的理解。我们希望模型能够像人类一样，通过这样的方式学习，理解文字之外的图片等各类信息。

2.4 音频数据处理

音频数据的处理与图片相似，但也有所不同。图片有 VQA，即一个问题对应一张图片和一个答案；音频则可以采用 AQA，即 Audio Question Answering，本质上是将图片替换为一段音频，并针对该音频提出各种问题供模型解答。此外，音频数据中也存在类似 Interleave和 Caption 的处理方式。

在数据生产方式上，音频和图片的差异并不大，但它们的数据来源和质量评判标准截然不同。例如，图片更关注画质、清晰度和信息丰富度；而音频则更为复杂，需要关注方言、语言类型、音乐流派、曲风、演唱者情感变化等特征。这些特征都会被提取出来，用于后续的数据筛选。

三、数据工程处理基建

当前，为应对万亿规模的数据处理挑战，我们在存储层面采用了OSS、ODPS相结合的策略。具体而言，非结构化数据（如音频、视频、图片等对象文件）直接存储在对象存储OSS中；而对应的元数据（如OSS链接及各类特征）则存储在ODPS中。目前正朝着 Paimon 湖存储架构演进，将现有非结构化与结构化数据统一迁移至Paimon湖式存储，以实现存储体系的升级。

同时可通过统一宽表体系对非结构化数据进行身份标识和特征管理。该体系的核心逻辑是：为每个从采集或采购渠道获取的非结构化数据赋予一个全局唯一的身份标识（UID），并围绕此UID进行各类特征的提取与关联整合。

在上面的内容中，我们介绍了整个数据加工体系，其中关键的是代码大库。目前，该库中包含约四百多个算子，这些算子是过去一两年积累下来的，涵盖多种类型，能够被各个引擎直接消费和复用。

对于 CPU 算子，目前已支持ODPS、AntSpark 等多种执行引擎。同时，我们的 GPU 算子也可以在多个引擎上运行，用于执行数据处理任务。

3.1 Agentic Data Pipeline

Agentic Data Pipeline 指基于智能体的数据处理流水线。期望改变过去以人工方式处理数据的模式，通过开发“数据处理算子”并引入 Agent（智能体）：只需指定数据处理目标，然后由 Agent 调用 AI 模型，对数据进行加工和处理。

案例分析：以一个传统方式难以处理的金融逻辑题为例，左侧是原始题目。该题目涉及复杂的金融公式，用于计算违约概率。但关键在于，这道题原样本给出的答案是 0.001。以往的数据处理能力无法对这类样本逐一进行人工检查和解答。今年引入 Agent 处理数据后，Agent 直接针对该题编写了一段 Python 代码，并在运行该代码后得到了正确答案：7.63 × 10^-8。这个案例表明，借助当前AI技术的能力，许多过去无法有效处理的低质量或错误数据样本可以被自动识别和剔除，大大提升了数据集的整体可靠性。