打造“数据工厂”是实现高质量数据集规模化标准化供给的必然选择
发布时间:2026-05-19 作者:张向宏

一直以来,数据的开发利用效果不尽如人意,根本原因是企业、机构做数据开发、供给、流通工作时,缺少一个明确的锚点,无法清晰说明此类工作的价值所在。

在深度参与国家数据局关于高质量数据集和数据标注基地建设的工作中,北京交通大学“交大评论”团队提出,在高质量数据集的数据基础设施化供给中,培育“数据工厂”新业态是当前数据工作的战略重点。


面向人工智能的数据产业链已经初步形成,基础逻辑是结合非结构化数据、行业高质量数据,将基础大模型训练成能够落地应用的智能体和垂直大模型

数据要素、人工智能想要实现长远可持续发展,必须和政府、企业、社会的实际业务深度结合。就像计算机在1946 年发明,直到 2000 年前后才真正普及,核心原因是有了 Word、PPT、 Excel、ERP、OA 等应用软件作为载体,没有这些应用,计算机就难以走进日常生产和生活。如今,支撑人工智能发展的载体已经出现——智能体和垂直大模型。虽然这类应用还处于萌芽阶段,但已经让数据找到了服务人工智能创新发展这个锚点。

基础大模型通过公域数据训练,就像成绩优异的高中毕业生,只具备通识能力,还无法直接胜任外科医生、教师、宇航员这类专业工作,必须“读本科、硕士、博士”,也就是补充行业专业知识才能实现落地应用。当前,面向人工智能的数据产业链已经初步形成,基础逻辑是结合非结构化数据、行业高质量数据,将基础大模型训练成能够落地应用的智能体和垂直大模型。

然而,支撑人工智能技术升级和应用拓展的数据供给,目前存在明显短板。全球可流通数据仅占数据总量的极小部分。海量的私域数据、非结构化数据、行业高端数据无法有效供给,存量公域语料数据持续供给乏力,导致市面上各类大模型能力趋同,难以突破专业场景应用;同时,中文语料规模远低于英文语料,进一步制约了国内人工智能的发展。


谁家喝水谁打井,企业训练模型需要自行完成数据采集、汇聚、加工、标注全流程

在这里需要厘清“数据资源”“高质量数据”“高质量数据集”三个概念,三者价值是逐级递增的:“数据资源”是原始采集汇聚的数据,数量庞大、潜在价值大,但本身不具备直接应用价值,只是基础原料;“高质量数据”是数据资源经过清洗、去重、分类等初加工形成的产物,是大模型预训练的核心语料,主要用于 BI(商业智能)的“领导驾驶舱”,数据体量大、标准化程度高,无需精细的人工标注,可以自动化、规模化处理;“高质量数据集”是在高质量数据基础上经过精加工形成的,以标准化、场景化数据为核心形态,可直接用于大模型的后训练、微调与对齐,是专业场景落地的关键支撑。这类数据集分为通识型、行业通识型、行业专属型三类,越垂直细分、越贴近专属场景,价值就越高。这也是衡量数据价值的核心标准。

当前,大部分高质量数据集的生产还停留在“作坊式”阶段,企业训练模型,需要自行完成数据采集、汇聚、加工、标注全流程,这种“谁家喝水谁打井”的模式效率低、成本高,是过渡性的。数字社会不该再沿用“作坊式”的数据生产方式,而要打造专门从事数据处理加工、服务人工智能训练的“数据工厂”。


“数据工厂”是技术含量极高的基础设施工程,需要专业数据服务商、全国一体化算力网络枢纽节点、头部人工智能企业、技术创新企业等主体共同推进建设

数据要素化市场建设推进难度大,主要原因之一是行业精力过多放在评估、定价、登记、交易等低门槛、空转的工作上,反而忽视了真正有价值的核心环节。把数据资源加工成高质量数据集,将“数据工厂”融入国家数据基础设施体系,是门槛高、难度大但方向正确的事。

“数据工厂”可分为集中式、半集中式、分布式三种类型。集中式,以算力中心、数据基地为代表,集中汇聚数据开展加工;半集中式,是跨区域布局加工的节点,可以统一标准、分散作业;分布式,核心是“数据不动,模型动”,通过数据虚拟化、数据编织、数据连接框架等技术,在数据源端完成加工,实现“数据可用不可见”,契合当前数据安全合规的要求,也是未来重要的发展方向。

“数据工厂”具备多元化、设施化、规模化、标准化、AI化的特征,核心由储备车间、生产车间、中试车间三部分构成:储备车间,负责高质量数据的储备,保障原料供给;生产车间,承担数据清洗、合成、标注、加工等全流程工作;中试车间,通过大模型转小模型等方式,对产出的数据集进行测试验证,替代传统低效的测评,确保数据产品能够适配实际应用场景。如果把“数据工厂”比作一座现代化的食品加工厂,储备车间是原料仓库,生产车间是自动化加工生产线,中试车间是品质检测与配方调试中心,最终生产出可直接、安全 “食用”的数据“食品”供大模型和场景使用。

“数据工厂”是技术含量极高的基础设施工程,需要专业数据服务商、全国一体化算力网络枢纽节点、头部人工智能企业、技术创新企业等主体共同推进建设。这类主体或具备数据处理基础能力,或拥有算力资源,或掌握核心技术,能够支撑“数据工厂”的落地运营。

打造“数据工厂”是实现高质量数据集规模化、标准化供给的必然选择。在国家数据底座、核心功能节点、行业与企业基础设施等不同层面布局建设“数据工厂”,构建从行业通识、行业专属到业务专精的多层次数据供给体系,推动数据要素切实服务于人工智能发展和场景需求。