在人工智能日新月异的今天,人们欣喜于算法的精进、算力的飞跃,但容易忽视数据质量这一基础要素。随着《“数据要素×”三年行动计划(2024—2026)》的推进,高质量数据集的建设被提上新高度。这标志着我国人工智能的发展,正从“有多少”的规模扩张,迈向“好不好”的质量攻坚。
人工智能存实际需求,高质量数据供给不足
目前人工智能正从消费互联网向工业、医疗、金融等垂直领域深度渗透,模型对数据的需求不再只是“量大”,更讲究“质优”。
今年3月,国家数据局局长刘烈宏在国新办发布会上透露,我国日均Token调用量已超过140万亿,相比2024年初增长1000多倍,相比2025年底三个月内又增长40%多。
Token调用量的高速增长,意味着AI应用正加速从实验室走向生产线、走向场景,而高质量数据供给不足的矛盾愈发凸显。
高质量数据集之所以关键,是因为它直接定义了人工智能的“智商”上限。今天当AI应用于医疗诊断、金融风控、科研探索等复杂场景时,粗制滥造、杂乱无章的“数据垃圾”不仅无法支撑其深度学习,反而会导致模型偏差、决策失误,甚至引发安全风险。高质量数据集意味着数据的高价值、高密度与标准化,能助力大模型精准学习数据特征与规律,有效提升其对不同场景和任务的适应能力,让AI从“知其然”走向“知其所以然”。
长期以来,我国在数据资源的积累上具有得天独厚的优势,海量的互联网数据、工业数据、社会数据如同一座座待开发的富矿。然而,这些原始数据往往具有多源异构、非结构化、高噪声低信息的典型特征,无法直接用于分析与应用。这些“数据原油”,如果不经过破碎、研磨、提纯等一系列复杂的“炼化”过程,就难以成为驱动超级引擎的“高标号汽油”。
与此同时,数据资源还存在“大而不强”的症结,集中体现为“三多三少”:原始数据多、价值数据少;孤立数据多、融合数据少;通用数据多、场景数据少。
采集数据质量参差不齐,多种原因让大模型训练语料难以转换
如果说通用领域的数据困境是“散”,那么工业领域的挑战则是“深”。今年3月,工业和信息化部正式启动工业数据筑基行动,瞄准工业数据“采、集、用”三大瓶颈,明确提出到 2026 年底培育一批行业数据合作联合体,建设重点行业数据可信互联平台,打造一批高质量、标准化、可流通的行业数据集,赋能一批行业大模型、工业智能体等应用落地。
“采、集、用”三个字,点出了数据资源转化为数据资产须经历的三道关口:采,面临多源异构、接口不一、设备封闭的现场,数据质量参差不齐;集,受制于标准缺失、标注治理不足、跨企业跨链条流通不畅;用,则卡在场景牵引不足,难以转化为大模型训练语料。
工业数据深埋在不同企业的不同车间、不同的设备中,格式各异、标准不一,且往往被企业视为核心商业秘密。高质量工业数据集的构建,面临专业性强、门槛高、投入大、周期长的现实困难,企业普遍陷入“不愿共享、不敢共享、不能共享”的困局。
对此,中国电气装备集团副总经理张帆建议,大力推广“数据可用不可见、用途可控可计量、全程可追溯可审计”的数据共享模式,从技术和机制上消除企业顾虑。在保护数据主权的前提下,通过建立行业数据合作联合体,将分散在各处的 “数据孤岛”连成“数据大陆”,让数据在流动中产生价值、在共享中实现增值。
谁来为稀缺的优质数据合理付费
高质量数据集建设的瓶颈,不仅在供给侧,也在需求侧。让数据真正“活”起来,最终要落到“为高质量数据付费”的市场共识上。国家数据局明确表示,要持续培育“为高质量数据付费”的市场共识,推动行业高质量数据集在数据交易所挂牌、上架、交易。
这一表述的关键在于“市场共识”。数据价值是靠市场买出来的。只有当市场主体普遍认同优质数据的稀缺性与生产性,愿意为其支付合理对价,数据要素的价值链条才能真正形成闭环。
今年3月,某公司自主研发的多项高质量数据集产品在北京国际大数据交易所正式完成从资产登记、挂牌上架到合规交易的全流程闭环。其中“大模型训练专用试题”及“竞赛试题”系列数据集,专为强化大模型的逻辑推理与复杂问题解决能力而设计,目前已正式完成交付与交易结算。从“挂牌”到“成交”,不仅通过了技术验证和合规审查,更反映出市场对数据价值的真实认可。
在四川,成都锦江区属国有企业自主研发的两项数据产品也在成都文化产权交易所完成挂牌交易,实现了西部地区在车路协同、具身智能两个产业领域的“零的突破”。该产品从挂牌到成交耗时仅一个多月,市场对优质数据资产的渴求可见一斑。
买数据的钱从哪里来,难定的数据价格靠谁定
只有打通标准这道关,数据才能真正“集得拢”。各地、各行业的数据格式千差万别,同一行业不同企业的数据标准也“各自为政”。全国数据标准化技术委员会已明确提出,要加快出台高质量数据集、数据匿名化流通等一批急需标准,研制重要数据识别目录等一批重点标准。
高质量数据集的建设,比拼的是对行业的理解深度。高质量数据集的供给必须遵循“场景驱动”的定制逻辑,围绕医疗、金融、工业等具体行业需求进行定向开发与标注。每一份高质量数据集的生产都是精细工程,需要深耕行业,需要与业务场景深度耦合。
有了市场的认可,高质量数据集才能完成从“优质资源”到“核心资产”的最终跨越。华中科技大学副校长冯丹在调研中发现,当前政府投资项目和国有企业数字化转型中普遍缺失数据采购预算,导致数据价值难以通过市场交易实现,供给方的积极性受到抑制。同时,数据定价机制仍不成熟,市场主体“不会定”“不敢定”“谁来定”的困惑尚未消除;数据产品公允价值体系尚未建立,供需双方交易常因报价分歧过大而受阻。加快完善数据交易配套标准,结合不同行业场景制定差异化定价指引,形成可参考、可落地的市场报价标准,才能让符合标准、适配场景的高质量数据真正发挥价值。
截至2025年底,我国已建成的高质量数据集已超过10万个,总体量超过890PB,相当于中国国家图书馆数字资源总量的310倍。AI的发展正从追求“喂得饱”迈向“吃得精”的新阶段。