
人工智能正重构全球产业格局,同时也带动一些新兴产业快速发展,数据标注就是其中之一,市场已对此展现出强劲需求。
3月20日,由工业和信息化部电子第五研究所、中国移动通信集团信息技术中心、航天科工网络信息发展有限公司联合主办的“2025年数据标注产业供需对接会”在四川成都召开。
供需对接会现场,12亿元数据标注业务合作意向签约。其中,由韶关市推动的战略合作以6600万元的签约金额成为当天单体金额最大合作项目。
图片来源:每经记者 唐俊 摄
自动驾驶、医疗医药等行业已开始探索
所谓数据标注,是指对数据进行筛选、清洗、分类、注释、标记和质量检验等加工处理的过程。国家发展改革委等部门去年底发布《关于促进数据标注产业高质量发展的实施意见》(以下简称《意见》),明确将数据标注称为新兴产业。
“数据标注是提升数据供给质量的关键环节,是提升人工智能产业竞争力的先手棋。”四川省大数据中心副主任、四川省大数据标准化技术委员会主任委员周学立在对接会现场说。
工信部电子五所人工智能中心主任孔德智对《每日经济新闻》记者表示,数据标注将无序的“潜在资源”转化为可被算法理解的“优质原料”,为机器学习提供精准的知识标签,直接决定模型训练的质量和效率。例如,OpenAI在训练ChatGPT时投入数千人力和数亿资金用于标注,确保模型理解人类指令的准确性和可靠性。
“在市场和政府的协同作用下,我国的标注产业已经进入快速发展阶段。”国家数据发展研究院院长胡坚波现场表示,数据标注在自动驾驶、医疗医药等领域,结合人工智能大模型,已构建起面向企业和个人的应用模式,成为在数据标注产业中较早的探索,且已较成熟。
胡坚波还提到,能源、交通、矿产、地质勘探等行业积累了大量专业数据,这些行业资金基础较好、专业团队完善,通过人工智能解决行业性全局问题的潜力巨大,他们在数据标注领域正快速发力。低空经济、具身智能等未来产业,也在积极开展相关工作。
加快推进数据标注规范化与标准化
2024年4月,国家数据局确定了7个数据标注基地,分别是成都、沈阳、合肥、长沙、海口、保定、大同。截至目前,七地数据标注总规模达到17282TB,相当于中国国家图书馆数字资源总量的6倍左右。
国家数据局表示,7个数据标注基地的标注从业人员达5.8万人,带动数据标注行业相关产值超过83亿元。
不过,虽然数据标注在快速发展,但仍处于初期阶段,仍有不少方面待完善。
胡坚波建议,要加快推进行业数据标注工作的规范化与标准化,引导数据标准上下游环节对接和合作;并且要加强数据标注技术的研发和推广,加强对基于生成式AI的合成数据的自动化标注。
孔德智表示,我国正通过政策引导和技术攻关,推动数据标注从劳动密集型向知识密集型转型,为人工智能创新发展提供关键支撑。
他建议,当前数据标注产业应强化技术创新,重点突破跨模态语义对齐、大模型标注等核心技术,研发智能化标注工具,提升标注效率;同时,优化生态布局,培育龙头企业与中小企业协同发展的产业链,推动数据标注基地建设,形成区域示范效应。
他还提到,应支持高校开设标注相关课程,联动需求企业建立产教融合实训基地,解决人才缺口问题。另外,还应保障数据安全,构建分类分级保护制度,强化隐私保护和风险防控,推动标注数据合规流通。