2024年7月6日 ,“2024世界人工智能大会语料主题论坛”在上海举办。会上,多家机构联合发布了“语料运营平台1.0”以及一批语料产品。此外,论坛还发布了《语料库建设导则》。50余家单位在会上联合发起语料生态服务大模型可持续发展倡议,呼吁各方携手为大模型产业发展持续提供高质量语料。
据介绍,“语料运营平台1.0”可实现面向语料数据“采、洗、标、测、用”五位一体的工具链能力。《语料库建设导则》则明确了从原始数据到语料成品的方法论,并针对金融、生命健康、教育等行业语料发布技术白皮书,进一步指引相关语料数据的采集、使用。
语料数据是大模型训练的关键“燃料”,高质量的语料对于大模型在各行各业的应用至关重要,有助于大模型更好地适配实际应用场景,加快实现人工智能赋能千行百业的目标。
近年来,为满足大模型发展对高质量、大规模、安全可信语料数据资源的需求,上海市在多个方面采取了一系列举措,包括在共建共享方面,组建大模型语料数据联盟,鼓励多元主体共同推动高水平语料数据要素建设;在基础设施建设方面,激活数据要素潜能,开源一系列高质量的语料资源;在平台建设方面,建设市场化运营的语料平台,打造大模型语料的“超级工厂”。
上海市政府副秘书长庄木弟表示,“上海将厚植语料应用场景,围绕大模型训练需求,保障多知识、多模态、标准化的高质量语料数据供给,赋能大模型行业应用落地。”