高质量数据“被榨干”，OpenAI员工爆料：新模型“没有那么大飞跃”，公司正调整策略

每经记者：蔡鼎每经实习记者：岳楚鹏每经编辑：兰素英

高质量数据“被榨干”，OpenAI员工爆料：新模型“没有那么大飞跃”，公司正调整策略-编程日记

图片来源：每日经济新闻资料图

近日，据The Information报道，OpenAI的下一代旗舰模型可能不会像前面几代产品那样带来巨大的飞跃。新的模型或许无法像之前的模型那样耀眼。

据报道，测试代号为Orion的新模型的员工发现，尽管新模型性能超过了OpenAI现有的模型，但进步程度并不如从GPT-3到GPT-4的进步那么大。

换句话说，OpenAI改进的速度似乎正在放缓。根据一些内部员工的说法，在诸如编程这类的任务上Orion并不比之前的模型更可靠。OpenAI 员工和研究人员表示，GPT 研发速度放缓的原因之一是高质量文本和其他数据的供应量在不断减少。

为了应对这种情况，OpenAI成立了一个基础团队，以研究如何在新训练数据不断减少的情况下继续改进模型。据报道，这些新策略包括使用AI模型生成的合成数据对Orion进行训练，以及在训练后的过程中对模型进行更多改进。

目前，OpenAI并未回应相关消息的评论请求。不过上个月OpenAI曾表示，“我们今年没有发布代号为Orion的模型的计划。”

OpenAI下一代模型被曝质量提升不大

使用ChatGPT的用户数量正在飙升。不过，ChatGPT的底层模型的改进速度似乎正在放缓。

OpenAI即将推出的旗舰模型Orion所面临的挑战显示了OpenAI所面临的困难。今年5月，OpenAI首席执行官奥特曼告诉员工，他预计正在训练的Orion可能会比一年前发布的上一款模型好得多。

据The Information近日援引知情人士透露，奥特曼表示，尽管OpenAI只完成了Orion训练过程的20%，但就智能程度以及完成任务和回答问题的能力而言，它已经与GPT-4相当。

然而，据一些使用或测试过Orion的OpenAI员工表示，虽然Orion的性能超过了之前的模型，但与OpenAI发布的最后两款模型GPT-3和GPT-4之间的飞跃相比，质量的提升要小得多。

OpenAI的一些研究人员认为，在处理某些任务方面，Orion并不比之前的模型更可靠。据The Information援引OpenAI的一名员工称，Orion在语言任务上表现更好，但在编码等任务上可能不会胜过之前的模型。其中一位员工表示，与OpenAI最近发布的其他模型相比，Orion在数据中心运行的成本可能更高。

OpenAI研究员Noam Brown上个月在TED AI会议上表示，开发更先进的模型在财务上可能不可行。

“毕竟，我们真的要训练耗资数千亿美元或数万亿美元的模型吗？”Brown说。“在某个时候，扩展范式（Scaling paradigm）就会崩溃。”

高质量数据不足导致性能减速

Scaling laws是AI领域的一个核心假设：只要有更多的数据可供学习，以及额外的计算能力来促进训练过程，大语言模型（LLM）就会继续以相同的速度改进。

扎克伯格、奥特曼等人工智能开发商的首席执行官也公开表示，他们尚未触及传统Scaling law的极限。

这就是为什么包括OpenAI在内的公司仍花费数十亿美元来建造昂贵的数据中心，以尽可能地从预训练模型中获取性能提升。

虽然理论上目前的模型并没有触及Scaling law的极限，但是可供使用的数据来源却快要干涸了。

OpenAI的员工和研究人员表示，GPT模型减速的一个原因是高质量文本和其他数据的供应不足。大语言模型需要在预训练期间处理这些数据，以理解世界和不同概念之间的关系，从而解决撰写文章或解决编程错误等问题。

据The Information援引知情人士表示，过去几年里，大语言模型在预训练过程中使用了来自网站、书籍和其他来源的公开文本和其他数据，但模型开发人员基本上已经把这类数据资源榨干了。

高质量数据“被榨干”，OpenAI员工爆料：新模型“没有那么大飞跃”，公司正调整策略-编程日记

图片来源：视觉中国-VCG41N1309760279

OpenAI的应对之策：合成数据、强化学习

为了应对这种情况，OpenAI成立了一个基础团队，以研究如何在新训练数据不断减少的情况下继续改进模型。该团队由之前负责预训练的Nick Ryder领导。OpenAI表示，这个团队将研究如何应对训练数据的匮乏，以及Scaling law还能适用多长时间。

据OpenAI的一名员工称，Orion的训练数据里有一部分是AI生成的合成数据。这些数据由GPT-4和最近发布的推理模型o1生成。然而，该员工表示，这种合成数据导致了一个新问题，即Orion最终可能会在某些方面与那些旧模型相似。

软件公司Databricks的联合创始人兼董事长Ion Stoica表示，这种合成数据可能并不能帮助AI进步。

Stoica说道：“对于常识性问题，你可以说现在我们看到的是大型语言模型性能都处于一个停滞状态。我们需要更多的事实数据，合成数据帮助不大。”

除此之外，OpenAI的研究者们在模型训练后阶段进行了额外的改进。比如，OpenAI采用了强化学习方法，通过让模型从大量有正解的任务中学习（比如数学或编程问题），以此来改进它们处理特定任务的方式。

同时，OpenAI还会请人工评估员对预训练的模型在特定的编程或问题解决任务上进行测试，并对答案进行评分。这有助于研究者调整模型，以更好地应对诸如写作或编程等特定类型的请求。这一方法，即带人类反馈的强化学习，也有助于改进之前的AI模型。

o1就是OpenAI使用这种改进手段得到的成果，o1模型在给出答案前，会花更多时间来“思考”大语言模型在训练过程中处理的数据。这意味着，即使不对底层模型进行修改，只要在回答用户问题时提供额外的计算资源，o1模型的回应质量就能持续提升。据知情人士透露，如果OpenAI能够持续改进底层模型的质量，哪怕速度较慢，也能显著提升推理效果。

“这为我们提供了一个全新的扩展维度，”Brown在TED AI大会上表示。研究人员可以通过将每次查询的成本从一分钱提升到十分钱来提高模型的响应质量。“

奥特曼同样强调了OpenAI推理模型的重要性，这些模型可以与LLMs结合。

奥特曼在10月份一个面向应用开发者的活动中表示：“我希望推理功能能解锁我们多年来期待实现的许多功能——例如，让这类模型有能力贡献新的科学知识，帮助编写更复杂的代码。”

但两位知情员工表示，o1模型目前的价格比非推理模型高出六倍，因此它没有广泛的客户群。

与此同时，o1模型的安全性也被很多人诟病，《自然》杂志就曾表示，在评估过程中，他们发现o1有时会遗漏关键安全信息，例如未强调爆炸危险或建议不适当的化学品控制方法。

值得一提的是，OpenAI安全系统团队负责人翁荔（Lilian Weng）近日也宣布将离开已经工作了近7年的OpenAI。

高质量数据“被榨干”，OpenAI员工爆料：新模型“没有那么大飞跃”，公司正调整策略

全民迎来反思，双11不能只靠低价

【明日主题前瞻】华为携手电信完成国内首个该细分技术商用试点

最新文章

盘中暴跌25%！奈雪，被调出！

海尔集团官号3天涨粉6万，简介：“我们老总即将出道”；CEO靠一条领带再次出圈：“不希望被关注，不推个人小店”

我国科学家在抗烧结催化剂研究中取得新进展

多模态智能体加快发展：中国信通院启动技术规范编制武汉同步发力

“第二个DeepSeek时刻”来了？Manus热度传到海外，联合创始人透露底层大模型！AI“套壳”已成硅谷风口

南山智尚：尚未实现人形机器人相关产品规模化订单落地

【明日主题前瞻】智元机器人：2025年计划出货数千台机器人

5G商用以来中国电信、中国联通以共建共享累计节省投资超3600亿元

广东：统筹省市资源对全省人工智能与机器人重点项目开通“绿色通道”

又一IPO公司被质疑！掏空式分红13亿后募资10亿，其中2.8亿补流

标签

关注我们么么哒！

高质量数据“被榨干”，OpenAI员工爆料：新模型“没有那么大飞跃”，公司正调整策略

全民迎来反思，双11不能只靠低价

【明日主题前瞻】华为携手电信完成国内首个该细分技术商用试点

猜你喜欢

多模态智能体加快发展：中国信通院启动技术规范编制 武汉同步发力

“第二个DeepSeek时刻”来了？Manus热度传到海外，联合创始人透露底层大模型！AI“套壳”已成硅谷风口

智元机器人姚卯青：不做大模型，机器人是没有未来的

阿里研究院：DeepSeek是对开源大模型价值的强有力支持

阿里千问大模型上线国家超算平台！一体机发布、AI编程落地

字节跳动豆包大模型团队开源一项MoE架构优化技术

武汉将重点推动大模型向智能体演进

银行业探索“人工智能+金融”调查：搭建AI中台成为行业转型“新基建”，DeepSeek等大模型将驱动研发应用向“轻量化”与“高效化”发展 | 两会金融观察④

智元发布首个通用具身基座大模型：完成小样本快速泛化，降低具身智能门槛

熵基科技：火星慧知平台整合七大核心能力，包括语音识别、图文识别、视觉分析等

训练机器人做家务“有一手” 智元发布首个通用具身基座大模型

马斯克旗下xAI在美国孟菲斯购地支持数据中心业务；微软被曝开发内部AI推理模型，与OpenAI竞争丨全球科技早参

最新文章

盘中暴跌25%！奈雪，被调出！

标签

关注我们 么么哒！

关注我们的公众号

多模态智能体加快发展：中国信通院启动技术规范编制武汉同步发力

关注我们么么哒！