每日经济新闻大模型评测报告（第2期）：国产“黑马”逆袭，计算能力差成通病

每经记者：王嘉琦每经编辑：宋欣悦

每日经济新闻大模型评测报告（第2期）：国产“黑马”逆袭，计算能力差成通病-编程日记

在每日经济新闻于6月25日发布的《每日经济新闻大模型评测报告》第1期中，15款国内外主流大模型在“财经新闻标题创作”“微博新闻写作”“文章差错校对”“财务数据计算与分析”四大实战场景进行了比拼。

随着大模型的迭代更新和大模型新秀的涌现，《每日经济新闻大模型评测报告》第2期如期而至。

第2期评测延续首期评测的宗旨，立足实战，力求为用户展现大模型在具体工作场景中的真实表现，为用户在工作、学习和生活中选择最佳大模型助手提供可靠参考。

本期评测设置了三个应用场景：（1）金融数学计算；（2）商务文本翻译；（3）财经新闻阅读。

每经大模型评测小组为每个场景制定了相应的评价维度和评分指标。每日经济新闻10名资深记者、编辑根据评价维度和评分指标，对各款大模型在三大场景中的表现进行评分，汇总各场景得分，最终得到参评大模型总分。

不同于首期，第2期评测中的任务以客观题为主，绝大多数题目都有标准答案。同时，评价维度和评分标准也更加突出客观性，尽量避免主观性评价。

需要特别指出的是，本期评测是通过各款大模型的API端口，并在默认温度下完成。与公众用户使用的大模型C端对话工具存在差异。但评测结果对用户在具体场景中选择合适的大模型工具，依然具有重大参考价值。

本期评测在“雨燕智宣AI创作+”测试台上进行，参评模型包括GPT-4o、智谱GLM-4、百度文心ERNIE-4.0-Turbo等15款国内外明星大模型。

本期评测时间为2024年8月12日，因此上述参评大模型中的所有国内大模型均为截至8月12日的最新版本。

每日经济新闻大模型评测报告（第2期）：国产“黑马”逆袭，计算能力差成通病-编程日记

谁能在三大评测场景中脱颖而出？

经过激烈角逐，评测结果新鲜出炉！

报告完整版以及测评题目，评分指标细则及部分案例，可访问：。

每日经济新闻大模型评测报告（第2期）：国产“黑马”逆袭，计算能力差成通病-编程日记

评测结果显示，“黑马”幻方求索DeepSeek-V2以237.75的总分位居榜首，紧随其后的是腾讯混元hunyuan-pro（237.08分）和Anthropic Claude 3.5 Sonnet（234.42分）。

在专项能力方面，各模型展现出了不同的优势。

金融数学计算方面，腾讯混元hunyuan-pro以78分的成绩领先其他模型，排名第一，幻方求索DeepSeek-V2和商汤商量SenseChat V5.5紧随其后。相比之下，零一万物的Yi-Large、百度的文心ERNIE-4.0-Turbo以及昆仑天工的SkyChat-3.0则在金融数学计算方面表现稍显逊色，分别位列倒数第三、倒数第二与倒数第一的位置。

每日经济新闻大模型评测报告（第2期）：国产“黑马”逆袭，计算能力差成通病-编程日记

商务文本翻译场景中，Anthropic Claude 3.5 Sonnet凭借其91.67分的卓越成绩，显著领先于其他竞争对手，谷歌Gemini 1.5 Pro、GPT-4o及字节豆包Doubao-pro-32k紧随其后，展现了不俗的翻译实力。然而，腾讯混元hunyuan-pro、智谱GLM-4与昆仑天工SkyChat-3.0在该场景下的表现则稍显逊色，分别位于榜单的后三位。

每日经济新闻大模型评测报告（第2期）：国产“黑马”逆袭，计算能力差成通病-编程日记

转至财经新闻阅读场景，昆仑天工SkyChat-3.0以87.75分的佳绩拔得头筹，GPT-4o与Anthropic Claude 3.5 Sonnet紧随其后。相比之下，智谱GLM-4、百度文心ERNIE-4.0-Turbo及讯飞星火Spark 4.0 Ultra在此方面的表现则稍显不足，分列该场景排名的后三位。

每日经济新闻大模型评测报告（第2期）：国产“黑马”逆袭，计算能力差成通病-编程日记

结论一：大模型之间差距明显

本次评测结果显示，幻方求索DeepSeek-V2、腾讯混元hunyuan-pro、Anthropic Claude 3.5 Sonnet、GPT-4o和商汤商量SenseChat V5.5构成第一梯队。值得注意的是，排名靠前的模型中，国产大模型表现突出，与顶级海外模型实力相当。

然而，从第一名幻方求索DeepSeek-V2（237.75分）到第十五名讯飞星火Spark 4.0 Ultra（197.83分），总分差距达到了近40分，反映出大模型间仍存在显著差距。

结论二：数学计算能力成普遍短板

各款大模型数学计算方面普遍存在不足。

15款参评模型中，仅有腾讯混元hunyuan-pro、幻方求索DeepSeek-V2、商汤商量SenseChat V5.5、字节豆包Doubao-pro-32k这4款大模型超过60分。即使是在其他场景表现出色的模型，如Anthropic Claude 3.5 Sonnet和GPT-4o，在此项测试中也仅得到59分。

具体而言，腾讯混元hunyuan-pro表现较为突出，从第1期评测这个计算题第六名一跃成为本期第一；字节豆包Doubao-pro-32k从第八名提升到第四名。

同时，经过版本更新的商汤商量SenseChat系列，在第2期评测中也以SenseChat V5.5的新姿态亮相，并实现从原先第十四名到第三名的巨大跨越。

上一期的“黑马”幻方求索DeepSeek-V2依然表现出突出且稳定的计算能力，在两期评测的计算题中均排名第二名。

与之形成鲜明对比的是，零一万物Yi-Large在上期评测的计算题中排名第三，但在此次评测中跌落至倒数第三。

从具体题目分析，对于用一步计算即可得到答案的简单计算题，15款大模型均表现良好。然而，面对计算公式复杂、步骤较多的题目时，不少大模型表现并不理想。

此外，许多大模型在处理特定数学逻辑与表达规范上存在局限。例如，不能准确区分百分数作差结果应采用的正确表示方式——即应该使用百分点而非直接以百分数形式来表达。

结论三：国内大模型需提高外语能力

整体来看，在商务文本翻译场景中，参评大模型表现了较高的翻译水平，平均分达到了84.5分。海外大模型展现出明显优势，包揽了该场景下的前三名。

不过，国内外大模型在英译汉中的得分差距不大，真正使总分拉开差距的是汉译英。Anthropic Claude 3.5 Sonnet、谷歌Gemini 1.5 Pro和GPT-4o在汉译英任务中得分均超过90分。

而国内大模型表现相对逊色，尤其是在“意思准确”与“术语一致性”维度上有待提升。此外，在“意思完整”维度上，幻方求索DeepSeek-V2、昆仑天工SkyChat-3.0相对来说，表现欠佳。而在“细节准确性”维度上，腾讯混元hunyuan-pro、月之暗面moonshot-v1以及字节豆包Doubao-pro-32k的表现有待提升。

结论四：通用大模型各项能力却不均衡

第2期评测与第1期评测的场景、维度和标准不同，导致部分模型排名变化显著。尽管都是通用大模型，但存在各项能力不均衡，“偏科”现象严重的情况。

具体而言，零一万物Yi-Large两期评测的表现波动较大。在第1期评测中，零一万物Yi-Large位居榜首。然而在第2期评测中，其表现大幅下滑，总排名也跌至倒数第四。

本期评测新加入的大模型昆仑天工SkyChat-3.0，在文章阅读及问答中排名第一，但在金融数学计算以及商务文本翻译中却垫底。

腾讯混元hunyuan-pro的表现则展现了明显的进步。在第1期评测中，其排名相对靠后。但在第2期评测中，腾讯混元hunyuan-pro总分位列第二，尤其在金融数学计算场景中以78分的成绩领先其他大模型。

相比之下，幻方求索DeepSeek-V2在两次评测中都表现出色。在第1期评测中，幻方求索DeepSeek-V2排名第三；而到了第2期评测，更是跃居榜首。在计算能力方面，幻方求索DeepSeek-V2均保持了高水平的发挥。

海外大模型中，Anthropic公司的Claude在两期评测中都表现不俗，但排名有所变动。在第1期中，Anthropic Claude 3 Opus排名第二；在第2期中，Anthropic Claude 3.5 Sonnet尽管在商务文本翻译任务中表现出色，但总体排名略有下降，排在第三位。

每日经济新闻大模型评测小组2024年9月

⋯⋯⋯⋯

未来，每日经济新闻将基于评测报告，精选各场景下的优秀大模型，开发相应的功能，在每经App上线，为用户带来高效、高质的AI工具与全新体验。

同时，“每日经济新闻大模型评测小组”将继续深入探索大模型的无限可能，从实际应用场景出发，对各个大模型进行全方位的评测，并定期推出专业报告，带来最前沿的洞察和发现。

在此，我们诚挚地邀请您，加入评测项目。