首个AI大模型高考全卷评测结果发布

fengjun 热点 2024-06-19 39

据上海人工智能实验室官微，近日，司南评测体系OpenCompass选取6个开源模型及OpenAI的GPT-4o开展首个大模型高考“语数外”全卷能力测试。评测采用全国新课标I卷，参与评测的所有开源模型，开源时间均早于高考，确保评测 “闭卷”性。同时，成绩由具有高考评卷经验的教师人工评判，更加接近真实阅卷标准。首个大模型高考全卷评测结果显示，阿里通义千问Qwen2-72B、OpenAI的GPT-4o及书生·浦语2.0文曲星（InternLM2-20B-WQX）成为本次大模型高考的前三甲，对应得分率分别为72.1%、70.5%和70.4%。大部分模型在“语言”本质上的表现良好，语文平均得分率为67%，英语更是达到了81%。而数学则是所有大模型的短板，平均得分率仅为36%；InternLM2-20B-WQX取得了75分的最高分，超过所有受测模型。然而仍未达到及格水平。

喜欢 (0)

首个AI大模型高考全卷评测结果发布

视频号拟禁止虚拟直播，数字人带货还有未来吗？

广汽本田裁员名额被抢空，部分员工早已计划跳槽到造车新势力

最新文章

扎克伯格紧盯TikTok创作者：提供最高5000美元“改变门户”奖金

东方甄选俞敏洪再谈退休：我63岁了，身体还可以，近一两年不用担心我退休

苹果：自营渠道买iPhone不参与国补，iPhone13不会再上架

惠威科技：公司除在天猫开设旗舰店外，与阿里巴巴再无合作

振邦智能：目前公司尚未将产品应用于AI智能玩具领域

俞敏洪谈孙东旭复播内情：是我允许的，他反复请求；小孙做事情总是希望做到极致

AI物联网与自动驾驶共振，万马科技(300698.SZ)助力中国车企“智联”

黄仁勋北京年会跳APT，中国行一周为近年最久，一年一度热舞大会不冷场

临近空间航空商业化还有一段路要走业内人士：政策环境和产业链完善都很重要

iPhone17“Air”定了？背板为水平横置单摄，或成为有史以来最薄的苹果手机，17全系被传水平横置镜头

标签

关注我们么么哒！

首个AI大模型高考全卷评测结果发布

视频号拟禁止虚拟直播，数字人带货还有未来吗？

广汽本田裁员名额被抢空，部分员工早已计划跳槽到造车新势力

猜你喜欢

【独家】百万tokens降价至0.8元后，豆包模型毛利率已能达到50%

Deepseek、Kimi争相对标o1，初创公司能打破“技术”和“用户”二选一魔咒吗？

汤姆猫：ai+ip布局陪伴赛道 接入西湖心辰和豆包大模型保持技术优势

DeepSeek最新模型硬刚o1！英伟达科学家等大佬：这才配叫OpenAI

豆包语音大模型刺激端侧AI爆发，“春节红包”在哪里？高手这样看

豆包重磅更新！语音对话“更像人” AI应用端或迎来变革

豆包实时语音大模型上线

美团、字节联手投资3D生成大模型！上科大正走出一支创业“军团”

对话腾讯集团副总裁李强：大模型日趋理性，生态应用需要伙伴来实现

AI领先者共话2025:大模型迎来下半场 Agent、机器人成应用爆发点

商汤科技董事长兼CEO徐立：多模态模型带来的交互革命正在显现|AI领先者心声・2025

讯飞星火发布深度推理模型X1，全国产算力平台训练有多大含金量？

最新文章

扎克伯格紧盯TikTok创作者：提供最高5000美元“改变门户”奖金

标签

关注我们 么么哒！

关注我们的公众号

汤姆猫：ai+ip布局陪伴赛道接入西湖心辰和豆包大模型保持技术优势

关注我们么么哒！