中国信通院发起大模型幻觉测试，总体涉及五种测试维度

fengjun 热点 6小时前 2

3月19日，据中国信通院消息，中国信息通信研究院人工智能所基于前期的AI Safety Benchmark测评工作，发起大模型幻觉测试。本轮幻觉测试工作将以大语言模型为测试对象，涵盖了事实性幻觉和忠实性幻觉两种幻觉类型。测试数据包含7000余条中文测试样本，测试形式包括对应于忠实性幻觉检测的信息抽取与知识推理两类题型，以及对应事实性幻觉检测的事实判别题型。总体涉及人文科学、社会科学、自然科学、应用科学和形式科学五种测试维度。

中国信通院发起大模型幻觉测试，总体涉及五种测试维度-编程日记

喜欢 (0)

中国信通院发起大模型幻觉测试，总体涉及五种测试维度

中国信通院启动“可信AI”AI Safety Benchmark大模型幻觉评测

浙南低空飞行服务管理（温州）有限公司成立

最新文章

腾讯加大开支豪赌AI，管理层回应元宝留存和机器人业务

比特币重回84000美元关口，美股加密货币概念股全线走高，CleanSpark、TeraWulf涨超5%，Strategy、Coinbase涨超3%

元宝35天更新30次腾讯去年Q4“购买了很多GPU” 涉AI资本开支达390亿元|财报解读

超微电脑推出使用英伟达Grace CPU超级芯片的新服务器

豆包宣布编程能力升级，支持HTML代码实时预览和交互

追觅科技发布首款擦窗机器人产品，将于今年内上市

麦格纳宣布与英伟达达成深度战略合作

浪潮云今年将落地超过1000个分布式智能云节点

依图科技中标中国电信服务器集采项目，总金额超3亿元

解码小米714亿资本棋局雷军“押宝”AI新战场 |聚焦

标签

关注我们么么哒！

中国信通院发起大模型幻觉测试，总体涉及五种测试维度

中国信通院启动“可信AI”AI Safety Benchmark大模型幻觉评测

浙南低空飞行服务管理（温州）有限公司成立

猜你喜欢

中国信通院启动“可信AI”AI Safety Benchmark大模型幻觉评测

科学家发现新型有机金属分子“锫茂”

昆仑万维开源R1V视觉思维链推理模型

最新研究：人类的智力似乎正在走下坡路

基辛格生前最后一本书：人类要如何与人工智能共存？

帕金森病相关蛋白结构确定

谷歌DeepMind推出用于机器人的AI模型

阿里巴巴推出AI旗舰应用“新夸克”

阿里正式推出AI旗舰应用，新夸克发布“AI超级框”

中国信通院人工智能研究所：正式启动大模型和智能体通信协议系列标准编制工作

阿里开源全模态模型R1-Omni 情感识别能力更优

立昂技术：“立昂领算云”平台已上架最新版DeepSeek-R1 660B推理模型

最新文章

腾讯加大开支豪赌AI，管理层回应元宝留存和机器人业务

标签

关注我们 么么哒！

关注我们的公众号

关注我们么么哒！