智谱清言App升级视频通话功能记者实测：提问秒回，可随时打断当前谈话

和大模型打视频电话可能即将实现。

8月29日，《每日经济新闻》记者获悉，智谱清言App将上线视频通话功能，智谱方面介绍，清言App的视频通话功能，具有跨文本、音频和视频进行实时推理的能力，AI可以进行流畅的通话，人可以实时打断AI；此外，通过手机或AIPC的摄像头与人互动，可通过视频流理解对话当前的环境（包括人物状态/背景环境）。

今年5月，OpenAI发布多模态大模型GPT-4o，曾凭借自然流畅的实时音视频交互引发关注。

清华大学新闻学院和人工智能学院双聘教授沈阳在接受《每日经济新闻》记者微信采访时表示，具备视觉交互是未来大模型极其重要的发展方向之一，对于国内大模型而言，这方面的探索同样必要。他认为，视觉获取的信息占据了人类获取总信息量的80%以上，因此，当大模型具备了视觉交互能力后，它便拥有了向具身智能和人形机器人结合的重要技术基础。

智谱清言App上线视频通话功能

8月29日，智谱方面宣布，清言App将于30日上线“视频通话”功能，这也是国内首个面向C端开放的视频通话。演示显示，用户可以通过视频实时交互，例如将摄像头对准一套试卷并圈出其中一题请其解答，清言就能实时识别，并给出相应解答。

记者通过清言App体验其视频通话功能，将摄像头对准玩偶进行拍摄，随后清言开始描述玩偶的颜色、外观等。

记者将镜头对准一本书后提问书的主要内容，清言在几秒后给出解答，其间记者打断其介绍要求重复作者的名字，清言在停顿几秒后开始介绍书籍作者。

今年5月，OpenAI发布多模态大模型GPT-4o，可以接受文本、音频和图像的任意组合作为输入，并生成文本、音频和图片的任意组合输出。彼时，GPT-4o凭借自然流畅的实时音视频交互引发市场关注。

行行AI董事长、工业和信息化部工业文化发展中心AI应用工作组执行组长李明顺在接受《每日经济新闻》记者微信采访时表示，拥有实时视频对话和视觉交互能力的大模型确实是未来人工智能发展的重要方向之一。

李明顺表示，这个方向有大量AI的应用场景，例如：在更实时互动的娱乐游戏、更真切数字人体验的营销服务、形象逼真的远程教育、金融等高端行业的虚拟顾问、更有情绪价值的医疗咨询等领域，都有大量的提升效率和服务体验的价值。

沈阳则认为，具备视觉交互是未来大模型极其重要的发展方向之一，对于国内大模型而言，这方面的探索同样必要，这一功能的缺失将意味着在技术上落后于国际同行，甚至可能面临技术依赖的风险。

沈阳表示，视觉获取的信息占据了人类获取总信息量的80%以上，因此，当大模型具备了视觉交互能力后，它便拥有了向具身智能和人形机器人结合的重要技术基础。具备视觉交互能力的大模型能够实时与环境互动，并能实时感知世界的变化，是大模型在全面模拟人类能力的重要一步，基于此，大模型才真正超越了虚拟化，能够与世界进行实际的互动，当大模型具备了与现实世界交互的能力后，就将能够借助硬件，如人形机器人等，在人类指令下进行一定程度的真实世界探索。

清言视频通话具备实时推理能力

《每日经济新闻》记者从智谱方面了解到，清言App视频通话功能将于8月30日上线，首批面向清言部分用户开放，同时开放外部申请。智谱方面称，将会持续迭代并逐步放开规模，尽快让全员都可以使用。

随着视频通话功能的上线，清言App开启新的信息输入模式，不再局限于打字、语音；在对话交流层面，不用一来一回，能够实时沟通，随时打断。

智谱方面介绍，清言App的视频通话功能，具有跨文本、音频和视频进行实时推理的能力，可实现更自然的人机交互；AI可以进行流畅的通话，人可以实时打断AI；此外，通过手机或AIPC的摄像头与人互动，可通过视频流理解对话当前的环境（包括人物状态/背景环境）。

智谱方面表示，清言作为第一批C端上线的大模型产品，过去的一年，常常以文字和语音的形式和大家交流。但未来，清言将拥有了眼睛。这个“长着眼睛”的AI精灵可以见你所见、答你所问。

据介绍，清言视频通话跨越了文本模态、音频模态和视频模态，并具备实时推理的能力，用户拨打清言的视频通话窗口，即可与它进行通话，即便频繁打断它也能反应。只要打开摄像头，用户看到的画面，清言也可以看到，同时可以听懂指令并准确执行。

除了视频通话功能上线，在KDD国际数据挖掘与知识发现大会上，智谱GLM团队介绍了新一代基座大模型GLM-4-Plus。GLM-4-Plus是智谱全自研GLM大模型的最新版本，它标志着智谱继续瞄准通用人工智能，持续推进大模型技术的独立自主创新。

据悉，GLM-4-Plus在语言理解、指令遵循、长文本处理等方面性能得到全面提升。目前，GLM-4-Plus现已在智谱大模型开放平台部署，企业和开发者即日起可以通过智谱开放平台上的API调用智谱最新的基座大模型。

此外，智谱文生图模型迭代至最新版本CogView-3-Plus。智谱方面表示，该模型效果已接近目前文生图领域效果最佳的MJ-V6及FLUX等模型，并支持图片编辑功能。

继CogVideoX-2B版本开源后，智谱方面表示，CogVideoX-5B版本也于近日正式开源，同时CogVideoX-2B的开源协议调整为更加开放的Apache 2.0协议，任何企业与个人均可自由使用。开源成果方面，智谱开源模型累计下载量突破2000万次。

此外，智谱方面还宣布，随着技术进步、效率提升和成本优化，智谱大模型开放平台上的大模型GLM-4-Flash现已完全免费，用户可以通过调用GLM-4-Flash快速、免费地构建专属模型和应用，这也是智谱开放平台首个完全免费的大模型API。

智谱清言App升级视频通话功能记者实测：提问秒回，可随时打断当前谈话

比特币站上61000美元/枚

「盘中宝」人工智能技术取得的突破性进展，将为该领域创新发展提供重要驱动力，未来这类产品有望在各行各业中落地，这家公司相关产品今年已陆续进入多个厂商制造车间

最新文章

挖金客：已在移动信息化业务板块开展AI机器人外呼业务

深圳：每年发放最高5000万元“语料券” 促进语料开放共享和交易推动数据要素市场建设

深圳：每年发放最高5000万元“语料券”，促进语料开放共享和交易，推动数据要素市场建设

深圳：每年发放最高1亿元“模型券”，降低人工智能模型应用成本

深圳：对科技重大专项和人工智能“揭榜挂帅”项目，给予最高3000万元资助

深圳：设立人工智能产业基金坚持“投早、投小、投长期、投硬科技”

深圳：每年投入最高3亿元，聚焦自动驾驶、人工智能芯片等重点领域

深圳：围绕先进制造业、现代服务业和科学研究等重点领域，每年投入最高1亿元

挖金客：已开展AI机器人外呼业务

深圳：每年发放最高1亿元“模型券” 降低人工智能模型应用成本

标签

关注我们么么哒！

智谱清言App升级视频通话功能 记者实测：提问秒回，可随时打断当前谈话

比特币站上61000美元/枚

「盘中宝」人工智能技术取得的突破性进展，将为该领域创新发展提供重要驱动力，未来这类产品有望在各行各业中落地，这家公司相关产品今年已陆续进入多个厂商制造车间

猜你喜欢

豆瓣回应App闪退：缓存错误配置文件导致，卸载重装即可解决

在评论区反复“哭穷”，机票价格会变低？立“人设”、减少使用App，年轻人开始反向驯化“大数据杀熟”

阿里在日本推出电商APP“TAO”：未来将扩充人员开拓当地市场

感恩用户二十载，每经App8.0焕新升级，幸运大抽奖开启

豆包支持带有指定文字的图片生成，App已开启测试

今日头条、拼多多等9款APP接入工信部“一证通查”服务

华为花瓣邮箱App将下架，已安装用户可以正常使用

【独家】“不夜星球”运营失联，无法正常提现

博彦科技：与智谱清言在大模型应用落地方面有协作

修图软件开发商被“招安”，苹果智能系统将迎来强援？

手机开始“自动驾驶” 一句话下单2000杯咖啡？消费者复现或有困难

时隔13年“破镜重圆” ，双十一前夕支付宝接入京东APP

最新文章

挖金客：已在移动信息化业务板块开展AI机器人外呼业务

标签

关注我们 么么哒！

关注我们的公众号

智谱清言App升级视频通话功能记者实测：提问秒回，可随时打断当前谈话

关注我们么么哒！