“随着技术不断更新迭代,大模型的应用门槛持续降低,无处不在的数据和算法在推动发展的同时,也带来了新的挑战,比如个人数据泄露、虚假新闻、误用滥用等安全风险。”8月29日,在2024年中国网络文明大会人工智能分论坛上,中央网信办、国家网信办总工程师孙蔚敏说。
生成式人工智能正在快速发展,与此同时,相关的安全问题也越来越突出。
图片来源:每经记者 唐俊 摄
生成式人工智能快速发展
2022年底,ChatGPT横空出世,出色的对话和理解能力,点燃了人们对于生成式人工智能的热情。生成式人工智能背后,是具有大量参数的人工智能模型,也就是常说的大模型。
2023年,中国科技圈开启“百模大战”,包括百度、阿里、腾讯、华为、字节跳动等大型科技公司以及月之暗面等创业企业,纷纷推出自己的中文大模型。
2024年初,OpenAI推出的Sora再次经惊艳公众,Sora可以根据文字描述生成极其真实的视频画面。之后,快手旗下的可灵大模型在海外走红,可灵同样可以生成真实的视频画面。
短短两年时间,中国大模型数量快速上升,并且已经影响科技圈之外的各个行业。截至目前,我国完成备案并上线、能为公众提供服务的生成式人工智能服务大模型已达190多个,注册用户数超过6亿。
在大会举办地成都,人工智能产业也在快速发展。《每日经济新闻》记者从现场了解到,成都已有5个大模型通过国家网信办备案,全国首个人形机器人任务生成式模型在成都诞生。2024年上半年,成都人工智能核心产业规模562亿元、同比增长32.6%。为支持人工智能产业发展,最近,成都还举办金融赋能人工智能企业产融对接会,会上发布688户人工智能企业,首批预授信白名单预授信总额度105.5亿元,成都银行等金融机构为人工智能发展提供支持。
与此同时,孙蔚敏表示,目前中央网信办正通过共建共享机制激励企业贡献部分语料,集成首批1.2G中文语料和600G中文开源互联网语料,并公开发布。
不过中国科学院科技基础能力局副局长曾大军在论坛上谈到,目前各行各业对于大模型的认识存在两个误区:一是“神话”大模型,不过现在大家已经慢慢认识到大模型也有缺陷;二是大模型只是一个工具,但实际上需要与业务深度结合。
曾大军认为,大模型不只是一个产品,而是一套技术体系,对大模型应该有更立体的理解。
针对大模型发展,孙蔚敏表示,要充分发挥我国超大规模市场优势,探索开发全新的应用场景和赋能模式,促进生成式人工智能技术在工业、农业、教育、医疗、卫生等各个领域落地应用,合力推动人工智能在传统行业领域应用取得更大的突破。
安全问题如何保证?
“大模型和人工智能技术,对整个科技发展和社会进步带来深远的影响,无疑是一场巨大的革命,但同时它也带来一些对于安全和治理的思考。”中央广播电视总台技术局数据应用部主任梅剑平在论坛上说。
梅剑平认为,对于一个不知道未来会发展到什么程度、达到什么能力的新技术,思考其潜在的风险是非常重要的。
而对于大模型的安全问题,四川大学网络空间安全学院院长、教授陈兴蜀,已经有了许多思考。陈兴蜀对《每日经济新闻》记者表示,她所关注的是两方面的安全,一是人工智能自身的安全,另外是如何利用人工智能来防护网络安全。
陈兴蜀提到,大模型数万亿的参数、深层次的网络结构,导致模型的可解释性非常差。“就是说我们输入进去以后,不知道它到底会输出什么,模型可解释性实际上目前是业界的难点。”
于是有人利用这个特点对模型展开攻击。陈兴蜀举例,自动驾驶车辆上的模型可以识别道路信息,当出现停止路标时车辆会停下来,但如果给该模型加入扰动,人工智能可能作出相反的判断,从而产生危险的后果。如果类似的事情出现在重点行业里,会产生非常大的影响。
大模型训练会使用亿级的数据量,如何保证个人隐私也是公众关注的焦点。陈兴蜀对《每日经济新闻》记者表示,由于大模型的解释性差,并不知道中间到底存了什么信息。她认为,给模型输入数据的时候规避掉涉及个人隐私的信息,是解决途径之一。
另外,陈兴蜀团队也在研究,如何通过人工智能来提升网络上的自动化攻防对抗能力。她举例,四川大学一个wap设备每天产生的安全告警日志达到百万级,由于数据量非常大,导致这些日志无人查看。但人工智能出现后,可以利用AI去阅读日志以提升网络安全。
2023年7月,国家网信办会同相关部门发布《生成式人工智能服务管理暂行办法》,在全球范围内率先开展立法,对数据使用、算法设计、价值导向提出要求,为行业健康发展提供支撑。
孙蔚敏在论坛上表示,未来将优化大模型备案的流程,加强生成、合成内容的标识管理,在分级分类、安全测试、应急响应等方面丰富完善安全标准体系,引导推动大模型提升安全能力,确保人工智能始终朝着安全可靠的方向发展。