《科创板日报》9月5日讯(特约记者 王云嘉)今日,“‘In AI·无限未来’创新大会”正式亮相外滩大会。本次AI 创新大会由上海报业集团旗下财联社、科创板日报主办, AI daily、蓝鲸新闻协办,于上海·黄浦世博园区 C11馆举行,是2024外滩大会核心“见解论坛”之一。

大模型如何帮助金融工作者降本增效?它又如何发挥潜能帮助管理金融机构内外部知识? 在“In AI 无限未来”创新大会的“‘我与AI’TED演讲”上,恒生聚源总经理吴震操分享了他的思考与实践。

吴震操:大语言模型将改变投资研究范式|直击2024外滩大会-编程日记

▍信息爆炸时代如何获取资讯

“对于投资来说,这是特别知识密集型的工作。不管是机构投资者、研究员、还是基金经理,大家每天要处理海量的信息,全国各地去跑参加路演,调研不同公司,阅读大量的文档、资讯,摘要、整理再计算做估值,做各种各样的推理演算,最后给自己的买方形成报告或者给自己的基金经理形成报告。”

“数据公司在这里面是做什么呢?恒生聚源作为一家数据公司,在过去二十几年里面,第一件事就是帮助所有的投资者,能够从庞大的资讯里面找到他们需要的信号。大家能够对于他们投资的方向作出分析判断,对还是错?风险在哪儿?我们从2000年开始做一件事,就是把非结构化的数据结构化,把全国、乃至全球各地的数据全部搬到大家的桌面,这个事情做了二十几年,一直到人工智能出现。我们发现人工的速度确实赶不上机器进化的速度。”

如何用人工智能解决这个问题?在2016年,恒生聚源选择的第一条路是知识图谱,“我们花了很大的力气去给产业做各种各样的标签,包括产业链的梳理,构建三元组,构建各种各样的关系等等,这里面花费了大量的人力物力。知识图谱很准,但是最大问题是要弄清楚所有的知识和关系的蔓延,这意味着我们还需要继续花费大量的人力和物力。”

▍大模型颠覆投资研究范式

“一直到2022年,大模型彻底的改变了我们整个知识生产,以及大家消费知识的方式。斯坦福在今年初的报告里说,到2026年市场上所有的高质量的数据都会被大模型消耗掉,到2030年全球所有的公开数据都会被大模型吃掉。接下来,数据的收集、知识的生成、把数据整合成知识的过程将被彻底地颠覆。从源头数据到连接信息到生产知识的整个过程被高度压缩了,大模型颠覆了整个知识生产,也颠覆了投资和研究的知识处理。我们想赶上这个浪潮,于是在我们自己内部开始了一个金融大模型的项目,取名叫做‘语控万数’。”

“金融行业大模型应用最关键的一点是要准,但是在大模型实践运用中,很多信息是不准确的,很多推理也不正确。很多结论和推断不知道是为什么给出的,这恰恰是金融行业你需要去解决的。不管是研究员或者投资顾问也好,你需要告诉你所服务的基金经理或者个人投资者,你的数据是哪儿来的。”

“过去两年时间我们在大模型和投研上走了一条很长的路。尝试了Bloom、Pythia、智谱、LLaMa2、千问等多个基座大模型。在训练金融垂域大模型时,使用了我们在过去20年积累的4000亿Token、3500万篇文本。同时,我们已经写了一百万条精调的语料,全是我们的研究员一条条写出来的。通过这些训练,我们有了一个更懂金融的大模型,接下来我们又做了中间层,做了自己的RAG链路,使用小的模型解析我们的问题,接着拿这些解析结果到我们的金融数据库里面来搜寻最精确的数据,把数据反馈回来,给到大模型做提示、组装,直到产生最后的结果。使得大模型的反馈做到了及时、准确、和可溯源”

“我们基于自己的金融大模型以及中间件开发了一个智能投研工作台——WarrenQ。它是一个融合了大模型、AI工具、协同笔记、金融数据等各种工具,给研究员提供一站式的数据和信息获取、加工、分析、以及写作的平台。通过“大模型+AI工具+金融数据+N场景”的模式,WarrenQ已经与多家金融机构进行了多样性、深度场景化的合作探索落地,未来也将持续为金融人士提供智能化的数据分析和交互技术,提升工作效率。

“在人工智能的时代,AI模型爆发的过程中,投资研究底层逻辑还是要基于数据。算法、算力和数据,在金融领域中,数据最后永远是最重要的那一点。投资决策是基于精准的判断。智能投研在增质提效中一定要以大模型平台服务为中心,去连接各种各样的数据源,形成机构自己的知识管理能力。”吴震操表示。