混元文生图大模型开源，腾讯想缩小与闭源模型的差距

界面新闻记者 | 崔鹏
界面新闻编辑 | 宋佳楠

“在文生图领域，开源（模型）和闭源的差距是逐渐拉大的，希望我们的开源能把这个差距缩小。”

5月14日下午，腾讯宣布最新混元文生图大模型对外开源，该产品负责人芦清林在一场小型沟通会上对界面新闻等媒体如是说。

据腾讯方面介绍，上述大模型是业内首个中文原生的DiT（Diffusion With Transformer）架构文生图开源模型，支持中英文双语输入及理解，参数量为15亿（1.5B）。DiT的核心思想是将Transformer架构应用于扩散模型中，以此来提高生成图像的质量和效率。

该模型采用的DiT架构与Open AI的革命性产品Sora保持一致，不仅可支持文生图，也可作为视频等多模态视觉生成的基础。目前其已在专注于自然语言处理（NLP）的开源机器学习平台Hugging Face及面向软件开发者的代码托管平台Github上发布，包含模型权重、推理代码、模型算法等完整模型，可供企业与个人开发者免费商用。

若以腾讯方面提供的评测数据来看，其效果超过开源的Stable Diffusion模型，整体能力走在前列。

“我们还会尝试参数量更大的模型，它消耗的计算资源和时长会更长。”芦清林称，“虽然还没ready（准备好），但已经在做。”

为何选择DiT架构？

本次混元文生图大模型升级的重点在于采用全新的DiT架构，在这方面混元与Sora和Stable Diffusion 3保持了一致性，都是基于Transformer架构的扩散模型，它的优点是对大参数量更加友好。

混元文生图大模型开源，腾讯想缩小与闭源模型的差距-编程日记
摄影：崔鹏

过去，视觉生成扩散模型主要基于U-Net架构，会先将图片压缩，然后再重新放大，但这个过程通常会伴随信息损失。随着参数量提升，这个架构的训练稳定性也在逐渐变差，使用它的模型正在变少。

芦清林表示，基于Transformer架构的扩散模型网络结构，避免了信息的压缩处理，能显著提高模型的生成质量及效率。

新架构的语意表达能力更强，可容纳的信息量更多，也能适应更大规模的参数量，“未来升级到5B甚至10B时，我们都有把握将大模型训练得更加合理。”芦清林强调。

据界面新闻了解，早在2023年7月前后，腾讯团队就明确了基于DiT架构的模型方向，启动新一代模型研发，但当时国内少有产品尝试此方向。

今年初，混元文生图大模型升级为DiT架构，在这个过程中，腾讯也对原有模型进行了部分改进。比如，在算法层面优化了模型的长文本理解能力，能够支持最多256字符的内容输入。

此前Stable Diffusion等主流开源模型核心数据集以英文为主，混元文生图则强调是中文原生的DiT模型，具备中英文双语理解及生成能力。

芦清林告诉界面新闻，过去很多大模型都是把国外的数据做一层翻译，再变成中文进行训练，在这个过程中会造成很多信息损失和理解歧义。而混元文生图大模型支持的是原生中文理解能力，砍掉翻译过程，用户可直接使用中文数据进行训练，大模型理解的也是中文。

腾讯展示的评测结果显示，新的文生图大模型视觉生成整体效果较前代提升超过20%，在语义理解、画面质感与真实性方面提升明显。

同时，混元还实现了多轮生图和对话能力，用户能在一张初始生成图片的基础上，通过自然语言描述进行调整。

在芦清林看来，多轮对话本质上是大语言模型不停在用户和chatbox（AI聊天机器人）之间做交互，用户不需要一上来就提供完整的提示词，可以一边写一边改一边生成（图片），觉得不满意再改再生成，极大降低了使用门槛。

开源能让大模型走得更快

据界面新闻了解，混元文生图大模型去年主要在与腾讯广告进行合作，搭建广告场景下的AI驱动工具，今年则计划加大与QQ、企业微信和游戏等业务的合作，在更多的业务场景中大规模落地应用。

芦清林强调，目前混元文生图大模型的开源版本，也是腾讯内部正在使用的版本，不存在自用的领先几代，给业界放出来会落后的问题。

实际上，它已经在腾讯内部被用于素材创作、商品合成和游戏出图等众多场景。比如在今年初，腾讯广告就基于混元大模型，推出一站式AI广告创意平台，可以为广告主提供文生图、图生图与商品背景合成等工具。

过去混元文生图大模型走的路线也是闭源，内部将大模型迭代后，再将接口开放出来使用。现在团队发现，做开源社区能让更多开发者参与进来，共建的方式有助于大模型走得更快。

“去年7月开始转型（DiT架构），我们踩了非常多的坑，直到今年1月份才逐步把问题解决掉。”芦清林认为，此时选择开源是一个合适的时机，基于开源模型，企业无需重头训练，即可直接用于推理，能够节约大量人力和算力。

今年春节期间Open AI放出Sora之后，芦清林说团队“年都没过好”，对方已经证明了DiT架构的强大能力，“我们希望把图片的DiT分享出来，让业界想做视频的同行可以快速跟进追赶。”

在选择开源之前，腾讯也在内部做了横向对比测试，结论是在图文一致性、美学、清晰度等对比维度上，混元与主流闭源模型相比差距不算太大，能排在Dalle 3和SD 3（Stable Diffusion 3）之后。

此外，目前的文生图开源社区主要还是Stable Diffusion等为主的英文开源社区，腾讯选择开源后，能丰富以中文为主的文生图开源生态，形成更多样的原生插件，推动中文文生图技术研发和应用。

混元文生图大模型的开源，也是腾讯推进开源战略的一部分。根据官方给出的统计，腾讯目前已经开源了超过170个项目，且都基于真实的业务场景，覆盖微信、腾讯云和腾讯游戏等核心业务。

混元文生图大模型开源，腾讯想缩小与闭源模型的差距

品牌价值观丨苹果罕见道歉！新品广告惹争议！

为提升电动自行车安全性上海、南京等地与智能无线设备制造商江苏北人签约扬州等地与全固态电池企业签约

最新文章

论坛现场一座难求固态电池“实火” 设备推进产线建设加速业内：全固态2028年进入GWh阶段|直击高工锂电年会

长视频平台“招商战”升级，“S级”大剧与微短剧抢流量

中国平煤神马集团与宁德时代签署战略合作协议

因诉讼撤回欧盟结束对苹果电子书业务反垄断调查

因诉讼撤回，欧盟结束对苹果电子书业务反垄断调查

固态电池携手低空经济打开产业发展新空间

北京君正：公司异构多核处理器X2600、T41等已应用在扫地机器人等领域

财联社汽车早报【11月23日】

汽车早报｜比亚迪否认与蔚来汽车成立合资公司毫末智行回应裁员传闻

特斯拉称将就针对Rivian的技术盗窃诉讼达成和解

标签

关注我们么么哒！

混元文生图大模型开源，腾讯想缩小与闭源模型的差距

品牌价值观丨苹果罕见道歉！新品广告惹争议！

为提升电动自行车安全性 上海、南京等地与智能无线设备制造商江苏北人签约 扬州等地与全固态电池企业签约

猜你喜欢

首富叫板首富，只为“算法之恶”

ESG Weekly|腾讯混元技术负责人刘威离职创业；中国可持续发展蓝皮书在巴库气候大会中国角发布

乌镇峰会聚焦未成年人网络保护 腾讯给出三个关键词

乌镇峰会聚焦未成年人网络保护，腾讯郭凯天：以“守护、发展、共治”护航青少年

搜狗输入法也要“变身”AI搜索了

单月流水超千万，快手可灵AI商业化能力初显

关于AI基建及产业大模型，吴泳铭、周鸿祎等在乌镇给出了这些看法

LiveBench发布最新榜单：阶跃星辰Step-2位列中国大模型第一

天融信：公司已推出天问大模型系统、产品小天、云上小天、天问智算云平台等系列产品

百度战投领投全灵千万美元Pre-A轮融资

金融数智化呼唤存力变革 “先进存力”有望打出中国科技新名片

腾讯智慧零售x绝味食品战略合作，联合共创餐饮零售连锁AI垂直大模型

最新文章

论坛现场一座难求 固态电池“实火” 设备推进产线建设加速 业内：全固态2028年进入GWh阶段|直击高工锂电年会

标签

关注我们 么么哒！

关注我们的公众号

为提升电动自行车安全性上海、南京等地与智能无线设备制造商江苏北人签约扬州等地与全固态电池企业签约

乌镇峰会聚焦未成年人网络保护腾讯给出三个关键词

论坛现场一座难求固态电池“实火” 设备推进产线建设加速业内：全固态2028年进入GWh阶段|直击高工锂电年会

关注我们么么哒！