Meta宣布开发多模态模型CM3Leon

7月19日消息，日前 Facebook 母公司 Meta 方面宣布，已开发出一款名为 CM3Leon 的多模态语言模型。

据了解，该模型是史上首个单一多模态模型，可以根据文本生成高质量的图像，也可以为图像生成文本描述，以及回答有关图像内容的问题、根据文本指令编辑图像。简而言之，也就是 CM3leon 可以在理解、编辑、生成图像、文本的不同任务间自由切换。

此外，Meta 方面还演示了 CM3Leon 模型的部分能力，并称其在文生图和图像理解领域的表现，已超越谷歌、微软等厂商的一众同类产品，并达到了业界最高水平。但同时 Meta 方面也承认，现阶段的 CM3Leon 模型可能存在数据偏见的问题，仍然需要行业监管。截至目前，Meta 方面尚未透露是否会公开发布 CM3Leon 模型。

值得一提的是，与既有的、较为知名的 Stable Diffusion，DALL-E、Midjourney 等文生图模型依赖于扩散（diffusion）模型技术不同，CM3Leon 采用了基于 token 的自回归模型方法。

Meta 方面表示，测试结果表明，基于 token 的自回归模型不仅比基于扩散模型的方法更有效，在文生图领域实现了 SOTA，而且训练的计算量还比此前基于 Transformer 的方法少了五倍。

而在预训练阶段，为了训练这一模型，Meta 使用了数百万张来自 Shutterstock 的授权图片，有着高达 70 亿个参数，这也达到了 OpenAI EALL-E2 模型的两倍以上。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，应及时向本网站提出书面权利通知或不实情况说明，并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后，将会依法尽快联系相关文章源头核实，沟通删除相关内容或断开相关链接。

Meta宣布开发多模态模型CM3Leon

下一篇