多模态与AI搜索的全球科技竞速：中国AI，且信天工

从全球视野看，OpenAI、谷歌等AI巨头，以及百度、昆仑万维等中国科技公司，作为推动技术创新的关键力量，成为各自地区AI发展的风向标。

不同地区的AI企业各有千秋，但技术发展的潮水方向却大体相同，那就是：技术做高，产品做广。

所谓技术做高，指的是模型能力的持续进阶。比如今年4月17日开启公测的天工3.0，就是全球首个多模态“超级模型”（Super Model），具备多模态、搜索增强等能力，同期，又接连发布了全球首个开源AI音乐大模型SOTA。而随后5月份OpenAI发布的最新大模型GPT-4o，也强调了多模态大一统的能力，谷歌也在随后的Gemini Astra中展示了类似能力。

所谓产品做广，指的是模型落地需要丰富的软硬件产品作为支撑。这一点上，相比“OpenAI+微软”的合作模式，谷歌、昆仑万维这样“自有模型+自有产品生态”自成一派的厂商，更容易加速AI产品化。比如天工AI在去年就已经推出的中国第一款AI搜索，刚刚上线的全网唯一AI视频转绘功能，天工AI俨然已经实现了AI搜索、文生图、图像处理、AI PPT、AI动漫、AI音乐、AI视频转绘等多元应用，日活跃用户数已经突破百万，成为中国头部AIGC资深玩家。

谷歌也在I/O开发者大会一口气拿出来十来款新品及升级，展现出了极强的商业潜力，会后带动了谷歌的股价上涨。

说到这里，想必读者们已经发现了，昆仑万维的天工AI与谷歌的Gemini，在技术路线和产品能力上具备相似性，而且目前针对C端用户完全免费，而且覆盖各种设备、使用场景的需求。

这让我想到了宋代词人一首鼓励学子“赶考”的词：看蒲质易凋，何如松茂，菊花已老，须是梅开。万事何难，时来得做，且信天工次第排。从今去，愿径游璧水，直上兰台。

如果我们将科技企业的技术创新，看作是一场“赶考”，那么有理由相信，AI搜索、多模态等最新考题，对中国企业并不是很大的困难。只要坚持去做，时机一到，便会如经过寒夜的梅花一般绽放。

至少，最新的AI产品，比如谷歌在海外独占优势的AI搜索，以及时下正处于大模型金字塔尖的多模态，天工3.0都具备上述特性。

从这一点上看，中国AI，终于有了一点“万事何难，时来得做，且信天工”的淡定。

我们不妨借着当下最火的两大AI能力说开去，聊聊昆仑万维天工3.0是如何做到一流水平的，以及天工大模型这一株“AI梅花”开放的过程。

AI搜索：天工3.0与谷歌的独特芬芳

放眼全球，仅有在搜索业务上有底蕴、模型技术上有创新的厂商，比如谷歌、昆仑万维、百度等，以及背靠亚马逊的新秀Perplexity，才能在搜索效率、智能性、个性化体验上取得突破，培育出AI搜索这一独具特色的成果，为用户带来了前所未有的搜索体验。

为什么AI搜索是头部大模型厂商的关键赛点？一是体验优势，传统搜索引擎的精准度不高，用户容易被各种广告和钓鱼帖干扰，在海量信息里大海捞针，搜索效率与体验都急需得到改善；二是流量优势，早在传统互联网时代，搜索引擎就是流量汇聚的入口，也是商业价值的体现，到了AIGC时代，人类创作、AI创作的内容规模更是非线性增长，用户找到想要信息的难度也前所未有地增大，搜索工具变得更为重要，虹吸流量的能力毋庸置疑。

最近的谷歌I/O发布会上，就推出了许多基于Gemini大模型的搜索功能。幸好，通过天工3.0，我们也能欣赏到中国“AI搜索”的独特魅力。

目前，一流水平的AI搜索，有三个能力值得关注：

能力一：多模态，图文并茂的搜索体验。

多模态搜索是一种先进的搜索技术，允许用户通过多种类型的数据（模态）进行搜索查询，能够更全面地理解和响应用户的查询需求，提供更加丰富和准确的搜索结果。目前，仅有昆仑万维、谷歌等少数厂商，可以将文本、图片、音频、脑图等多形态答案集成在一起，给用户图文并茂的搜索体验。

比如，当用户要求大模型提供一个三天的膳食计划：

OpenAI的GPT-4只支持文字版本，菜品啥样全靠用户自己想象：

谷歌最新的Gemini大模型，则支持图文双模态搜索：

天工3.0则支持多模态一体化搜索：

能力二：更强推理，复杂任务轻松搞定。

模型能力的提升，带来了更强的逻辑推理能力，也让搜索从传统的“被动呈现”进阶为AIGC的“主动生成”。比如天工3.0通过4000亿级参数MoE混合专家模型，在模型语义理解、逻辑推理，以及通用性、泛化性、不确定性知识、学习能力等领域都有着大幅的性能提升，从而在实际应用中更加准确和高效地处理信息。

在天工的“搜索增强”模式中，在分析某个具体行业的信息时，或者遇到宽泛问题时，天工AI能够实现总结相关事件、拆解产业链地图等复杂功能，或者拆解问题进行多步骤推理，并以结构化或思维导图以及PPT的形式进行最终展示。

我们一起来试试报志愿相关问题，会发现天工AI可以将问题所涉及的领域逐一推理拆解，这与Gemini重磅出击的多步骤推理完全是一个逻辑。

我们再来举个例子，当用户在搜索A新能源汽车时，想跟B品牌进行参数对比，不需要自己在不同网页间反复横跳，天工3.0支持多个产品横向对比，智能整合全网优质信息，并输出图表，通过AIGC减少用户的操作步骤，让关键信息一览无余。

在此基础上，搜索还可以更进一步吗？让AI帮助用户整理分析既有信息，直接给出深度结果，也就是“搜索+分析+生成”合二为一，从检索工具变成智慧的个人助手，这可能吗？

天工3.0新增的搜索增强、多次调用联网搜索、Agent等能力，支持复杂问题深度拆解，agent智能体能够独立完成规划、调用、组合外部工具及信息，以精准高效地完成产业分析、产品对比等各类复杂需求。

数万字的市场调研报告、高级学术研究、企业研报、白皮书等任务，天工3.0都可以快速完成，并且每个搜索落地页都支持AI速读，一键生成AI摘要和要点提炼，其中有任何不懂的地方，还可以随时通过【聊天】功能向AI助手发起多轮对话提问。

对于平时要阅读大量产业研究报告、AI论文的创作者来说，我明显体会到，这一套搜索增强的“组合拳”，确实能帮日常工作提升效率、减轻负担。搜索的结果还可以用大纲、脑图的丰富形式呈现，非常清晰。

能力三：紧跟时事，搜索生成也可以很有时效性。

大模型的训练周期较长，需要大量数据，而数据集的收集、整理和更新是一个耗时的过程。因此，大多数大模型在发布时都有一个明确的“知识截止日期”，即模型所包含的知识信息只更新到这个日期为止。超过这个日期的信息，模型可能就无法准确提供。

这意味着，用户在搜索一些时效性很强的信息时，比如最新的新闻事件、旅游规划需要的实时信息、航班天气股市等动态信息搜索查询，部分AI搜索提供的结果，可能缺乏准确性和时效性。解决大模型的时效性问题，是昆仑万维、谷歌等头部厂商都在努力的目标。

前不久谷歌的发布会上，就推出了支持“旅游规划”的实时搜索demo，天工3.0的AI搜索产品，则是国内唯一能够支持实时天气、股市、星座运势等信息查询的AI产品，能够同时生成特定卡片和对应文本分析。有了这个功能，真的可以把手机上的n个软件都卸载掉了。

从上述三大能力，可以看到基于“超级模型”做出的AI搜索产品，正在前所未有地改变全球用户的搜索体验。AI搜索，已经成为昆仑万维、谷歌等独特的护城河，也是大模型底座上生长出的独特的一枝梅花，散发着“人无我有，人有我强”的技术芬芳。

多模态：超级模型底座上长出的应用繁花

作为全球首个多模态“超级模型（Super Model）”，天工3.0集自然语言处理、计算机视觉、多模态、AI搜索、AI智能体等多项尖端技术于一体，目前没有任何一款AI工具集这么多模型能力于一身，在多模态领域是当之无愧的先锋。

在天工3.0这棵“梅树”的根基上，昆仑万维凭借“All in AGI 与 AIGC” 战略，已经孕育出了众多的应用花蕾，支持AIGC时代的内容创作。

对于创作者来说，可以通过天工大模型获得多种模态的模型能力，处理多种不同类型的数据输入，包括：

视频模态。天工3.0 AI视频转绘，可以实现自动化的视频生成，将现有的视频内容自动转换成不同的风格或格式，像Sora一样辅助用户实现创意视频项目的制作。

音频数据。天工SkyMusic音乐大模型SOTA，是全球首款对标suno的音乐大模型，通过大模型技术实现乐器、人声、旋律、音量、音符的一体化端到端音乐生成，助力音乐创作者生成高质量的AI音乐。尤为特别的是，SOTA支持粤语、成都话、北京话等众多方言，让用户能够更自由地实现音乐表达，传播方言文化。这一大模型的推出，不仅展现了中国在AI音乐生成领域的技术实力，也为音乐产业带来了新的可能性。浅浅展示一段天工AI音乐创作的作品，依然是完全免费，还无需担心版权问题。

智能体。在多模态环境中，智能体可以整合不同模态的信息，提供更加丰富和智能的交互体验。天工3.0支持用户创建智能体，实现个性化的服务和交互体验，是大模型技术应用的一种重要方式，可以推动大模型技术的创新、普及和商业化。

PPT。PPT演示文稿的制作，需要结合文本、图像、图表、视频和音频等多种模态。

天工AI的PPT生成功能可以快速将文本内容转换成PPT幻灯片，提高制作PPT的效率，并且支持WEB端和APP端，意味着无论是在电脑上还是手机上，用户都可以方便地使用这一功能来提升生产力。5分钟做完一份优质的PPT，再也不是难事，而且完全免费，不需要你在下载文件前支付任何费用。

图表。视觉表示的数据，如条形图、饼图、折线图等，在数据分析、信息可视化、商业智能等领域中非常重要。最新的天工3.0大模型，可以自动生成各种图表，并分析结果，自动生成报告或总结，与用户进行互动，提供基于数据的深入见解。

放眼全球大模型竞赛，不同模态的相互补充、统一、协作，可以提供更全面的理解能力，大幅提升AIGC在行业的应用效果。因此，多模态绝对是一个主流方向，无论是OpenAI的GPT系列，还是谷歌的Gemini家族，都以此为发展方向，覆盖多种模态。幸好，天工3.0为代表的中国大模型梯队，也并不逊色。

基于天工系列大模型，昆仑万维已构建起AI大模型、AI搜索、AI音乐、AI社交、AI动漫、AI游戏等AI业务矩阵，AI应用场景的一个个绽放，中国AI的花香已扑面而来。

梅香清且远，AI春已至

值得一提的是，相比OpenAI和谷歌的ToC色彩，中国AI有着更为丰富、广阔的应用场景，不仅ToC应用的用户规模庞大，ToB/ToG政企市场将AIGC作为千行万业提质增效的把手，产业智能的前景也格外广阔。

栽种一棵基础模型的梅树，培育AIGC的应用繁花，天工大模型成为产业智能化的一道风景。昆仑万维作为AI园丁，有着独特的气质：

1.极长的耕耘耐心。

AI创新需要在土壤和时间中蕴育，昆仑万维2019年布局AIGC的前瞻性格局。以AI搜索为例，昆仑万维的自研实力来自长期主义战略。

2.极强的工程能力和产品匠心。

基座模型达到一定参数，接下来比拼的是谁能把工程化、产品化做得更好。以AI搜索为例，“魔鬼都藏在细节中”，比如怎么消除大模型的幻觉，哪些问题深度要求高，哪些问题实时性要求高，做出对应的处理，体现出不同产品的区别，直接影响到用户体验，需要体系化的工程能力和产品设计能力。这一点，天工AI有大量产业实际，比如用天工AI搜索写公文引用官方媒体，获得政府用户的信任。

3.极高的人才密度。

人才是AI创新的前提和基础。只有拥有一支强大的人才队伍，AI企业才能不断推动技术创新，开发出更多有价值的产品和服务，从这一点来说，基础大模型领域呈现出“强者益强”，头部AI巨头大厂与其他中小厂的差距不断拉大。以昆仑万维为例，整个大模型研发中心高级算法工程师多达300人+，其中海内外名校博士100+，大量人才来自微软、阿里、百度，人才规模具备明显实力优势。

昆仑万维作为国内模型技术与工程能力最强、布局最全面的人工智能企业之一，可以打出一套全球AI产品组合拳，一套覆盖ToC/ToB/ToG多个市场的商业组合拳。

“待到山花烂漫时，她在丛中笑”，面对OpenAI和谷歌等世界一流AI巨头，天工AI正绽放出梅花一般自信的微笑。当我们轻嗅着中国AIGC应用的阵阵芬芳，可以说一句：万事何难，且信天工。

体验基于多模态大模型的AI搜索，可前往天工3.0官网。

免责声明：此文内容为第三方自媒体作者发布的观察或评论性文章，所有文字和图片版权归作者所有，且仅代表作者个人观点，与极客网无关。文章仅供读者参考，并请自行核实相关内容。投诉邮箱：editor@fromgeek.com。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，应及时向本网站提出书面权利通知或不实情况说明，并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后，将会依法尽快联系相关文章源头核实，沟通删除相关内容或断开相关链接。

多模态与AI搜索的全球科技竞速：中国AI，且信天工

下一篇