轻舟大模型发布，天图万境提出AI类脑MoE框架

6月27日，首届中国·重庆科技电影周高峰论坛上，天图万境现场发布了“轻舟空间智能大模型”，它使用AI感知视听技术研发，这也是空间智能大模型的首次行业亮相。

图：天图万境创始人图拉古做主旨演讲

现有的AI大模型，人机交互方式主要是以提示词输入为主。但下一代AI，则需要其具备主动识别空间环境的能力，理解人类意图并具备一定的自我决策和自我行为能力。这就需要机器像人类一样拥有可以观看的眼睛，听声的耳朵，最终将这些信息输送给大脑，并做出决策和行动。

为此，我们就不仅仅需要会对话的AI，更需要能够通过视听感知周围的AI，能够做出行动和决策的AI。因此，一个全新的AI计算机视觉(AICV)+AI听觉的感知时代正在到来。天图万境此次发布的空间智能大模型“轻舟”，即从这个角度出发在补齐AI的感知视听能力。

什么是计算机的感知能力?天图万境创始人图拉古，在论坛现场分享了他和团队研究的新理论，即让AI拥有跟人类一样的视觉、听觉，并以此为基础认识世界，建立对三维空间的认知能力。

图：天图万境创始人图拉古讲解AI类脑“MoE”框架

AI空间智能大模型，就是仿照人类的感知能力，让AI建立视觉系统、听觉系统和大脑中枢。

AI空间智能大模型是一种改进的MoE框架，MoE 起源于 1991 年的论文《Adaptive Mixture of Local Experts》。该论文的理念与集合方法类似，都是为由不同网络组成的系统提供监督程序，每个网络处理不同的训练集子集。每个独立的网络或者说专家擅长于输入空间的不同区域。至于如何选择专家这个问题，是由门控网络来决定每个专家网络的权重。在训练过程中，专家网络和门控网络都要接受训练，这种框架也被称为专家混合 (MoE) ，是 LLM 中常用的一种技术，旨在提高其效率和准确性。

图拉古认为，在 AI视听领域，它应该是一种改良的类脑框架，主要是关注于主动决策和主动分析，它需要把每一个专业的垂直 AI 模型作为一个专家神经元看待，互相连接，彼此通讯，这就像大脑一样，有负责语言的区域，有负责音乐的区域，有负责行动的区域，有负责平衡的区域，他们虽然都在一个头颅内，可是各自却是独立的，最终靠神经中枢来协调并做出反应，多个区域之间靠生物电通讯。

AI感知视听(人工智能视觉听觉)技术和全新改进的MoE框架，称之为“联级神经元”框架，正是模拟人类的大脑多区域总决策行为。让人工智能具有与人类相似的视觉、听觉感受，再通过联级神经元框架，像人的“大脑”中枢系统一样，将这些AI能力联接起来，实现对世界的记忆力、理解力、分析力，并做主动决策和行动。

主动分析、主动获取、自主决策

AI感知视听技术和联级神经元框架与其他大部分大模型所带来的区别主要是主动性和被动性的区别。图拉古表示，天图万境的团队希望创造一个更加理想的空间智能，让机器为我们做事，或者帮我们做事。

视听技术的突破，让AI有机会向类人脑进化

AI感知视听技术的推出，代表了空间智能领域的一次重大尝试。那么到底是如何让AI建立视觉体系?在现场图拉古以AI空间智能大模型-“轻舟”如何实现对视觉的判断和感知能力做了讲解。

图拉古举例说明，人类伸出一只手指，当注意力集中于手指的时候，手指是清晰的，背景就是模糊的;当注意力转向背景时，背景是清晰的，手指就是模糊的;而手指清晰的时候，人类可以识别手指锐利干净的轮廓，甚至模糊的时候，也可以理解手指的位置和空间关系，并知道手指此刻的行为含义。

眼睛注意力在手指时背景是虚的，眼睛注意力在背景时手指是虚的，而在机器视觉中，我们希望任何一种摄像头，任何一个画面都可以建立人眼和人脑综合识别效果，所以我们将绿幕图像首先以人脑注意力机制的方式来处理图像，进而以人类理解世界的方式来分割图像。

【AI 空间智能模型-轻舟】第一步：

通过摄像头获得原始图像↑

【AI 空间智能模型-轻舟】第二步：

模拟人脑和人眼的注意力机制，注意力放置于主体↑

【AI 空间智能模型-轻舟】第三步：

模拟人脑认知机制，分割需要的物体，而非绿色↑

【AI 空间智能模型-轻舟】在视听产业的应用非经典抠绿技术，而是AI类脑注意力机制↑

而这样的技术，绝不仅仅只能用在视听产业里，未来任何需要像人类一样的具身智能系统，都将需要实时的认识世界，知道面前所看到的到底是什么、在做什么，机器要如何为它看到的东西做出理解决策和行动。

【AI 空间智能模型-轻舟】在各行各业的技术应用前景↑

图拉古又举例了另一项技术-空间计算;人类看到的空间都是三维的，而绝大部分计算机看到的空间都是平面的，尽管人类可以通过激光雷达或者多幕摄像头传感器来计算空间，但这样的过程都是复杂的或者计算开销巨大的。天图万境的技术通过空间智能大模型，可以无需依赖外部传感器，实时推理4K分辨率的稳定空间信息。

【AI 空间智能模型-轻舟】无需任何空间传感器，实时推理4K空间深度信息↑

这意味着未来任何传统的平面图像或视频都可以再次以立体的方式呈现在计算机面前，而这样的方式正是人类看到和理解的世界，未来机器也会以这样的方式重新来认识和感受世界。

【AI 空间智能模型-轻舟】让机器看到立体的空间世界

而在听觉方面，天图万境也与华为云共同研发了视频声效技术，这样的技术将模拟人类的听觉，通过声音来感知这个世界并形成联想的画面或空间关系。

天图万境与华为云共同研发视频声效大模型解决方案

AI感知视听技术起源于电影，随着技术迭代和发展，现在的应用场景将不再局限于电影。而正是在电影这样顶级艺术的严苛要求下，如今的AI感知视听技术和AI空间智能模型“轻舟”才能超越其本身的意义，赋能千行百业。目前这样的技术在矿山挖掘、消防检测以及生活助手等多个领域具有巨大的潜力发展空间，未来任何具身智能系统都需要像人一样看到听到世界，并通过这些信息来做出大脑决策，指挥机器行动。

（免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，应及时向本网站提出书面权利通知或不实情况说明，并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后，将会依法尽快联系相关文章源头核实，沟通删除相关内容或断开相关链接。）