自从扎克伯格把 FaceBook 改名成 Meta 之后,这家公司就彻底和眼镜较上劲了。
有一个即热又冷的小知识,Meta 这个名字,取自「metaverse(元宇宙)」的前四个字母,2021 年改名的时候,扎克伯格本人非常自信地表示:
元宇宙将在未来十年触及 10 亿人,而元宇宙也将触及我们开发的每一款产品。
四年过去了,元宇宙成了科幻小说、创意动画和影视作品的常客,但离现实世界却越来越远,为数不多能引起人们关注的,还是那些时不时爆雷上热搜、打着元宇宙、虚拟资产的幌子,来招摇撞骗的烦心事儿。
在普及和铺开元宇宙上,Meta 和四年前一样没啥变化,不过他们却在元宇宙的入口——VR/AR 头显设备上,做出了不少有意思的新玩意儿。
定位为新型游戏机的 Meta Quest,打开了 VR 互动游戏的新世界,2024年 Meta Quest 系列占据了 73% 的市场份额,遥遥领先。
成为 AI 时代新潮配件的 Ray-Ban Meta,经过了两代产品的努力,出货量在今年 2 月正式突破 200 万台,集传统眼镜、名牌 logo、蓝牙耳机、语音助手、Vlog 相机于一身,既做好了一副传统眼镜该有的装饰作用,又让科技悄无声息地嵌入了日常生活。
明面上,Meta 在消费者市场推出了几款成功的产品;私底下,他们也在 toB 的赛道上悄悄发力,而且这些面向企业和专业机构的智能眼镜起步的时间,甚至比他们改名的时间还早。
五年之约已到,Meta 交卷
2020 年,Meta 推出了其首款实验性智能眼镜 Meta Aria Gen 1,和传统眼镜比起来,Aria Gen 1 略显臃肿,特别是两条加粗的镜腿,非常显眼。
硕大的外观并不只是摆设,其中包含了非常多的传感器套件,如配备 RGB 摄像头、定位追踪摄像头、惯性测量单元(IMU)、气压计、磁力计等,这些元件的主要功能是用于采集第一人称视角的视觉、运动和空间数据。
从理论上来说,Aria Gen 1 是专为机器感知系统、人工智能及机器人技术研究设计,它通过集成多模态传感器,帮助科研人员攻克AR眼镜的核心技术难题,如环境感知、空间定位等。
落地到实际体验,Aria Gen 1 则有着非常遥远也令人期待的使命:
设想有一天,我们可以享受联网带来的所有好处,而不需要低着头低着头看着设备。想象一下,给朋友打电话,和桌子对面栩栩如生的虚拟形象聊天。
想象一下,一个足够聪明的数字助理可以检测道路危险,在商务会议期间提供统计数据,甚至帮助你在嘈杂的环境中听得更清楚。
在这个世界上,设备本身完全消失在日常生活的起起落落中。
作为这项实验的原型机,也是第一代产品,Aria Gen 1 并没有掀起太大的波澜,沉淀五年后,这周 Meta 正式发布了 Aria Gen 2。和一代相比,有了全面的升级。
最明显的变化在传感器系统上,一代机采用的是最基础的环境感知元件,只有摄像头和惯性传感器,Aria Gen 2 在此基础上,增加了许多新的配件,包括 RGB 摄像头、6DOF SLAM 摄像头、眼动追踪摄像头、空间麦克风、IMU、气压计、磁力计和 GNSS。
特别是新一代产品在鼻托中嵌入了两个创新传感器:用于测量心率的 PPG 传感器,和用于区分佩戴者声音和旁观者声音的接触式麦克风。
如果把一代比作「只用眼镜看世界」,那相比之下 Aria Gen 2 可以说是感官全开,从更多维度感知、观察以及收集外界信息,就能在同样的时间里,获取数量更多、更准确的数据,机器的运作、学习效率也会更高。
另外,数据处理的方式上,二者也有了质变,Aria Gen 1 依赖于外部设备进行计算,虽说不在本地运算,能一定程度上,减轻设备的重量压力,但随之而来的则是反应的迟缓,在云端算力够,但网络不好的时候会有响应尴尬期,经常用智慧助手的朋友应该都有碰到过类似的情况;若是随身携带一个移动计算平台,非常不便携。
而 Aria Gen 2 则用上了 Meta 的自研芯片,可以把数据放在端侧处理,响应速度非常快,不受网络的限制,交互体验也有了非常大的进步。
一般来说,多了自研芯片的设备,拥有了端侧运算的能力,但同时也会增加设备的重量。不过 Meta 用数据说话,这五年他们真的没闲着:Aria Gen 1 重 98g,Aria Gen 2 重 75 克。加量不加重,长体验不长体重。
体验见长的,还有 Aria Gen 2 的交互方式,在第一代语音交互的基础上,二代机加入了「眼动追踪+手势+接触式操作」。语音交互很直接,检索路径会大幅缩短,但并不是生活中的所有场景都适合,比如高峰期的地铁站和超安静的办公室。
按理来说,传感器和交互功能变多,续航会受到影响,自研芯片的确影响了 Aria Gen 2 的续航,但是正向的。官方称其能达到 6-8 个小时使用时间。按照目前无线耳机的使用时长,基本能让 Aria Gen 2 做到全天候的智慧功能可用。
打好了硬件基础,后续的使用体验才会有更多的可能,Aria Gen 2 的升级体现了 Meta 对 AR 技术落地的两大战略方向:
一是隐形化集成:通过轻量化设计和传感器隐藏(如摄像头指示灯关闭时外观接近普通眼镜),降低设备存在感;二来通过开放的生态,提供底层 API 接口和模块化扩展能力,鼓励学术界开发定制化工具包,加速技术转化。
因此,Aria Gen 2 的应用场景,也从先前的室内导航与基础 AR 研究,转向了更多维的领域,医疗、工业、城市规划等,都有可能成为 Aria Gen 2 生长的土壤。
至此,我们来总结一下,Aria Gen 2 的进步与意义:
感知硬件升级,实现生物数据融合与环境深度理解;
搭载自研芯片,提升实时性,支持户外无网络场景;
丰富交互方式,降低声学干扰,适配复杂实验环境;
续航覆盖全天,延长连续使用时间,提升佩戴舒适度;
应用场景拓展,推动跨学科技术融合与标准化。
扎克伯格的「暗部」
如果你看完,Meta Aria 的解读介绍,还是有点对它在消费市场的运用摸不着头脑,那很正常,因为 Meta 明确表示,这款产品「不会面向消费者销售」,那你可能想问,它到底有什么用?要说清楚造它的目的,还得回到十多年前。
2014 年,扎克伯格在斯坦福虚拟人类交互实验室(VHIL)体验了当时最新的 VR 设备,以及各种游戏场景,他在 VR 眼镜里里走了独木桥、飞过城市上空、砍了几棵树......
时任 VHIL 实验室经理的 Cody Woputz 曾经透露过:在体验高空坠落场景时,他(扎克伯格)甚至吓到将手放在胸口上。
这次体验让扎克伯格留下了很深的印象,一方面由于 VR 还处在早期的研究阶段,定位系统不稳定,使得体验多次被打断,得停下来重新校准设备;而且当时的 VR 还不是一体机,PC VR 的计算终端在机身外,得用一条又粗又长的线缆连接,以此来传输信号和供电。
另一方面,扎克伯格也看见了这项革命性技术在未来的巨大可能,也正是这次体验,让他下定决心,以 20 亿美元收购了 Oculus,扎克伯格曾在公告中解释过收购原因:
移动是当前的平台,收购 Oculus 是为明天的平台做准备。
之后,扎克伯格就带着 Facebook 开始了对于 AR/VR/MR 技术以及设备的探索。有了目标和硬件技术的积累,于是在 2020 年,Meta 正式开启 Aria 项目,其宗旨是「从人的视角加速 AR 和 AI」。
这么看有点玄乎,稍微通俗的解释就是,把眼镜作为桥梁,让设备从人的视角来观察世界、了解世界,并学习人和环境的互动关系,以此来推动软硬件技术的发展,最终让机器能够从人出发,并服务于人。
Project Aria 中的眼镜,可以通过突破性技术帮助研究人员,从用户的角度收集信息,特别是 Aria Gen 2 上新增的传感器,能够捕捉佩戴者周身环境的音视频,以及他们的眼动和位置信息。
从佩戴者的第一视角出发,能让研究人员更容易弄清楚,AR 到底如何才能在现实世界和日常生活中,发挥真实作用,而不只是停留在花里胡哨却不实用的功能上。
而且,从人的视角出发来收集现实世界中的信息,对于多模态 AI 来说非常重要,这样的训练方式能模拟人类多模态认知方式。
我们本身就是通过视觉、听觉、触觉等多种感官协同感知世界,而多模态 AI 通过整合文本、图像、音频、视频等数据,能够更贴近人类自然认知模式。况且跨模态信息整合能力是单模态 AI 无法实现的。
多模态的收集和训练,也能提升 AI 对复杂场景的决策精度,如果不通过多维度的信息来理解世界,那必然会存在「买家秀」和「卖家秀」的分歧,数字世界只有 0 和 1,但现实世界除了黑白,还有那难以理解的灰色地带。
交互本身其实也是多模态的,和朋友谈话时除了语言,表情、手势、语气甚至着装,都会影响我们的理解。因此多模态 AI 通过同时处理文本、图像和音频,可实现更自然的交互体验。
Meta 也给出了他们在 Project Aria 中的一些研究细节,在 Project Aria 项目中,让智能眼镜读懂世界的方式非常简单粗暴:数据化。这项被称为 SceneScript 的技术,是一种使用自回归结构化语言模型和端到端学习,来表示和推断场景几何的方法。
简单讲,所有第一人称视角看到的场景、物体,都可以被眼镜变成具体的数字和名称,桌子有多长、墙上透明且规则窟窿叫「窗户」。
为了让眼镜内置的模型不只是看见世界,还要更好地理解世界,Meta 用自研的三维成像技术 EMF3D,把现实世界所有的物体用不同颜色的线段「明码标价」,把材质、形状和大小不一的东西统一了度量衡。
当眼镜能读懂并且记录环境时,再现一个虚拟的世界,就有了更大的可能。项目中的环境合成技术正是通过大量的数据收集整理,复刻了一个大规模、完全模拟的程序生成的室内场景数据集,也为「数字孪生」设立了新标准,加速了 3D 物体检测、场景重建和模拟到现实学习等挑战的研究。
这种「养成系」的学习方法有好有坏,好在一旦学成就非常扎实,难在想要扎实就得通过海量、巨量的数据,所以需要非常多的志愿者参与到 Project Aria 中,在平时长期佩戴 Meta 的眼镜。
比起找到人,如何让人放心地使用才是最关键的,因为数据收集和隐私保护,是一对难以调和的冤家。Meta 给出的方案是「自我模糊」新型 AI 模型,通过检测和模糊图像中的 PII 来保护隐私,把面部、车牌等敏感信息直接打码。
海量的学习也能让模型更好地了解使用者的意图,比如通过对使用者每日生活场景的扫描与总结,可以判断本人在什么时间点更可能干什么事?是去楼下锻炼,还是去客厅打游戏,又或者去厨房做饭。能预判人的行为活动,也就能提前提供更多的便捷功能。
这和我们手机上的智能助手,在特定时间弹窗提醒回家路况,以及明日天气的功能,有相似之处。
自 Project Aria 立项的五年间,他们已经做出了一些成果,例如使用第一代 Aria 眼镜收集的 Ego-Exo4D 数据集,已成为现代计算机视觉和不断发展的机器人领域的基础工具。
有些企业也已经开始研究,Aria 在他们的工作流程中,到底应该怎么用?比如宝马,正在搞清楚如何将增强现实和虚拟现实系统集成到智能汽车中。
佐治亚理工学院的研究人员,最近也展示了当 Aria 来到你家以后,会怎样帮你分摊家务活的压力。
很早之前,我们曾在手机智慧助手的体验文章中有个论断:人工智能和各种电子设备的结合,从当下来看,最大的意义应该是帮助老年人和残障人士,更好地融入新时代和新生活。Aria 也在无障碍技术的开发上,取得了一定的进展:
卡内基梅隆大学在一个项目中,使用了第一代 Aria 眼镜,该项目旨在开发帮助盲人和视力低下人士进行室内导航的技术。
二代 Aria 的 AI 语音功能还被 Envision 公司整合到了自家的 Ally AI 和空间音频上,来增强室内导航和无障碍体验。
如果要用一句话来形容 Project Aria、Meta 和旗下产品的关系,我觉得很像树根、树干和树枝。Project Aria 在最下面,平时看不见摸不着,但常年累月积累的技术成果,最终都会以各种各样的方式,赋能在公司和各类产品上。
去年 9 月底,扎克伯格在发布会上,从保险箱里拿出了一个看上去平平无奇,实则是十年绝密项目的智能眼镜 Meta Orion。从发布会的演示画面来看,它能做到和 Vision Pro 高度相似的交互功能,更重要的是 Orion 是一副真全息 AR 眼镜。
它外观上比普通眼镜厚了点,不过戴上之后既能透过镜片看到真实的世界,也能看到投影图像。
虽然清晰度比不上传统的电视和投影,但看图片与文字绰绰有余。神奇的是,我们没发现眼睛上有大块棱镜,如此贴近真实、凭空出现的现实效果,其实是通过镜片周围的 LED 投影仪,将图像投影到碳化硅镜片上。
镜框周围的 7 个摄像头和传感器,让 Meta Orion 真正实现了将虚拟投入现实,并将其融入现实的能力。它能将全息图像精准悬停在半空中,也能识别眼前的物品,例如通过桌面上的食材,它就能给你定制一份食谱。
说 Orion 在交互体验上,有齐平 Vision Pro 之势并不是夸大其词,因为它真的支持手部和眼动追踪,双手就是手柄,配套的神经腕带还能把手变成鼠标,通过检测肌肉电流的变化识别身体的神经信号,并由此区分手指的不同动作:
拇指、食指捏合进行选择
拇指和中指联合呼出菜单
握拳滑动拇指滚动画面
当时在发布会现场,我们还看到了 Meta Orion 的实际拆解展示,高度复杂和极其精密的内部构造,最后组合在一起的机身,只有 98g。
不难发现,Meta Aria Gen 2 和 Meta Orion 的关系,就像镜子里的彼此。只是扎克伯格在当时的采访中说,由于造价太过高昂(每台成本约 1 万美元,约合人民币 7 万元),公司不得不叫停了量产计划,只生产了1000 部提供给内部研发。
不过 Meta 也计划着,将 Aria 的技术逐步整合到 2026 年后,包括 Orion 在内的消费级 AR 眼镜中。目标是通过神经接口交互,和全息显示实现 AR 眼镜的蜕变,以此迎来智能眼镜的「iPhone 时刻」。
文|Obo
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。