新闻重点:
·通过Arm计算平台与ExecuTorch框架的结合,使得更小、更优化的模型能够在边缘侧运行,加速边缘侧生成式AI的实现
·新的Llama量化模型适用于基于Arm平台的端侧和边缘侧AI应用,可减少内存占用,提高精度、性能和可移植性
·全球2,000万名Arm开发者能够更迅速地在数十亿台边缘侧设备上大规模开发和部署更多的智能AI应用
Arm正在与Meta公司的PyTorch团队携手合作,共同推进新的ExecuTorch测试版(Beta)上线,旨在为全球数十亿边缘侧设备和数百万开发者提供人工智能(AI)和机器学习(ML)功能,进而确保AI真正的潜力能被最广泛的设备和开发者所使用。
借助ExecuTorch和新的Llama量化模型,Arm计算平台优化生成式AI性能
Arm计算平台无处不在,为全球众多边缘侧设备提供支持,而ExecuTorch则是专为移动和边缘侧设备部署AI模型而设计的PyTorch原生部署框架。两者的紧密合作,使开发者能够赋能更小、更优化的模型,包括新的Llama 3.2 1B和3B量化模型。这些新模型可以减少内存占用、提高准确性、增强性能和提供可移植性,成为小型设备上的生成式AI应用的理想选择,如虚拟聊天机器人、文本摘要和AI助手。
开发者无需额外的修改或优化,便可将新的量化模型无缝集成到应用中,从而节省时间和资源。如此一来,他们能够迅速在广泛的Arm设备上大规模开发和部署更多的智能AI应用。
随着Llama 3.2大语言模型(LLM)新版本的发布,Arm正在通过ExecuTorch框架优化AI性能,使得在Arm计算平台边缘设备运行的真实生成式AI工作负载能更为快速。在ExecuTorch测试版发布的首日起,开发者便能享有这些性能的提升。
集成KleidiAI,加速端侧生成式AI的实现
在移动领域,Arm与ExecuTorch的合作意味着众多生成式AI应用,如虚拟聊天机器人、文本生成和摘要、实时语音和虚拟助手等,完全能够在搭载Arm CPU的设备上以更高的性能运行。这一成果得益于KleidiAI,它引入了针对4位量化优化的微内核,并通过XNNPACK集成到了ExecuTorch中,因此,在Arm计算平台上运行4位量化的LLM时,无缝加速AI工作负载的执行。例如,通过KleidiAI的集成,Llama 3.2 1B量化模型预填充阶段的执行速度可以提高20%,使得一些基于Arm架构的移动设备上的文本生成速度超过了每秒400个词元(token)。这意味着,终端用户将从他们移动设备上获得更快速、响应更灵敏的AI体验。
了解更多Arm在移动市场对ExecuTorch的支持,请查阅博客文章。
为物联网的边缘侧AI应用加速实时处理能力
在物联网领域,ExecuTorch将提高边缘侧AI应用的实时处理能力,包括智能家电、可穿戴设备以及自动零售系统等。这意味着物联网设备和应用能够以毫秒级的速度响应环境变化,这对保障安全性和功能可用性至关重要。
ExecuTorch可在Arm® Cortex®-A CPU和Ethos™-U NPU上运行,以加速边缘侧AI应用的开发和部署。事实上,通过将ExecuTorch与Arm Corstone™-320参考平台(也可作为仿真固定虚拟平台(FVP)使用)、Arm Ethos-U85 NPU驱动程序和编译器支持集成到一个软件包中,开发者可在平台上市前几个月就着手开发边缘侧AI应用。
了解更多Arm在物联网领域对ExecuTorch的支持,请查阅博客文章。
更易获取、更快捷的边缘侧AI开发体验
ExecuTorch有潜力成为全球最受欢迎的高效AI和ML开发框架之一。通过将应用最广泛的Arm计算平台与ExecuTorch相结合,Arm正在通过新的量化模型加速AI的普及,让开发者能够更快地在更多设备上部署应用,并将更多生成式AI体验引入边缘侧。
(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )