微软推出全能新模型:Phi-4 多模态及迷你模型,视觉、语音、文本一网打尽!

微软推出全能新模型:Phi-4 多模态及迷你模型,视觉、语音、文本一网打尽!

随着科技的飞速发展,人工智能(AI)技术在各个领域的应用越来越广泛,其中多模态和文本处理能力的重要性日益凸显。近日,微软再次引领行业潮流,推出了全新的Phi-4 多模态及迷你模型,这一重大进步无疑为各类人工智能应用带来了强大的多模态和文本处理能力。

Phi-4 多模态模型是微软首款集成语音、视觉和文本处理的统一架构多模态语言模型,参数量高达 56 亿,这一数字令人瞩目。在多项基准测试中,Phi-4 多模态的表现优于其他现有的先进全模态模型,例如谷歌的 Gemini 2.0 Flash 和 Gemini 2.0 Flash Lite。这一卓越表现不仅证明了微软在多模态处理方面的技术实力,也预示着未来更多的可能性。

在语音相关任务中,Phi-4 多模态在自动语音识别(ASR)和语音翻译(ST)方面超越了 WhisperV3 和 SeamlessM4T-v2-Large 等专业语音模型。该模型在 Hugging Face OpenASR 排行榜上以 6.14% 的词错误率位居榜首,这一成绩无疑证明了其在语音处理领域的领先地位。值得一提的是,Phi-4 多模态在视觉相关任务中同样表现出色,其在数学和科学推理方面的表现尤为出色。在文档理解、图表理解、光学字符识别(OCR)和视觉科学推理等常见多模态能力方面,该模型与 Gemini-2-Flash-lite-preview 和 Claude-3.5-Sonnet 等流行模型相媲美甚至超越。

与此同时,微软还推出了另一款全新模型:Phi-4 迷你。Phi-4 迷你专注于文本任务,参数量为 38 亿。其在文本推理、数学计算、编程、指令遵循和函数调用等任务中表现优异,超越了多款流行的大型语言模型。这款迷你模型的出现,无疑为那些专注于文本处理的场景提供了更为高效和精准的工具。

为了确保新模型的安全性和可靠性,微软邀请了内部和外部安全专家进行测试,并采用了微软人工智能红队(AIRT)制定的策略。经过进一步优化后,Phi-4 迷你和 Phi-4 多模态模型均可通过 ONNX Runtime 部署到设备端,实现跨平台使用,适用于低成本和低延迟场景。这一部署方式的灵活性,无疑将大大拓展了模型的适用范围。

目前,Phi-4 多模态和 Phi-4 迷你模型已在 Azure AI Foundry、Hugging Face 和 NVIDIA API 目录中上线,供开发者使用。这一举措无疑将加速人工智能技术的发展,为开发者提供更多的创新机会。

总的来说,微软推出的 Phi-4 多模态及迷你模型,无疑是一次技术革新的重大突破。这两款模型在视觉、语音、文本处理方面的卓越表现,将为各类人工智能应用带来强大的多模态和文本处理能力。未来,随着这两款模型的广泛应用和优化,我们有理由相信,人工智能将在更多领域发挥出更大的潜力。

(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )

赞助商
2025-02-27
微软推出全能新模型:Phi-4 多模态及迷你模型,视觉、语音、文本一网打尽!
微软推出全能新模型Phi-4多模态及迷你模型,集成视觉、语音、文本处理,表现优于其他模型。同时推出Phi-4迷你专注于文本任务,为开发者提供更多创新机会。

长按扫码 阅读全文