浪潮信息推出全新元脑R1推理服务器:单机部署,轻松运行DeepSeek R1 671B模型
随着人工智能技术的飞速发展,浪潮信息作为业界领先的信息技术供应商,再次引领潮流,推出了一款全新的元脑R1推理服务器。这款产品以其卓越的性能和灵活性,为部署和运行DeepSeek R1 671B模型提供了全新的可能。
元脑R1推理服务器,以其卓越的系统创新和软硬件的协同优化,使得单机即可部署并运行DeepSeek R1 671B模型。这一创新性的举措,大大降低了模型部署的复杂性和成本,同时也为人工智能的应用场景开辟了新的可能性。
DeepSeek R1 671B模型作为一款全参数基础大模型,具有强大的泛化能力,高准确性以及出色的上下文理解能力。然而,这款模型的运行也对系统的显存容量、显存带宽、互连带宽和延迟提出了更高的要求。在FP8精度下,至少需要约800GB显存承载,而在FP16/BF16精度下,则需要1.4TB以上的显存空间。
面对这样的挑战,元脑R1推理服务器NF5688G7展现出了其强大的实力。它原生搭载了FP8计算引擎,提供1128GB HBM3e显存,能够满足671B模型在FP8精度下不低于800GB显存容量的需求。在支持全量模型推理的情况下,该机仍保留了充足的KV缓存空间,其显存带宽可达4.8TB/s。此外,GPU P2P带宽达到900GB/s,基于最新推理框架,单机可支持20-30用户并发。
值得一提的是,单台NF5688G7还配备了3200Gbps无损扩展网络,可根据用户业务需求增长实现敏捷扩展,提供R1服务器集群Turnkey解决方案。这一创新性的设计理念,充分展现了浪潮信息对于未来信息技术的深度理解和前瞻性规划。
如果说NF5688G7是专为小型集群和高性能应用而设计,那么NF5868G8则是一款专为大推理模型(Large Reasoning Model)设计的高吞吐推理服务器。这款设备业界首次实现单机支持16张标准PCIe双宽卡,提供最高1536GB显存容量,支持在FP16/BF16精度下单机部署DeepSeek 671B模型。
NF5868G8采用基于PCIe Fabric的16卡全互连拓扑,任意两卡P2P通信带宽可达128GB/s,降低通信延迟超60%。通过软硬件的协同优化,相较于传统2机8卡PCIe机型,NF5868G8可将DeepSeek 671B模型推理性能提升近40%。这一创新性的设计理念和卓越的性能表现,无疑将为用户提供更强大、更灵活、更高效的人工智能解决方案。
总的来说,浪潮信息的元脑R1推理服务器系列,以其强大的性能、灵活的配置和出色的扩展性,为人工智能应用提供了全新的可能。无论是小型集群还是大型应用,无论是基础大模型还是高性能模型,元脑R1都能提供出色的支持和解决方案。未来,随着人工智能技术的不断发展,我们有理由相信,浪潮信息的元脑R1将会在更多的场景和领域中发挥出其卓越的性能,引领人工智能的发展进入新的篇章。
(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )