DeepSeek V3来了 老外评测结果:很不错

极客网·极客观察3月28日 近期,DeepSeek-V3-0324正式发布,迅速在全球AI领域引发热议。相较于前作,V3版本虽未实现颠覆性创新,却在推理和编程两大关键领域取得进步,为用户带来新的惊喜。

DeepSeek V3来了 老外评测结果:很不错.jpg

DeepSeek向来秉持低调策略,在推出新版本时,既不发布白皮书进行详细阐述,也没有召开盛大发布会,仅将模型上传至Hugging Face平台。尽管如此,凭借卓越的性能,DeepSeek的每一次更新,都能成功吸引AI社区的高度关注。

这一次,V3-0324展现出更强大的复杂任务处理能力,在面对复杂问题时,能对任务有更深入理解,并提供更有效的解决方案。对于Web设计师而言,V3能够生成更为简洁高效的代码,显著提升Web页面和游戏界面的质量,极大提高工作效率。

和R1版本一样,效率依旧是V3-0324的一大突出优势。当前,许多AI模型的运行和训练依赖超级计算机,这类设备虽然拥有强大的运算能力,能够处理海量数据,但使用成本极高。与之相比,V3-0324在维持高性能的同时,有效控制了成本,这使得更多开发者和企业能够轻松使用该模型,进一步推动AI技术的普及与应用。

专家:开源模型最终会成为赢家

有趣的是,该版本在多个关键领域的进步,与谷歌Gemini 2.5 Pro极为相似,不仅在编程能力上大幅提升,推理水平更加出色,在token的使用效率上同样有了进步。

从参数规模来看,DeepSeek之前推出的R1拥有6710亿参数,而V3则达到6850亿,参数数量略高于前代。这一变化让业界普遍认为,V3将成为R2版本的重要基础。AIcpb.com创始人Li Bang zhu指出,V3在编程方面显著提升,为R2奠定了良好基础。R2原计划于5月初推出,一些专家认为,R2可能会提前和大家见面。

在推理能力上,DeepSeek-V3-0324展现出卓越的实力。在MMLU-Pro基准测试中,其准确率从75.9%提升至81.2%;在GPQA测试中,准确率从59.1%提升至68.4%;在AIME测试中,准确率从39.6%大幅跃升至59.4%;在LiveCodeBench测试中也从39.2%提升至49.2%。

加州大学博士、奥林匹克数学金牌得主Jasper Zhang用AIME 2025难题对DeepSeek-V3-0324进行严格测试,结果显示,V3各项表现出色。基于此,Jasper Zhang对开源模型充满信心,坚信其在未来的AI竞赛中能够获胜。目前,他创建的Hyperbolic公司已全面支持V3模型。

众多外媒在性能测试后普遍得出结论:V3-0324相较R1版本,性能有了飞跃。苹果设备研究人员Awni Hannun确认,在搭载M3 Ultra芯片的Mac设备上,V3的运行效率可达每秒20 tokens,他认为,以前人们都认为AI模型需要企业级基础设施,现在证明并非如此。这一数据不仅彰显了V3-0324的高效,更表明DeepSeek在面对OpenAI等行业巨头时没有落后,还证明了AI模型运行对企业级基础设施的依赖并非不可撼动。

一直以来,AI模型的运行高度依赖英伟达GPU,高昂的价格让许多开发者望而却步。与之形成鲜明对比的是,Mac Studio在进行推理时功耗不到200瓦,极大降低了使用成本。

开发者兼AI专家Simon Willison敏锐地指出,V3-0324支持本地部署,这一特性或将推动AI产业发生深刻变革。以往,AI模型多部署于中心化数据中心,而未来,部署方式将朝着去中心化、高效化方向发展,消费级设备在AI应用中将发挥更大作用。

普通开发者:很强,但编程还要优化

一位名叫Hamed的国外开发者发表评论称,让Gemini 2.5 pro和DeepSeek-V3-0324编写代码,制作国际象棋小程序,前者生成570行代码,后者生成2372行。

开发者vewin说:“V3-0324相当强大,它用R1约十分之一的token成本获得了相似的性能。”

Julian Goldie SEO则表示,在内容生成方面,V3-0324超越了谷歌Gemini 2.5。评测之后他得出几个结论:DeepSeek撰写的内容更有说服力,Gemini的推理能力十分出色,二者都能免费使用,但它们的API功能都有一些Bug。

开发者Hassan认为:“根据我的测试,V3更聪明了,这种聪明是全方位的,编程相当优秀,执行前端任务更是如此。”

开发者bilLkarkariy要求V3-0324和Gemini Pro 2.5为应用程序设计一个登录页面,对比之后他感到震惊,DeepSeek给出了完整、立刻就能用的解决方案。

当然,有人肯定也有人否定。

一位名叫Bindu Reddy的女性开发者提出反对意见,她认为:“V3非常快,是一个巨大的进步,但在真实编程中,V3仍然离Sonnet3.7有不小差距。”专门评测大模型的Markus Zimmermann认为:“用DevQualityEval  1.0测试,发现V3-0324的表现不如之前的DeepSeek V3。”

总体而言,开发者对V3-0324相当肯定,负面声音比较小。

开发者Petri Kuittinen让V3给AI企业制作漂亮的响应式前端网页,只需要一条提示语,就能将各种元素融合进去。他认为,DeepSeek V3-0324是DeepSeek最好的非推理模型,通常更适合创意性写作任务,比R1更适合制作HTML5+CSS+前端。在上面的任务中,它生成958行代码,里面包括图片、交互式网站。

Petri Kuittinen认为:“Anthropic和OpenAI已经陷入麻烦。V3-0324真的可以编程,可以制作漂亮的HTML5、CSS,前端部署相当容易,而且免费使用。”(小刀)

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。

2025-03-28
DeepSeek V3来了 老外评测结果:很不错
近期,DeepSeek-V3-0324正式发布,迅速在全球AI领域引发热议。相较于前作,V3版本虽未实现颠覆性创新,却在推理和编程两大关键领域取得进步,为用户带来新的惊喜。

长按扫码 阅读全文