荣登CLUE榜首,腾讯云NLP超大模型解决方案再升级

近日,腾讯云AI与腾讯优图实验室的加速团队在CLUE语言分类任务上进行试验,一举在CLUE分类任务1.0和1.1中拿下业界第一的好成绩。

荣登CLUE榜首,腾讯云NLP超大模型解决方案再升级

荣登CLUE榜首,腾讯云NLP超大模型解决方案再升级

(HUMAN为人类标注成绩,非模型效果,不参与排名。)

如何与AI进行无障碍的对话?

近年来随着人工智能的发展,NLP(自然语言处理)一直是业内外关注的焦点,其中预训练模型(Pre-Trained Model,PTM)技术作为当下最具有革命性的创新成果,正成为国内外互联网企业探索的重点,构建以中文为核心的超大规模预训练模型及生态势在必行,各大公司在反哺自身业务的同时纷纷向CLUE榜单发起“冲锋”。

CLUE是中文语言理解领域最具权威性的测评基准之一,涵盖了文本相似度、分类、阅读理解等众多语义分析和理解类子任务。作为“刷榜利器”的预训练模型就是通过在大规模文本上汇聚大量算力,不断集约化地训练大模型,预训练出通用的语言特征,就可以提供给大量企业使用,大大降低了自然语言处理研究和应用的门槛。

“工欲善其事,必先利其器”

腾讯云TI平台是基于腾讯云强大计算能力的一站式机器学习生态服务平台。它能够对各种数据源、组件、算法、模型和评估模块进行组合,使得算法工程师和数据科学家在其之上能够方便地进行模型训练、评估和预测。TI系列产品支持公有云访问、私有化部署以及专属云部署。

TI-ACC是腾讯云AI和优图实验室最新发布的一款AI加速组件产品,是基于优图实验室开源的跨平台高性能推理框架TNN和训练框架(TI系列)基础上的一次全新升级,能同时为企业提供AI模型训练和推理加速服务,支持多种框架和场景,能够显著提高模型训练推理效率、降低成本。

本次大模型的预训练完全依托于腾讯云TI平台,并采用TI-ACC进行训练加速。整体的训练方案如下:

首先,模型的出色效果离不开背后海量优质中文预训练语料的支持。腾讯云团队在TI平台上构建了海量语料的预处理、清洗和评估任务,汇集了小说、新闻、社区评论等的不同领域的优质内容,以及各学科论文、应用描述等专业性较强的特定内容,筛选出数百GB高质量中文语料,确保数据“来源广”且“质量精”。

在此基础上,针对NLP超大模型的特点和存在的问题,腾讯云团队结合底层基础设施在单机计算性能和多机扩展两方面进行了深度优化。在计算性能优化方面,TI-ACC对Transformer结构模型进行了稀疏化计算、算子融合、动态文本长度输入等优化。在多机扩展上,采用了Zero-DP技术结合反向图显存节省、大模型参数多轮通信、应用层NCCL通信优化和参数自动调优等优化手段。最终,TI-ACC能够高效训练千亿级参数的NLP大模型,极大的提升了模型预训练效率。

此外,我们在模型上对Transformer结构做了微调,再加上渐进式的课程学习训练方案,使得大模型能够更快学会更多的知识。

此次登顶CLUE榜单,一方面代表了腾讯云在NLP生态领域达到了业内领先水平,另一方面预示着TI-ACC助力中文预训练模型在高效训练和推理方面迈上新台阶。

(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )