云知声登顶中文医疗信息处理挑战榜CBLUE 2.0

  医疗领域是一个典型的富文本富知识领域,存在大量专业术语和知识以及海量医疗文本数据,包括电子病历、医学教材、临床指南和医学文献等。医疗AI的核心是让机器训练成一个合格的医生,能够阅读并理解医疗文本,具有医疗专业知识,并能做出正确的医疗决策。

  近日,云知声-中科院自动化所语言与知识计算联合实验室团队(Unisound&CASIA)取得关键技术突破,自主研发了基于高效持续学习的医疗预训练语言模型,并针对多项下游任务微调。这一方法在CBLUE2.0月度榜单中综合得分排名第一(1/1009),体现了团队在医疗AI行业的技术领先性。

中文医疗信息处理榜CBLUE2.0榜单排名

CBLUE:首个中文医疗信息领域公开评测基准

  中文医疗信息处理挑战榜CBLUE(Chinese Biomedical Language Understanding Evaluation) 是由中国中文信息学会医疗健康与生物信息处理专业委员会在合法开放共享的理念下发起,旨在推动中文医学NLP技术和社区的发展。该榜单在设计上综合考虑了任务类型和任务难度两个维度,目标是建设一个任务类型覆盖广、同时也要保证任务的难度的benchmark,因此榜单在吸收往届CHIP/CCKS/CCL等学术评测任务的同时也适当增加了业界数据集,业务数据集的特点是数据真实且有噪音,对模型的鲁棒性提出了更高的要求。CBLUE评测基准2.0任务形式多样,涵盖了医学信息抽取(实体抽取,关系抽取,事件抽取)、医学术语标准化(疾病和手术自动ICD编码)、医学文本分类、医学句子关系判定和医学对话理解与生成共5大类任务15个子任务;其数据来源分布广泛,包括医学术语、医学教材、电子病历、临床试验征集文本以及互联网轻问诊文本等。该榜单推出后受到了学界和业界的广泛关注,自2021年4月正式上线以来,共吸引包括百度医疗等超300支队伍参与打榜,已逐渐发展成为检验中文医疗信息处理能力的“金标准”。

云知声医疗预训练语言模型CirBERTa

  云知声-中科院自动化所语言与知识计算联合实验团队在医疗预训练语言模型技术上取得突破性进展,在CBLUE2.0榜单上登顶榜首。模型在5个单项任务(CHIP-CTC、CHIP-STS、KUAKE-QIC、MedDG、CHIP-MDCFNPC)排名第一,10个单项排名前三,取得了综合分74.700的佳绩。

  成功登顶背后的关键技术是联合实验室团队研发的医疗预训练语言模型CirBERTa。首先,基于团队在医疗知识图谱和医疗文本理解方面多年的积累,利用预训练语言模型领域增强和知识增强技术,学习了 100 多万的医学专业术语和 超过200G的医疗文本数据,大幅提升了对医疗文本的理解和生成能力。其次,现有预训练语言模型方法注重建模通用语义理解能力,不能有效区分不同难易程度的样本,导致困难样本的处理能力较弱。针对这一问题,CirBERTa在DeBERTa-V3模型的基础上,融入了持续学习的理念。一方面,自动识别和检测当前模型中难以理解的语义内容(如字词、句子等);另一方面,通过增量训练让模型更好地理解和记忆这些语义内容。两方面持续迭代学习,增强了模型的语义表达能力和对困难数据的学习能力,无论是在通用领域还是在医疗等低资源领域,CirBERTa都显著地改善了模型的训练效率与深层次语义分析能力,达到了SOTA效果。

CirBERTa模型示意图

  在此之前,云知声已成功将医疗领域NLP技术在多个项目中落地,并在多项评测比赛中取得冠亚军,此次登顶有效验证了云知声在医疗NLP技术方面的先进性与全面性。目前,预训练语言模型CirBERTa已经全面应用于云知声智慧医疗的多个产品线,包括病历质控系统、单病种质量管理平台、导诊预诊机器人、医保审核系统等。未来,云知声还将持续推动自然语言处理及知识图谱等技术在医疗领域的技术创新,用科技的力量提升打造虚拟医生,提供智慧医疗服务,建设智慧型医院。

  (可以加上以前评测获奖类的PR文章链接)

(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )