文/唐良元(作者单位:英国伦敦大学高等研究院)
中国著名学者周海中先生曾经指出:“语言智能是人工智能皇冠上的明珠,它对于发展人类的表达能力、思维能力、理解能力等具有十分重要的意义。”近年来,由于人工智能的快速发展,语言智能越来越受到学术界,尤其是语言学界的高度重视和深入研究;在这方面,学术界已经取得了不少可喜的成果。
语言智能(英文language intelligence)是语言信息智能化的过程,也是运用信息技术模仿人类的智能,分析和处理人类语言的过程,更是人工智能的重要组成部分及人机交互认知的重要基础和手段。另外,语言智能还有力促进语言教学、语言学习的智能化,拓展语言学研究的新领域,在未来教育发展中将发挥越来越重要的作用。
语言智能是信息技术创新发展的时代产物。发展语言智能必须增强科学意识,只有深刻认识语言智能的科学原理,才能深入研究语言智能这个前沿领域。语言智能基于人脑生理属性、言语认知路径、语义生成规律,利用大数据与人工智能技术,对语言信息进行标注、抽取、加工、存储和特征分析,构拟人机语义同构关系,让机器实施类人言语行为。
语言智能具有文化传承的服务优势;语言是文化载体,语言精神反映民族精神。从浩瀚的古典文献中精选优秀传统文化素材,从当下日新月异的语言信息洪流中洗练文化精华,传递给当代国人,需要语言智能独特的算力。从既有的语言文字数据中分析发现文化素养和家国情怀,精准实施优秀文化教育,可以成为语言智能的常态服务。
上世纪80年代,美国著名学者霍华德•加德纳先生认为,语言智能就是人们运用语言的能力。这种能力是人的认知力、思维力、逻辑力、创造力和表达力的综合体现;而提高语言能力是对语言智能提出的挑战性问题。这需要采集相应数据,科学分析个人的知识基础、思维类型、能力潜质等,分析经验积累和知识摄取状况,并通过智能技术手段来推荐个性化知识学习内容。
语言理解是语言智能的主要任务,涉及到语言理解的目标、途径和主要模型。机器对语言的理解就是确定了概念与语言单元的映射,以及知道承载概念单元的语言属性,和知晓不同语言单元之间的关系。而语义理解是语言理解的核心,它包括对自然语言知识和常识的学习;语义理解可以通过一系列的人工智能算法以及多场景智能语义分析,将文本解析为结构化的、机器可读的意图与词槽信息。
目前语言智能在多个领域都有应用,主要是四种类型:分类、生成、抽取和校对。分类问题就是给语言对象打标签,语言对象可以是句子、篇章等;生成问题主要是给原文本生成另一种文本表达,典型的应用是机器翻译以及人机对话、自动写作等;抽取问题就是从研究对象提取想要的答案,让文本信息处理更加方便;校对问题主要是让机器对给定的处理对象,回答对应信息是否齐全、是否一致、是否准确的问题。
近期由美国人工智能公司OpenAI开发的软件ChatGPT-4带来了比ChatGPT背后GPT-3.5更强的推理、计算、逻辑能力,也引发了全民使用的热潮。在技术发展方面,GPT-4的训练数据涵盖了互联网上的大量网页、书籍、新闻报道等,数据量达到了45TB,模型规模也更大,拥有1750亿个参数。我们期待看到更多的语言模型应用在实际场景中,为语言智能带来突破性进展,也为人类社会带来更多的便利和创新。
由上可知,语言智能在人工智能研究中扮演着非常重要的角色。其实,人类对语言的学习与理解并不是完全通过文本本身来完成的,语言只是其背后具体概念与含义的抽象载体。所以,也许通过多模态的建模才能让机器更好地去理解语言的含义。如何让机器学习与语言学结合得更加紧密,比如对语言的语义信息、语用信息构建合适的任务形式、模型结构、数据采集与存储等也是未来值得关注的研究方向。
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。