从“听懂”到“回答”,人工智能是如何轻松get人类语言的?

在上一篇专栏文章《AI应用 | 人工智能为什么越来越聪明,从机器学习说起》中,我们聊了聊人工智能的基础技术——机器学习。本篇继续深入,看看实现人工智能需要什么样的核心技术能力。

举个例子,两个人对话,之所以能做到所答即所问,一是听到并理解了对方说的话,二是有相应知识储备能够组织语言回答,二者缺一不可。

人工智能也是如此,可以将支撑它的核心技术能力分为两类:感知技术和认知技术。其中,感知技术可以归类为“听懂”,认知技术则可以统归为“回答”。而这两项技术都是由机器学习支撑的,这也是一再强调,机器学习是人工智能基础中的基础的根本原因。

那什么是感知技术和认知技术?前者是对信息获取并进行认知和理解的过程(听到、看到、感觉到,知道在特定场景下是什么意思),后者则是分析数据、决策的过程(对以上做出反映,会动、会说、会反馈)。具体而言,每项技术都包括很多应用场景。

感知技术包括:智能语音、计算机视觉、AR/VR。

认知技术包括:自然语言处理、知识图谱、用户理解等。

下面看看每项技术都有什么特点。

认识三大感知技术

•    智能语音

智能语音是人以自然语音或机器合成语音同计算机进行交互的综合性技术,结合了语言学、心理学、工程和计算机技术等领域的知识。其不仅要对语音识别和语音合成进行研究,还要对人在语音通道下的交互机理、行为方式等进行研究。其中,语音交互过程包括四部分:语音采集、语音识别、语义理解和语音合成。

在这个领域中,科学界早在20多年前就进行了尝试,比如IBM的ViaVoice诞生于2000年左右。在2017年,IBM、微软相继宣称自家的产品语音识别错误率接近了人类(相差4~5个百分点),而人类的语音识别错误率大约为5.1%。百度的AI语音开发时间较早,准确识别率超90%,支持多领域语义理解和开发者自行上传词库,并在多个行业有应用。

•    计算机视觉

计算机视觉是使用计算机模仿人类视觉系统的科学,让计算机拥有类似人类提取、处理、理解和分析图像以及图像序列的能力。近年来,随着深度学习的发展,预处理、特征提取与算法处理渐渐融合,形成端到端的人工智能算法技术。

自动驾驶、机器人、智能医疗等领域均需要通过计算机视觉技术从视觉信号中提取并处理信息。比如,自动驾驶就是一个典型的应用场景,真正要成为“无人驾驶”,几乎99%的情况下都要依赖计算视觉的能力。

计算机视觉可分为图像理解、三维视觉、动态视觉三大类。

•    图像理解是通过用计算机系统解释图像,实现类似人类视觉系统理解外部世界的一门科学。

•    三维视觉即研究如何通过视觉获取三维信息(三维重建)以及如何理解所获取的三维信息的科学。

•    动态视觉即分析视频或图像序列,模拟人处理时序图像的科学。

•    增强现实(AR)/虚拟现实(VR)

增强现实(AR)/虚拟现实(VR)是以计算机为核心的新型视听技术。结合相关科学技术,在一定范围内生成与真实环境在视觉、听觉、触感等方面高度近似的数字化环境。用户借助必要的装备与数字化环境中的对象进行交互,相互影响,获得近似真实环境的感受和体验,通过显示设备、跟踪定位设备、触力觉交互设备、数据获取设备、专用芯片等实现。

从中不难发现,感知技术的重点在于“感”,像听、看、触,未来还可能有“嗅觉”都属于这个范畴。

再识三大认知技术

•    自然语言处理

自然语言处理是计算机科学领域与人工智能领域中的一个重要方向,研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法,涉及的领域较多,主要包括机器翻译、阅读理解、智能写作、对话系统、基础技术和语义计算等。

自然语言处理的难点在于让机器“懂”人类,应用最广的是“智能音箱”,能让音箱听懂人类词语背后的真正含义,这就要结合场景、上下文对话、不断训练才能一步步提高“懂”的层级。

•    知识图谱

知识图谱是一种结构化的知识库,是一种由节点和边组成的图数据结构,是一种将不同种类的信息连接在一起的语义网络。知识图谱符号化地描述了物理世界中的实体及其联系,提供了从“关系”的角度去分析问题的能力。与行业应用场景结合,知识图谱可以广泛应用于智慧医疗、智慧金融、智慧司法、智慧企业服务等方向。

这也是近两年发展较快的技术,10多年前的语义网络、专家系统都可以看做是知识图谱的前身。目前在百度云智能客服系统中已经有较成熟的应用, 现在百度的度秘、新闻推荐也都有应用知识图谱。

•    用户理解

AI应用场景中,需要对C端用户有全面的理解,用户画像是非常重要的技术方向,可以从多个维度去刻画用户特征,形成群体画像,用于市场营销、风险控制等领域。很明显,认知技术的核心在于“认”,重要的是输出结果,辅助决策。

这与大数据的相关技术密不可分,在以“客户为中心”的数字营销中应用较多。

从当前的发展阶段看,感知技术已经相对成熟,并广泛应用于金融、制造、政府、零售、地产、教育、交通等诸多行业,认知技术相较而言则还有较大的发展空间,待拓展的领域还有很多。

不过,相信随着包括百度云在内众多企业不断将这些AI技术应用到不同行业中,反过来也会提高和促进这些技术的发展,然后不断反馈到行业中,让更多企业从中受益,实现智能转型。

关注百度云微信公众号,了解更多AI应用知识

免责声明:此文内容为第三方自媒体作者发布的观察或评论性文章,所有文字和图片版权归作者所有,且仅代表作者个人观点,与极客网无关。文章仅供读者参考,并请自行核实相关内容。投诉邮箱:editor@fromgeek.com。

极客网企业会员

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。

2019-02-25
从“听懂”到“回答”,人工智能是如何轻松get人类语言的?
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向,研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法,涉及的领域较多,主要包括机器翻译、阅读理解、智能写作、对话系统、基础技术和语

长按扫码 阅读全文