让计算机“看懂”所有东西?视觉智能超越人类的下一步如何进化

机器视觉带来什么?

让无人驾驶“阿波龙”更安全地在路上行驶

让医生们多一双不知疲倦的眼睛进行诊断

让“看透”世界的机器人进入灾区挽救伤员

就像一个歌词所写,“让我做你的眼睛,那样你才看得清”。视觉智能已经从模仿人类到超越人类,在人类持续进化中,它也在不断自我进化中。

在上一期《AI应用 | 从感知到认知,人工智能的现在与未来》,我们介绍了人工智能的核心技术,这一期我们仍旧从技术角度介绍视觉智能。

什么是视觉智能?在《百度大脑领导力白皮书》中定义为,计算机视觉是使用计算机模仿人类视觉系统的科学,让计算机拥有类似人类提取、处理、理解和分析图像以及图像序列的能力。

人类视觉是否不断进化?

让计算机拥有“眼睛”,这不是简单给计算机安装摄像头或者传感器就可以实现的,还涉及到“眼睛”的进化。

比如人类的视觉系统的硬件是由“角膜、虹膜、晶状体及视网膜”构成,是否还在继续进化,科学界仍有争议。

如果说停止了进化,为什么人类还存在蓝色眼睛?蓝色眼睛被认为最早出现在两万年前的土耳其地区,在此之前,人类的眼睛都是以棕褐色为主。

也许这是人类视觉系统持续进化的佐证之一。

正由于“眼睛”在不断进化中,人类才能从“智人”发展到现在的人类,具有看清楚的能力(视力)、感知颜色和亮度、还有对空间频率和时间频率的感知。

可以说,视觉一直都是人类最重要的感知系统,如今在人工智能时代,这一能力也被“移植”过来,努力让计算机“看懂”所有东西。

先模仿再超越

“让机器看到”的第一步就从模仿人类开始。那么在技术如何实现?

这起源于20世纪50年代的统计模式识别的计算机视觉,主要基于二维技术研究,但结果远不如人类视觉。

在如今公认的第三阶段的人工智能中,由于深度学习算法的突破,直接推动了神经网络算法的发展。有趣的是,人类的大脑皮层有一半的神经元与视觉有关,这与神经网络算法中的“神经元”很类似。一旦借鉴人类“视觉”系统之后,神经网络算法直接成为计算机视觉的技术引擎,让视觉智能应用场景丰富起来。

现在,计算机视觉在某些方面甚至超出人类。人眼识别的错误率一般为5.1%,而在2012 ImageNet大规模视觉识别挑战赛中,计算机视觉错误率已经下降到了3.57%。

当机器超越人类这一拐点出现,预计着视觉智能应用的大规模爆发。

图像理解:看得清清楚楚

根据解决的问题,计算机视觉可分为图像理解、三维视觉、动态视觉三大类。

一是图像理解,让计算机看懂图像、物体的边缘、边界甚至是可以识别、检测姿态和图像文字说明等,举例几个应用场景。

例子1:你现在想要办理消费分期、在线贷款、在线考试等……可能会涉及到风险认证,而主要手段就是靠人脸识别。

例子2:你在公共场所抽烟,那么这种违规行为都会进入智慧安防中的机器人“法眼”中,像百度云对“抽烟”行为能有好几种判断,这都是建立在“看清楚”的基础之上。

例子3:“不减十斤不换头像”的你还可以进行健康管理,在APP中识别出图像中的菜品及热量,还能显示菜品信息和健康管理建议。同理,在智慧餐厅中,拍摄餐盘就能快速结算;你拿起手机扫描物体就能进行植物识别、动物识别,瞬间成科普专家。

这都是图像理解的应用场景。

三维视觉:像人类一样具有“读心术”

机器视觉还在不断升级中,可以模仿人类的眼睛以三维视觉对周围环境进行精确的定位。

我们在侦探类作品中常看到读心术,其实这是读微表情。百度云的“情绪识别专家”,透过镜头可以捕捉人的微表情,一不小心就可能比你更懂你的情绪。

现在,百度云将三维视觉应用在人脸识别上,活体识别正确率已经提升至99.55%。三维视觉技术可以广泛应用于机器人、无人驾驶、智慧工厂、虚拟/增强现实等方向。

那么,这怎么实现的?

主要体现在两层:

硬件层面,百度云有适用于三维视觉的立体视觉AI传感器,并且采用三维AI视觉模组,使成本大大降低。

软件层面,开发了从实时端上运算到大规模云端分布式计算等多种算法。

动态视觉:“看透”不是难事

在二维、三维等静态图像识别技术相对成熟之后,百度开始探索让计算机看懂视频的技术。

•    嫌视频直播不够好玩?机器人可以在视频中识别,用户人体轮廓,实时增加各种设定的背景特效、贴纸道具,让你的娱乐体验更丰富。

•    影视后期工作量大?机器人也可以识别出影视作品中的人像区域,进行一键抠像、背景替换等后期处理。

百度云视觉技术已经把世界“看透”。基于百度三维视觉技术,机器可以像人一样看透世界,从而更好地在AR、新零售、工程机械等领域施展才能。基于动态视觉研究,可以更好地进行视频分析以及人机交互。

当前,百度计算机视觉技术也已全线开放,包括人脸识别、文字识别(OCR)、图像审核、图像识别、图像搜索5大类别,58项基础能力,已服务于几十万开发者。

免责声明:此文内容为第三方自媒体作者发布的观察或评论性文章,所有文字和图片版权归作者所有,且仅代表作者个人观点,与极客网无关。文章仅供读者参考,并请自行核实相关内容。投诉邮箱:editor@fromgeek.com。

极客网企业会员

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。

2019-03-06
让计算机“看懂”所有东西?视觉智能超越人类的下一步如何进化
在《百度大脑领导力白皮书》中定义为,计算机视觉是使用计算机模仿人类视觉系统的科学,让计算机拥有类似人类提取、处理、理解和分析图像以及图像序列的能力。

长按扫码 阅读全文