10月29日上午消息,2017未来科学大奖颁奖典礼暨未来论坛年会在京举办。在计算机科学人工智能研讨会上,斯坦福大学终身教授、谷歌云首席科学家李飞飞称,通过图像识别技术将图像“变”短句,这与认知心理学实验结果“非常接近”。
斯坦福大学终身教授、谷歌云首席科学家李飞飞
李飞飞认为,视觉是人类发展的重要基石,在过去的几亿年中,不同生物的视觉系统不断发展,至今已成为人类大脑中最复杂的系统。在计算机识别领域,视觉系统同样是重要研究,各国专家在视觉识别方面发明了众多技术,近8年时间,视觉识别的错误率已降低了10倍。
“在2012年,我们了解到了GPU技术以及深度识别技术,帮助世界发展”,李飞飞说,人工智能的发展对视觉研究作用明显。近期,专家们开始预测,根据视觉化语言模式,了解不同体积下的关系,甚至去了解不同物体间的位置和动作关系,“这是量化研究,用更丰富的方法来了解世界”。
图像识别是如何了解物体的呢?
李飞飞举例称,一张照片,通过视觉识别技术,后台可以分析出众多标签,通过不同标签、不同属性、不同关系来描述物体,而数据库和信息集,可以做到更精准的研究。
“大家都用过百度和谷歌搜索图片”,李飞飞说,当你输入一个男人时,图片搜索结果很丰富,当搜索一只狗时,同样会获得丰富结果,但当你输入“一个坐着的男人牵着一只狗”时,结果却大相径庭,甚至很不理想。
李飞飞认为,这主要取决于算法差异。目前绝大多数算法,在搜索图像时还是使用物体本身信息,只是简单了解图中有何物体。若加入更多属性,那么结果会更好,“我们在探索新方法,比如一个长句,放到数据库中,与图像进行对比,通过这种算法可以得到更好更精准的结果”。
目前,图像识别领域的成果是通过场景图,可以提供4层的分析结果,从而获得更多信息,“但这些是不够的,到目前我们只探索了认知心理学家讨论的概念”,李飞飞说道。
她以一名美食家的视频举例。视频中,美食家在做饭时,放入了不同调料,通过图像识别技术,这些图像下方就出现了描述短语。
李飞飞表示,目前可以将图像变成短句,从而出现更多内容,“这与认知心理学的实验结果是非常接近的”。
- 蜜度索骥:以跨模态检索技术助力“企宣”向上生长
- 越南Viettel宣布商用Open RAN 5G网络 基于高通技术打造
- 越南Viettel宣布商用Open RAN 5G网络 基于高通技术打造
- 当CPU和GPU遇上QPU:IBM披露最新量子计算实践
- 当CPU和GPU遇上QPU:IBM披露最新量子计算实践
- 诺基亚持续加码网络API:收购Rapid深入触达开发者社区
- 诺基亚持续加码网络API:收购Rapid深入触达开发者社区
- 台积电获美国66亿美元直接补贴
- 台积电获美国66亿美元直接补贴
- 华为Mate 70系列今日开启预订:发布会定档11月26日
- 华为Mate 70系列今日开启预订:发布会定档11月26日
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。