极客网·极客观察10月22日(朱飞) 一人,一车,一无人机,飞驰在最美的318川藏线。无人机飞上天空,不再是单调的跟拍,而是全方位记录“人车合一”的风驰电掣、潇洒漂移。遇到标志建筑或民族舞蹈,还会自动规划线路拍摄全貌,生成精彩影像片段……这样的美妙场景,你是否曾在脑中盘算憧憬?
不需要高超的专业技术和高昂的时间成本,一样可以拍出精彩绝伦的影像作品。这可能是大多数热爱摄影、热爱生活的人的共同梦想!
在刚刚落幕的第七届中国国际“互联网+”大学生创新创业大赛上,有一群拥有相同梦想的大学生,创新开发出自动摄影方面的“黑科技”——基于昇腾AI基础软硬件平台搭建的AI智能摄影系统——一举斩获大赛产业命题赛道银奖,叩开了AI智能摄影的大门。
从硬件开发到软件设计,从智能摄影及感知算法到摄影设备控制算法,再到系统集成和应用落地……基于全栈AI技术,这支来自浙江工业大学名为“翼瞰智能”的年轻团队积极将想法付诸行动,用AI给无人机的摄像系统装上“大脑”,初步展现了AI智能摄影的智慧能力及应用天地。
直击痛点,以“算法”代替“手法”
在这个软件定义世界的时代,随着人工智能呼啸而来,AI算法正在重新定义各种软件的运作方式。
当能够一定程度解决大众拍照焦虑的AI摄影在手机端大受欢迎后,长期研究无人机和元学习相关领域的翼瞰智能团队负责人俞天纬敏锐地觉察到,无人机的摄影也可以因AI变得更智能,从而进入更多应用领域。
实际上,以无人机为代表的移动拍摄设备,近年来已在一些领域得到应用。但翼瞰智能团队认为,叠加AI智能摄影功能后,这些设备将在诸如影视镜头拍摄、体育赛事直播、环境污染检测、公共安全检测等场景具备更广阔的应用天地。
比如在影视和体育赛事拍摄中,很多场景需要长镜头跟踪俯拍、高机动的移动拍摄,以及对单个或多个目标的跟拍等,这要求无人机等移动拍摄设备具备跟踪目标运动状态自动拍摄的能力,同时在行进路线中要能够自主避障以保障安全。而在环境污染检和公共安全检测等场景中,还需具备异常事件/行为的智能识别和检测能力。
显然,传统的人工摄影或非智能摄影方式,很难满足上述要求。一方面,实现同等效果人工摄影需要花费很长的时间和精力,有时甚至需要冒生命危险去拍摄;另一方面,当前设备的自动摄影模式往往无法满足高阶要求,手动摄影则需要调整大量参数和熟练的摄影手法配合,智能化和效率双低;再者,当前市场上的一些智能摄影设备只预留了少量接口,可扩展性差,无法满足上面提到的安全检测等延伸需求。
如何破题?翼瞰智能团队的答案是以“算法”代替“手法”,即以基于AI的智能摄影及感知、智能设备控制等算法,去代替人工手法操控拍摄设备,达成拍摄及其他效果。
简言之,翼瞰智能做法就是用AI去学习模仿专业摄影师的摄影手法,获取包括其运动轨迹、空间位置等数据信息,形成一个个“模板”,使得其他人在其他场景想要达到同样效果时,无需人工设定移动相机的参数及运动轨迹,摄像机就能自主轻松地实现。
全栈创新,AI智能自主摄影不是梦
要开发这样的AI算法并将之投入应用验证,首当其冲的便是要选择一个合适的AI算力底座,以及相匹配的AI开发框架。
俞天纬透露,实际上在参加本次大赛之前,其团队已经研究无人机智能摄影、无人机自动控制,以及硬件电路板开发等方面做了很多研究。此前的模型训练和部署,是基于谷歌的TensorFlow和英伟达的Jetson TX2开发板去做的,过程中遇到两个突出问题:一是Jetson TX2的算力不是很高,不能完全满足要求;二来TensorFlow与Jetson TX2分属两家,没有紧密的融合。
借大赛新增产业命题赛道的契机,团队决定“另起炉灶”,基于昇腾全场景人工智能平台能力,从硬件开发板的设计,到软件算法的开发,再到系统集成及场景验证,“三步走”打造一个基于全栈AI技术,且有具体落地场景的AI智能摄影系统。
首先,翼瞰智能团队围绕Atlas 200 AI加速模块,结合以往的研发积累,自主设计了核心SoC电路板。Atlas 200 AI加速模块可提供22 TOPS INT8算力,澎湃算力可全面满足无人机、机器人、可移动相机等设备的智能摄影需求。
同时,借助昇腾异构计算架构CANN(Compute Architecture for Neural Networks)软硬件协同优化,充分释放Atlas 200 AI加速模块的澎湃算力。利用先进的自动算子融合、异构计算调度、智能算子调优技术,让CANN成为了提升这套智能摄影系统AI计算效率的关键平台。更让整个团队兴奋的是,CANN还提供了开放易用的ACL(Ascend Computing Language)编程接口,在满足高效便捷地二次开发同时也可支撑后续多样化的需求演进,这也让CANN成为支撑人工智能计算生态发展的关键。
其次,基于与昇腾处理器紧密融合的昇思MindSpore AI框架,团队开发了系列算法。在智能摄影及感知算法上,得益于软硬件的深度协同,团队在单目深度估计算法上相比传统方法提速了5.8倍;设计实现了基于强化学习的自主摄影算法,性能领先DJI Active Track摄影模式3倍;在3D AI环境识别模型上,也比国际领先的算法精度提升了23%。同时在移动摄影设备控制算法上,团队开发了视觉-惯导融合的目标跟踪技术,基于硬约束的路径重规划技术,以及基于EGO空间的主动避障技术,大大减小了的跟踪误差,提升了安全路径规划率,提高了自主避障可靠性。
最后,团队对上述所有核心技术进行系统集成,形成一个可装配应用的模块,并率先将其搭载到无人机摄影场景中,在智能自主摄影、智能跟踪及辅助安全方面取得优异表现。
据俞天纬介绍,团队此前针对YouTube视频上的20种基本拍摄动作做了AI智能学习,结果显示无论是从人物在视频当中的位置,还是面部朝向,以及整个镜头的移动速度、角度等,都给人非常接近的感觉。问卷调查显示有89%的人都觉得新片与原片效果很相近。本次基于昇腾AI全栈能力“重塑”项目后,其“还原度”无疑又得到了进一步提升。
产教融合,AI点燃创业创新之火
AI智能摄影,让人人都能轻松拍出大片,这样的能力在当下这个短视频/直播无处不在的时代,别提有多令人兴奋。但最让笔者感兴趣的,还是基于这个基础功能之上的行业深度应用,包括上文提到的环境污染检测、公共安全检测,以及更多的机器视觉、图像识别类AI应用等。它们一旦被安上AI的“大脑”和智能摄影的“眼睛”,无疑将迸发出更大的社会和经济价值。
这其实正是当前AI从单一领域、局部应用走向千行百业、全面应用的一个写照。作为一种划时代的通用目的技术,AI不仅可以使人们以更高的效率处理传统行业亟待优化的问题,也可以在很多还没有解决的问题上取得新的突破,是推动社会经济持续发展、构筑未来领先竞争力的关键,值得产业各界、千行百业深度耕耘。
本届中国国际“互联网+”大学生创新创业大赛新增产业命题赛道,面向新工科、新农科、新文科、新医科对应行业产业领域,加强产教融合促进教育链、人才链与产业链、创新链的有机衔接,让一批对于社会发展有帮助的优质科技孵化项目从实验室走向转化应用,并启迪大学生们在新时代创新创业的征途中创出美好未来,可谓意义非凡。
作为本届“互联网+”大赛的重要合作伙伴,华为深入参与产业命题赛道,通过对学科知识与行业实践的高度融合,将极高价值的产业任务转化为包含昇腾AI、鲲鹏、华为云、CT、消费者云、OpenHarmony等系列前沿领域在内的32道创新命题项目,吸引了337所高校的1205支队伍近万名院校学生参与其中,并以全方位的资源支持和培训指导助力13支华为命题队伍进入决赛斩获大奖,可以说正当其时。
作为参赛并获奖的队伍之一,俞天纬表示翼瞰智能团队在用昇腾全场景人工智能平台开发部署智能摄影算法时得到了昇腾社区人员的大力支持,“基本上我们有什么问题,他们一看到很快就回复了。没回复的也会给我们留言告诉怎么解决。可以说大部分,99%的问题都可以通过他们的回复来解决,少走了很多弯路。我们深刻感受到了昇腾AI全栈技术及生态的成长壮大。”
而在这背后,华为与教育部合作的“智能基座”产教融合协同育人项目已经覆盖包括浙江工业大学在内的72座高校,昇腾AI、鲲鹏、华为云等前沿技术知识已经以教材教辅的形式融入到这些高校计算机、人工智能等专业师生的日常教学和科研中;同时还通过“鲲鹏、昇腾优才&众智计划”支持学生与产业接轨,理解产业的真实需求,提升综合创新能力。
“目前团队已发表国际高水平学术论文30余篇,授权发明专利30余项,申请受理专利10余项,多项成果均达到国际领先水平。”俞天纬透露,面向未来翼瞰智能还将继续基于昇腾AI全栈软硬件平台能力深度优化AI智能摄影系统,并将智能摄影核心模块推向更多的移动摄像设备及应用场景。
AI创未来,“昇腾”正当时!大赛丰硕成果及其背后产教融合新模式只是一个缩影,相信随着人工智能、大数据、5G等新一代信息技术与创新创业的深度融合,AI的星辰大海将全面开启!
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。