说起人工智能,大部分人不只是耳熟,更能一一列举出身边人工智能应用的例子:人脸识别,智能家电,语音识别。可如果问到什么是数据采集和标注,相信除了人工智能技术从业者外,了解这一领域的人真是寥寥无几,但这阻挡不了数据采集标注在人工智能行业所扮演的关键作用,说数据采集标注是人工智能行业的发展基石,一点也不为过。
按照目前采用的主流技术模式,人工智能技术的关键在于能够模进行深度学习,而深度学习的基础,是以输入为导向的数据算法——神经网络,神经网络结果的准确性则取决于接近于“无穷”量级的大数据。所以,进行大量精准的数据训练,采集海量数据进行标注,是人工智能进行深度学习极其关键的一环。
业内人士介绍,大数据时代的科技分工更加细化,准确高效地对多种类型的数据进行采集、标注、筛选、分类,满足客户在机器识别领域进行科研、测试和产品开发等方面的不同需求,就能摒弃复杂的中间环节,大大提升人工智能深度学习的效率,这也成为人工智能时代最关键的一环。比如在数据标注方面,无论是人物表情标注、人脸多点标注、车辆标注、行进轨迹标注,还是特定符号标注、特殊场景标注、地图位置标注,完美算法功能的实现完全取决于数据的精准标注。
那么,数据标注行业在整个人工智能领域处于什么样的地位,未来又着怎样的发展前景?龙猫数据的销售总监谢林波和商务总监罗微波先生在接受媒体访问时,对上述问题进行了专业的解答。
谢林波认为,数据采集标注和人工智能之间有着极强的协同增效关系,这个特点已经得到业界的足够重视,几乎是业内共识。如何将两者之间的结界彻底打通?数据采集标注的质量是一个重要的纽带和基石。人工智能本身不会识别物体,而要依靠海量的数据训练。
以人脸识别技术为例,当人脸关键点被一一标注之后,计算机才能建立起对人脸的认知。而人脸关键点的数目并不固定,不同数目的背后连接的是不同的算法。数据标注就是把这些数据进行分类、甄别、标注,最终实现更为精准的识别。
谢林波表示,随着人工智能产业的发展,数据采集样本需求量越来越大、样本分布越来越广泛,标注要求越来越严格,这对于数据服务商——特别是龙猫数据这种全领域大型服务商,是一个很大的挑战。依靠自主开发的智能采集标注平台,龙猫把数据采集标注需求分发给平台上百万量级的众包用户,依靠他们闲暇的时间进行数据采集标注,可以快速搜集大量的数据样本;数据标注有多重质量把关,保证了数据采集、标注、分类精确无误。
之前说过,数据标注的质量会直接影响人工智能训练的效果,龙猫的数据标注平台有标注员培训—标注员考核—标注—审核——抽审等多重环节,多重把关机制能够确保最终产出高质量数据;对于复杂的数据需求,龙猫还会通过自己管理的线下团队进行采集标注。
对于产业的未来发展,龙猫数据的商务总监罗微波表示,人工智能产业战略地位不断提升,无论从国家战略层面还是行业本身来讲,数据服务都是非常重要的一环,从目前的市场规模来看,数据服务行业处于高速增长期,发展潜力巨大,数据服务市场概念持续升温,资本市场也非常关注。
谢林波表示,随着数据服务行业市场的不断成熟,公司业务也不断拓展,服务能力不断提升,龙猫数据目前仍在集中精力研发数据的开发采集和标注技术,打造高效稳定的团队,下一步将持续规范人工智能数据服务市场,在目前合作的企业领域内拓展更多的跨行业客户。
据介绍,龙猫数据目前在产品和服务的横向发展和纵向延伸都做了升级,不仅开放了很多免费数据集服务社会,更创造性搭建出国内首个基于数据的人工智能综合服务平台,可以更大限度的满足人工智能企业甚至是传统行业企业日益增长的定制化数据需求。龙猫数据将持续践行行业责任和使命,未来会进一步加大在人工智能数据质量和安全性方面的投入,争取用最高的性价比,为更多客户提供精准、安全、迅速的优质数据服务。
“用龙猫的专业,助推中国人工智能产业的腾飞。”谢林波信心满满地说。
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。