原标题:数据质量决定AI的未来 云测数据掀起的行业飓风
AI被认为是最有可能的新工业革命引爆点,各国都在此方向积极投入参与竞争,中国当前的竞争位置还很不错,当在两强之一。AI发展需有三个要件,即算力、算法和数据,这其中算力属于基础设施能力,算法可算是基于基础设施之上运作的工作方法,而数据则相当于用来指导算法运作的依据。从一个可以完整运作的AI应用来看,没有算力则算法和数据跑不起来,没有算法则数据没有执行通道,没有数据则算力和算法就成了摆设,而目前人工智能发展的阶段恰逢算力和算法充足,AI数据十分缺乏,毫不夸张的说如果没有高质量的数据,人工智能将没有未来。
有数据人工智能才能跑起来,但数据的质量高低,对AI是否好用起到决定性作用。当前AI发展对于数据的需求非常大,但对于AI来说数据量并非等于数据质量,只有高质量的数据才能对算法起到决定性作用,进而产生生产力,而质量一般的海量数据对AI不但无利反而有害。大数据行业之前有对大数据去噪的作业流程,而到了AI时代,随着AI公司对高质量数据的需求不断加大,数据标注开始形成一个行业,在AI发展中担当越来越重要的作用。云测数据,正是这个行业中的头部企业。
像百度、阿里巴巴这样拥有海量数据的企业,更需要将数据进行清洗、标注,把海量数据加工成有价值的数据。更不用说人工智能产业落地前夕,AI需要更多还原特定场景的数据。这对于轻资产的AI公司来说用人力去做成本太过高昂,因此AI公司多将此类工作外包。由此而产生了一个以数据标注为核心的AI数据服务市场。根据艾瑞报告,2018年AI基础数据服务市场的规模约为25.86亿元,并预测到2025年这个市场的规模约为113亿元。这是个高速增长的市场,有多家企业涉足其中,为AI行业的发展提供最不可或缺的服务。
数据标注行业从性质上看偏劳动密集型,因为主要工作过程都牵涉到人力。举一个例子,谷歌大脑当年曾成功从视频中认出了一只猫,为此所付出的算力代价则是16000台电脑学习了1000万张图片。在当前的算力情况没有突破性进展的情况下,这个案例是无法落地应用的,因为仅仅认出一只猫就要机器学习这么久,要是认一间屋子里床上的一只猫呢?从应用角度来说算力成本太高,难以推行。将这个案例投入应用的唯一办法,就是采集和标注大量猫图片训练算法,以提升效率。这只是数据标注行业的某个单一工作场景,还有更多更复杂的数据需求。
当一辆自动驾驶的车行驶在路上时,有可能遇到的情况有哪些?由于智能驾驶领域的的特殊性,其算法模型要求能处理任何常规情况和突发情况,条件是要在数据上尽可能对其加以满足。前后左右来车,这是最常见的简单场景,目前自动驾驶发展的阶段可以作相应处置以避开,但如果车前方飞来一只鸟,或走来一个撑雨伞的人,这就属于非常见的复杂场景了,任何互联网公司也没有此类数据,只能靠云测数据等这些数据服务公司进行特定场景的数据搭建采集。自动驾驶的车要保证安全,就需要后台的AI数据尽可能将任何在公路上可能遇到的情况容纳进去,有些情况发生概率接近零,但只要不是零,自动驾驶的车的算法模型就需要这些数据。一个例子是,特斯拉曾有辆车在自动驾驶状态下车毁人亡,原因是自动驾驶系统没有辨别出前方白色车辆和天空的区别,导致自动刹车没有及时制动,一头冲了过去。
随着AI应用落地越来越广,相应的高质、精准、安全数据的需求量也在直线上升。创建于2011年的Testin云测从应用测试业务出发,在服务了超过一百万家企业之后,经过行业前瞻判断,抓住机会顺应市场趋势进入了AI数据服务领域,成立数据标注业务品牌云测数据。通过自建数据场景实验室和数据标注基地,为智能驾驶、智能家居、智慧城市、智慧金融、零售等领域提供定制化的数据采集、数据标注服务,全方位支持文本、语音、图像、视频等各类型数据的处理。在很短的时间内,云测数据已成为国内AI数据标注服务市场的第一名,目前市场上主要的AI企业均是其客户。
云测数据可以说是随着一个应用人工智能市场的成长而崛起的,其目前的市场地位除了顺应趋势站上风口之外,还有长期耕耘To B市场的流程化管理和人员协作经验的继承,而云测数据在开拓新业务时有章有法,是一个更为重要的原因。一个新生市场在初期时往往是野蛮生长期,监管缺失,市场认识不足,都会导致这个市场内乱象横生。企业为了尽可能拿到市场红利,往往会只盯住增长而放任其他方面不管,甚至采用一些非常规手段来保证尽快增长,但云测数据在AI数据标注服务这一行的征战,显然没有走这条看似常规的路。
需求定制是云测数据商业模式的核心,无论是数据标注还是数据采集,云测数据都发展出一套科学的生产与管理流程。云测数据在华东、华南、华北等地自建的数据交付中心和数据采集基地,在提升了数据生产作业流程环境、保证数据交付效率的同时,对于数据的最终质量保证有着很大的提升作用。如果为了节省成本可以采用小作坊式的数据标注作业场所,生产环境恶劣,员工素质不高,虽然可以省点钱,却终究无法提供最好的服务。云测数据是将AI数据服务当成一个长远的事业来做的,而非用来赚快钱,这个主导思想自然会对最终结果产生正面影响。
其实云测数据更为吸引客户的,是在数据安全方面所下的功夫。行业发展初期很少有公司会重视这件事,但云测数据却对其高度重视。云测数据在场景数据采集之前都会与被采用户签署数据授权协议,确保AI企业用于训练的数据合法合规;在作业流程中采用数据隔离机制,所有的数据都是被封闭在标注平台中的,员工可以在平台之上作业但却无法真正接触到这些数据,以保证数据的安全性;还有一点是不滥用数据,数据交付后清毁数据不留底,绝不二次使用;从安全防范到作业流程,再到数据审核与质量保障,每个环节云测数据都建立起了一套完善的机制与管理规定,用制度来守护数据的安全性和隐私性。
Testin云测CMO张鹏飞也强调“从整体看来,AI数据行业关于安全、隐私等方面并没有统一的标准和强调重视。但我们从长远角度出发,一直在隐私和安全防护角度下大力气服务行业、树立数据质量标杆,只有以这种负责的态度来服务客户,我们的行业才能‘良币驱除劣币’,真正让人工智能成为新一轮技术革命,改变整个社会和人类进程”。
事实上,这些看似繁琐的安全和质量机制,恰恰是客户所看重的,即便客户需求中也许不会展示那么详细,但云测数据通过科学流程主动将客户顾虑排除,客户的内心一定是认可的。因为谁也不愿意自己重要的数据被泄露外传,也不想自己的数据经过一番加工之后质量达不到要求。人工智能公司与AI数据服务公司之间,最重要的是建立一种信任关系,其他的事情自可迎刃而解。云测数据在这个行业内有章有法的运营行为,是其能够获得成功的关键。这给整个行业做出了正面示范,也引领了行业的健康发展态势。
全机器化、全智能化的时代还远远没有到来,在通往这个目标的过程中,相应的人力消耗与线下活动是必需的,因此云测数据具备充足的发展空间和机会。AI数据服务看上去所做的事情足够基础,但这些工作却是AI行业发展不可缺少的。如果说数据是驱动AI运行的能源,那么数据标注就是提供石油的那个角色。如果说数据是驱动AI运行的血液,那么数据标注就是造血干细胞,其作用与功能的重要性是怎么描述也不为过的。而云测数据正是这个新生行业的执牛耳者,将随着AI行业的发展而不断成长。
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。