IDC预测,2020年全球将拥有35ZB数据量。
随着人工智能的发展,人工智能多模态、非结构化数据量愈发庞大,数据种类逐步复杂化,多模数据组合标注等需求进一步显现出来。
数据的获取方式
从企业AI数据需求角度出发,获取数据的形式主要为自行生产和委托数据服务企业两种形式。在数据服务行业中,一般也通过自制、众包、外包三种模式完成数据处理业务,这三种模式优劣势也非常明显。
自制:
优势:标准唯一数据质量高;人员专业程度高。
劣势:实施场景单一,人员培训成本高,只能为特定的客户服务。
众包:
优势:用户众多,遍布全球,线上操作,成本低效率高。
劣势:仅适用于简单易实施项目,数据零散,需专业人员统一收集再处理。
外包:
优势:承包给一个或多个外包商,外包商对数据结果负责。
劣势:对于复杂项目不能较好的理解客户需求,数据质量参差不齐。
高质量的数据是算法提升的关键
数据的质量决定了AI算法的性能。中国作为全球人口最多的国家,拥有着全球最多的数据,然而对于AI算法来说数据量大并非等同于数据质量高,只有客观、精准、自然标注数据,才是算法提升的关键。
▲李开复博士演讲中提到“AI算法固然重要,数据更重要”
目前大多数数据服务企业,只支持单一模式完成数据处理,无法同时满足客户对工期、成本、质量及数据多样化的要求。近年,也有不少人工智能企业尝试自行制作数据,却因资源缺乏、对数据处理团队管理僵化、数据处理经验不足等问题,导致数据质量参差不齐。
数据堂通过三大产品矩阵互连互通——基础数据集、数据定制服务、私有化数据标注平台,真正为客户实现一站式数据解决方案。
数据质检解决方案
数据堂凭借多年数据业务经验积累,总结出一套完善的数据质检流程。可提供高度精细、标准化QC流程的质检服务,质检数据整体准确率达96-99%。
▲质检人员办公场景
数据质检服务内容
(一)数据质检员:
对外输出专业质检员资源,可承担具体的数据质检任务,同时也支持帮助客户培训、筛选、优化现有的质检团队。
(二)项目质量管理:
制定数据质量标准:由专门负责数据质量管理人员整理,减少客户的各项直接成本(沟通、培训等)或其他隐性成本;
输出数据质检资源:由质量管理人员安排质检员进行项目质检,减少客户非核心业务的工作量,达到降低成本和提高效率的目的;
数据质量持续改善方案:避免同类错误重复出现,持续改善,减少算法应用数据的偏差;
项目质量管理报告:为客户展示数据质量的整体情况,以便定期跟踪和复盘。
(三)数据质量管理体系建设:
搭建较为全面完善的数据质量管理体系,为项目开展等提供全方位支持。
数据质检服务能力
语音数据:
中文普通话采集及标注;方言采集及标注(昆明/武汉/长沙/四川/粤语等);外语采集及标注(口音英语类:中国/西班牙/法国/德国/葡萄牙/意大利/俄罗斯/巴西/韩国/日本/加拿大/新加坡/马来西亚等国人说英语;母语类:意大利语/德语/葡萄牙语/西班牙语/日语/韩语等);特定指令及场景语音采集(唤醒词/数字文本语音/声纹识别语音/演讲语音/自然对话等)。
图像数据:
图像采集:人像采集(活体对抗采集/3D手势/3D人脸/人脸多姿态/亲属人脸采集/指纹采集/表情视频/人脸肤质采集等);场景采集(室内外监控/驾驶行为采集/家居环境采集/道路景象/指定物采集/360度景象采集等)。
图像标注:人像标注(人脸关键点/行为/人像服饰分割/人像抠图/人脸毛孔标注/皱纹标注等);OCR标注(问答类/游戏类/多国语言);场景标注(3D点云标注/雷达数据标注/指定物标注/深度图像标注/交通道路线/交通标志标注等)。
文本数据:
韵律标注/分词标注/词性标注/实体标注/多次交互标注/多音字标注/数字读法标注/字符读法标注/TTS-中英文拼音标注等。
质检案例
案例一:交互类语音标注数据质检
与某大型公司合作质检:2019年8月-12月,共完成18个项目、26万条数据、27批次质检任务,返工量约为0.02%。全部通过客户验收,直接被用于算法训练,高效完成客户要求,为客户节省时间成本。
参与人员:
质量管理人员——1人,负责对接客户需求、任务安排和验收;
质检专员——7人,负责数据质检和进度报告。
案例二:街景图片标注数据质检
与某互联网公司合作质检:2019年7月-12月,共完成4356个数据质检任务,整体不良率从13.81%改善为4.50%。快速改善客户数据质量问题,为客户搭建数据质量管理体系,定期提供质量分析报告,深受客户好评。
质检方式:驻场+远程支持
▲质检人员办公场景
质检服务流程
从任务发布到质检结果交付这一过程,数据堂有完整的对接、运作体系。此过程流程化,使得可快速对接不同类型的项目,满足客户多样化需求。
数据质量管理团队,拥有7年及以上各类数据项目的实际实施经与质量管理工作经验,支持入门培训即上岗。数据堂认为,数据质量管理是算法性能的守门员,专业的AI数据质检解决方案,也是算法最后一道关,必须严格以待。
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。