海天瑞声:大模型高质量数据需要高质量人工支持

7月24日消息,海天瑞声(SH688787)董事长贺琳近日接受媒体采访时表示,大模型高质量数据的提供,需要高质量人工的支持。同时,数据的清洗和标注流程对于模型的质量至关重要,它们可以提高数据的质量和准确性,帮助模型更好地去学习,也为模型的评估奠定了一个很好的基础。

据每经报道,海天瑞声是国内最早投入AI训练数据的专业服务商之一,2023年,不断翻涌的大模型浪潮将这家公司推至资本市场的聚光灯下。而身处潮水之中,贺琳对未来的思考依旧谨慎。

对预期审慎乐观

ChatGPT的出现,让这家数据公司突然站到了资本市场舞台中央。2023年初,贺琳在海天瑞声公司年会上的发言稿,80%由ChatGPT完成。开年以来,海天瑞声股价一路走高,3月一度涨至191.96元/股,较其2021年8月上市时翻了一番。

而海天瑞声方面,则已多次在投资者互动平台发布提示,称公司与OpenAI没有合作,也尚不能预期大模型业务将带来多少收入。贺琳认为,合适的入局时机应该是当这项技术能够真正在行业中落地的时候,这意味着其有真正的应用场景,而非伪场景。

同时,当行业落地时刻到来,数据的需求量也会迎来大规模提升。4月18日,海天瑞声正式推出其专为自动驾驶场景设计的全栈式数据标注平台“DOTS-AD自动驾驶标注平台”。

差距依旧存在

贺琳曾就职于中国科学院声学研究所,从事语音识别、语音合成、汉语语言理解、语音心理测试等方面的研究工作,成立于2005年的海天瑞声,最初诞生于贺琳在这份工作中捕捉到的行业痛点。

随着技术的发展,智能语音从实验室走向大规模应用阶段,更多场景的覆盖需求,意味着数据需求随之大规模增加。与此同时,在与一些就职于大型企业或研究机构的前同事交流时,贺琳发现,大家都在关注数据的问题。

时至今日,贺琳觉得,彼时促使她创业的瓶颈依旧存在。在她看来,数据的需求是跟着技术的发展而变化的,随着技术在各个行业中落地,就会有更多的数据需求爆发。

贺琳称,现在很多人都认为,数据差距是一个造成系统性差距的非常重要的原因,所以大家认为数据还是很重要的要素,这个瓶颈依然存在。不同的是,自己创业之初,国内竞争对手少,海天瑞声得以在市场快速突围。而如今,国内已经出现一批新的数据公司,先发优势成为当下数据公司核心竞争力的基础。

庞大参数支撑

海量数据如何最终成功支撑起庞大参数的大模型运行?答案就是数据集。贺琳介绍,数据集的产生是一个非常复杂的过程,其中包括设计阶段、采集阶段、处理阶段以及最后的质检阶段。

在设计环节,需要先去了解数据集是为了解决哪个问题,这个问题需要什么样的数据,需要多大的量,需要什么样的场景,以及采集的样本、规模、内容,包括采集的设备、标注的规范等等;采集环节则是按照设计的方案,到大千世界采集,有可能是声音,有可能是图像、图片,又或是手写的字、道路的场景。

采集完成后则需要进入清洗、标注环节。最后生产出的数据集需要通过双层的质检流程,最终才能生产出一个合格的数据集。这其中,清洗规则的好坏、标注的准确性都会极大地影响数据集的质量,进而影响模型的效果。

贺琳举例说,海天瑞声的大模型数据清洗率是5%,即清洗出来正确的数据仅仅占原数据的5%,这也印证了数据清洗环节的重要性。而标注的流程则主要是解决准确性和一致性问题。

贺琳认为,高质量的数据包括了数据的丰富度,场景的丰富度,数据的准确性、一致性等,这都是衡量高质量数据的标准。她也认同,高质量数据的提供,需要高质量人工的支持。

极客网企业会员

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。

2023-07-24
海天瑞声:大模型高质量数据需要高质量人工支持
对预期审慎乐观。

长按扫码 阅读全文