OpenAI和谷歌再起纷争:AI的尽头是内容

日前,纽约时报的一篇报道称,人工智能公司 OpenAI为收集高质量训练数据而开发了一个语音转录模型Whisper。该模型主要用于转录 OpenAI 获取的超过 100 万小时的 YouTube 视频,也就是将 YouTube 视频中的音频内容转录文字,然后再拿去训练 GPT-4。这个项目得到OpenAI 总裁 Greg Brockman的支持,甚至于Greg Brockman还亲自参与了视频的收集工作。

虽然OpenAI 认为这是对数据的合理利用,但谷歌显然并不这么认为,并公开称:谷歌会采取技术和法律措施来防止此类未经授权的使用。

人工智能领域,数据是构建智能模型的基石。没有高质量的数据,AI的发展就会受到严重限制。怎么合法获取高质量数据?可能有望在OpenAI和谷歌的纷争中给业界指明一条更为明确的道路。

AI公司为了提升模型的性能,往往需要大量的数据作为训练材料。然而,这些数据往往受到版权法的保护,未经授权的使用可能会触犯法律。这不仅对AI公司构成挑战,也对内容创作者的权利保护提出了问题。

目前OpenAI的训练数据获取大多是来自以下几方面:

一是互联网内容。OpenAI从互联网上抓取大量的网页内容,包括文本、图片、视频等多种形式的数据。这些数据不仅用于训练自然语言处理模型,如GPT系列,还可能用于图像识别、多模态模型等其他类型的AI模型。

二是图书资料。OpenAI还利用大量的图书资料作为训练数据。这些书籍内容涵盖了各种领域和主题,有助于模型更好地理解长篇、结构化和正式英语。

三是学术论文。为了提升模型在科学和技术领域的理解能力,OpenAI还收集了大量的学术论文作为训练数据。

四是社交媒体数据。随着社交媒体的发展,OpenAI也开始与各大社交媒体合作,探索利用社交媒体上的公共信息来训练模型。这些数据包括用户发布的文本、图片、视频等,有助于模型更好地理解人类的语言和行为。

五是特定领域数据。针对特定任务或领域,OpenAI还可能收集特定领域的数据进行训练。例如,对于医疗领域的模型,可能需要收集医学文献、病例报告等数据;对于金融领域的模型,可能需要收集市场数据、财务报告等。

这些内容不仅OpenAI在用,其他无数AI公司也在用这些内容进行人工智能的训练,要保证OpenAI的领先性,就必须为其AI模型加入更加丰富的高质量训练数据。这是OpenAI转录YouTube视频进行训练的关键所在。

2020年初,约翰霍普金斯大学的理论物理学家(现Anthropic首席科学官)Jared Kaplan发布了一篇论文,明确表示训练大语言模型用的数据越多,表现就会越好。自那以后,“规模就是一切”成为了人工智能行业的信条。

研究机构Epoch直白地表示,现在科技公司使用数据的速度已经超过数据生产的速度,这些公司最快会在2026年就耗尽互联网上的高质量数据。

高质量数据已经成为AI公司发展壮大的“石油”,在竞争的压力下,让它们对石油的获取变得更为无所顾忌。对YouTube视频的转录存在法律争议,OpenAI是知道的,但对数据的贪婪还是让他们义无反顾的坚信这是对数据的合理使用。

AI公司要发展,获取训练数据要合法合规。 一方面,可以通过与内容提供商建立合作关系,获取合法授权的数据。另一方面,AI公司也可以考虑自行生成合成数据,以满足训练需求。这不仅能够避免法律风险,还能够确保数据的多样性和质量。

AI的发展不仅仅是技术问题,更是社会问题。AI技术的应用需要在尊重版权、保护隐私的前提下进行。只有这样,AI技术才能够得到健康、可持续的发展。

AI的尽头是内容,但内容的获取必须建立在合法合规的基础之上。AI公司、内容创作者、法律机构等各方需要共同努力,找到平衡技术发展与法律伦理的解决方案,以确保AI技术能够造福人类社会,而不是成为争议的焦点。

免责声明:此文内容为第三方自媒体作者发布的观察或评论性文章,所有文字和图片版权归作者所有,且仅代表作者个人观点,与极客网无关。文章仅供读者参考,并请自行核实相关内容。投诉邮箱:editor@fromgeek.com。

极客网企业会员

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。

2024-04-09
OpenAI和谷歌再起纷争:AI的尽头是内容
OpenAI和谷歌再起纷争:AI的尽头是内容

长按扫码 阅读全文