开源AI并不透明？开源倡议组织给出新的定义

人阅读

2024-08-27 15:59:20

相关关键词

极客网·人工智能8月27日 长期以来，研究人员对开源人工智能（Open-source AI）的定义一直存在分歧。近期，自诩为开源仲裁者的开源倡议组织(OSI)日前发布开源AI的新定义，希望能帮助立法者制定法规，保护消费者免受AI风险的影响。

OSI邀请了70名研究人员、律师、政策制定者、活动家以及Meta、谷歌和亚马逊等大型科技公司的代表，共同为开源AI提可行的定义。

OSI声称，“一个开源AI系统可以用于任何目的，而无需获得许可，且研究人员应该能够检查该AI系统的组件并研究其工作原理。同时，研究人员还可以出于任何目的修改系统，包括更改其输出，并与他人共享，用于任何目的。”此外，该标准还试图为给定模型的训练数据、源代码和权重定义一个透明度级别。”

按此标准，OpenAI和Anthropic对它们的模型、数据集和算法保密，使它们成为明显的AI闭源系统。同时，Meta Llama和谷歌的免费访问模型也不是真正的开源AI模型，因为许可证限制了用户对模型的使用，而且训练数据集也没有公开。

AI模型构建和共享平台Hugging Face的应用政策研究员Avijit Ghosh说，“众所周知，企业在推广营销他们的模型时会滥用这个术语。”他表示，将模型描述为开源可能会使它们被认为更值得信赖，即使研究人员无法独立调查它们是否真的开源。

Mozilla高级顾问、OSI进程的参与者Ayah Bdeir表示，开源定义的某些部分相对容易达成一致，包括需要揭示模型权重(帮助确定AI模型如何产生输出的参数)。审议的其他部分争议更大，尤其是训练数据应该如何公开的问题。

训练数据的来源缺乏透明度，导致大型AI公司遭到大量诉讼。从OpenAI等大型语言模型提供商到Suno等音乐生成器，这些公司除了表示它们包含“可公开访问的信息”之外，没有透露太多关于训练集的信息。

一些开源支持者认为开源模型应该公开他们所有的训练集。Bdeir表示，由于版权和数据所有权等问题，这一标准很难执行。

最终，OSI主导的新的定义要求开源模型提供有关训练数据的信息，以达到“熟练人员可以使用相同或类似的数据重新创建实质上等同的系统”的程度。虽然这并不是一个全面共享所有训练数据集的笼统要求，但它也比当今许多专有模型甚至表面上的开源模型更进一步。

Bdeir说：“坚持一种在意识形态上原始的金本位制，而实际上这种制度任何人都无法有效实现，最终会适得其反。”她补充说，OSI正在计划制定某种执行机制，该机制将标记那些被描述为开源但不符合其定义的模型。

该组织还计划发布一份符合新定义的AI模型清单。虽然没有得到证实，但Bdeir预计，一些规模相对较小的模型将会出现在名单上，包括Eleuther的Pythia、Ai2的OLMo，以及开源团体LLM360的模型。

（免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，应及时向本网站提出书面权利通知或不实情况说明，并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后，将会依法尽快联系相关文章源头核实，沟通删除相关内容或断开相关链接。）