DeepMind：大模型可实现高效无损压缩图片和音频

9月28日消息，DeepMind 研究人员日前评估大型语言模型（LLM）的压缩能力时，发现这些模型的“压缩能力”相当惊人，除了常规文字资料外，还可以压缩图片和音频，相关内容已经发布在 ArXiv 上。

据悉，DeepMind 在研究中，使用了一个名为“Chinchilla 70B”的模型，虽然这个模型主要使用文字训练，但是研究人员发现该模型也可用于压缩 ImageNet 图片（PNG），可将文件压缩至原始大小的 43.3％，甚至可将 LibriSpeech 语音样本（FLAC）压缩至原始的 16.4％。

DeepMind 的研究证明，模型的“预测”能力和“压缩”能力之间存在“等价性”，因此研究人员可以使用任何压缩算法，建立一个更加强大的条件生成模型。

IT之家注：“压缩”本质上就一种编码的过程，目标是要以更少的内容表示更多的资料，因此当模型达到一定的预测能力时，其实也就代表模型学会了一种编码的方式，这种编码方式能够用来压缩文件，因为模型已经理解了相应文件中的特征和模式（即一个模型如果能实现精确预测，也就能够捕捉文件的本质特征和结构，从而有效地压缩资料文件）。

DeepMind 认为，在当前语言模型成果丰富的当下，任何人都可以取得语言模型并将其用于压缩中，而不需负担额外的训练成本。

同时，研究也显示，即使是“主要使用文字进行训练的基础模型”，由于其上下文学习能力，因此也能够很好地成为“通用压缩器”。

研究还发现，若要将模型用于压缩上，模型并非越大越好，过大的模型可能反而对压缩能力产生负面影响，因为模型的参数本身也需要在输出中被考虑进去，当有一个模型具有非常多的参数，虽然能够有效压缩资料，但是庞大的参数本身也会成为负担，且自然语言处理常用到的分词（Tokenization）方法（把一串文字切割成更小、更容易处理的步骤），在压缩层面上不会提高压缩效率，反而会增加模型的体积。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，应及时向本网站提出书面权利通知或不实情况说明，并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后，将会依法尽快联系相关文章源头核实，沟通删除相关内容或断开相关链接。

DeepMind：大模型可实现高效无损压缩图片和音频

下一篇