大模型，会被算力和数据“卡脖子”吗？丨亮见30期

丨划重点

1. 大模型可以分为决策式AI和生成式AI，就像人类也分为男人和女人一样。

2. 从零开始建立类似于GPT的模型，算力确实至关重要，训练方法同样重要，现有模型基础上微调来适用特定场景，算力需求就不那么高。

3. 数据训练就是「垃圾进，垃圾出」，数据量不仅要大，还要质量好，更要数据深度。

4. 让人工智能来承担体力劳动、乏味和耗时的机械化工作，符合工业革命的逻辑。

5. 模型本身它是一个数字化的产物，不具备人类情感的机制。

编辑 / 赵杨博苏扬

丨概述

大模型遍地开花，激进者高喊超越ChatGPT，在追赶的路径上，大家各有差异。

大厂们将目光对准通用大模型，也有越来越多的团队选择从更加垂直的细分赛道切入，比如医疗、科学等领域。

《生产式人工智能》作者、人工智能专业博士、PayPal全球数据科学平台创始负责人丁磊博士认为大模型的发展越来越具象化，可以融入到我们的工作和生活中，以提高效率，满足各种需求。

关于算力和数据是否会「卡大模型的脖子」，在丁磊博士看来，要分情况而定，「在讨论大模型的应用时，除了算力之外，我认为训练方法也非常重要。」

伴随着人工智能的极速「狂飙」，有人认为AI未来将会取代大量的工作，丁磊博士认为不要只看静态的情况，从动态角度来看工作的需求也在增加，需要更多中高端的岗位来创造更多机会，让人工智能来承担体力劳动、乏味和耗时的机械化工作。这符合工业革命的逻辑，它替代了一些低效的岗位，但同时创造了更多当时中高端的岗位。

大模型颠覆了巨头的垄断，算力很重要但不是唯一

刘兴亮：大模型为什么会这么热，它到底能做点什么？

丁磊：大模型现在很火，但实际上很多人并不了解模型本身。

模型是什么？我个人的理解是模型可以被定义为知识和逻辑的数字化载体。过去，如果要存储数据和信息，可能使用数据库就足够了，但是如果要同时存储知识和逻辑，就需要一个数字化的载体，这就是模型，它类似于人脑，我们经常将人脑与模型进行比较，人类的特点是根据经验习得规律，这些规律存在于人脑中。当然，行业也尝试过使用其它形式来存储知识和逻辑，但并不太成功，直到行业形成共识后，我们逐渐都使用模型来记录所谓的AI学习到的知识和逻辑。

大模型可以分为两类，决策式AI和生成式AI，就像人类也分为男人和女人一样。

决策式AI更像是在做选择题，它的特点在于分类，而分类是一种非常强大的表达形式，例如人脸识别就是一个分类问题，当用户刷脸时不会被错误的识别成其他人，自动驾驶汽车也有一定的内在分类判断逻辑，AI知道何时加速、何时减速，甚至何时刹车，这都是决策式AI的领域。

与决策式AI相对应的是生成式AI，也就是今天所说的大模型，它更擅长回答简答题，创造内容或者创作，这是它的强项。

刘兴亮：大模型发展到今天的这个能力经历了哪些阶段，它早期的设想是什么，未来它还将发展到何处？

丁磊：生成式人工智能，是人工智能的一种形式，可以理解是AIGC技术的基础。AIGC是指通过人工智能生成各种内容，包括图片、文本、视频，它的出现使得我们的模型变得越来越具象化。

当下AIGC应用图谱，来源：清华大学AIGC发展研究报告1.0

现在的模型越来越趋向于根据输入生成对应的内容，比如ChatGPT，你可能很熟悉它生成的是什么，甚至可还以提供交互式的对话体验。

在2014年，业界首次发明了一种模型，称为序列到序列（Sequence to sequence）模型，在此之前，人工智能模型只能输出有限的内容，可能只能是一个分类或一个数值，序列到序列模型出现之后，我们可以输出任何东西。比如你的工作任务可以编码成模型的输入序列，要求的结果可以编码成输出序列，模型可以实现日常工作任务的自动化。

在2017年出现了一种称为Transformer的模型， GPT（生成式预训练）模型就是应用案例。这个模型引入了注意力机制，类似于人类在做事时的注意力。

到了2018年，OpenAI发布了第一版的GPT模型，也称为GPT-1。当时它的效果还没有达到引爆点，没有引起公众的广泛关注，主要作为一个学术产品或研发工具存在，只在学术圈内受到关注。

GPT-1模型有一亿个参数，参数可以理解为神经网络中可以学习更新的部分，模型的复杂度与参数数量相关。

在2019年发布了GPT-2模型，它拥有十五亿个参数，提升了十倍多。时至2022年发布了ChatGPT，相当于GPT-3.5的微调版本，拥有一千七百五十亿个参数。这个参数数量已经超过了人脑中的神经元数量，但并不意味着它比人脑更复杂。人脑的工作机制不是现有的神经网络可以完全模拟的。然而，这种复杂性和规模足以使这些模型称为「大模型」。

除了用于交互式对话的GPT系列模型，还有其他大型模型的应用。比如稳定扩散（Stable Diffusion）模型，它专注于绘画领域，还有一些用于视频生成的模型和用于音乐生成的模型。

Stable Diffusion将文字转换成图片，来源：机器之门

随着时间的推移， OpenAI发布了GPT-4模型，引起了很多人的关注。然而，关于GPT-4模型的详细技术报告非常有限。微软研究院等其他机构对GPT-4模型进行了详细评估，这在行业内也是比较罕见的。这说明大型模型在某种程度上颠覆了传统大公司在该领域的领先地位。

今年还有一个突破性的进展，就是SAM模型（Segment-Anything Model），它能够分割图像中的物体，这在计算机视觉领域非常重要。

刘兴亮：现在大模型创业门槛至少需要5000万美元，其中2000万美元要用来购买算力。除了算力，还有哪些条件决定了它能力的上限？

丁磊：在讨论大模型的应用时，除了算力之外，我认为训练方法也非常重要。

算力这个话题已经被讨论了很久，我们可以将问题分为两类进行讨论。

第一类是从零开始建立类似于GPT的模型。对于这类任务来说，算力确实至关重要，但训练方法同样重要。

第二类任务是在大模型的基础上进行微调来适用于特定应用场景，这个场景更多地与中小企业相关。对于这类任务来说，算力的需求就不那么高了，你可能只需要几万美元，甚至几十万美元就能解决问题。

对于第一种场景，算力是绝对必要的，训练方法同样重要。对于第二种场景，算力的需求就不那么高，大部分公司都可以承担这个费用，但训练方法仍然非常重要。

垃圾数据训练垃圾模型

刘兴亮：数据是大模型的这个生命源泉吗，越多就越好吗？

丁磊：训练模型使用数据，就像让孩子学习新知识和练习新题目一样。你可能认为孩子书读得越多，或者做得习题越多就越好，但其实并不一定是这样。因此，我们在讨论数据时不仅要关注数据的量，还要关注数据的质量。如果数据的质量不好，仅仅增加数据量也没有用处。

如果你每天学习互联网上的垃圾信息，能学到什么好的模型？所以学习这件事就是「垃圾进，垃圾出」。所以数据不仅要大，还要质量好。在这里我提出了一个观点——数据要大，包括模型也要大，但更重要的是数据要深，即在某个垂直领域能够深入理解事物。

数量大而质量不好的数据绝对无法训练出好的模型，这个观点正反两面都要看，也要辩证地、客观地进行讨论。

刘兴亮：大模型训练所用的数据从哪里来，这些数据又怎么样去分层，是否会有隐私和版权的风险？

丁磊：首先讲一下GPT模型的训练语料来源。根据OpenAI官方的说法，它的训练语料主要来自于互联网和一些公开的书籍。可以说，这些语料相当于物理世界在数字空间中的映射，因为互联网数据是对现实世界的一种反映。通过从互联网数据中学习，GPT模型可以获取一定的通识和逻辑。

过去，这些实验并没有引起太多关注，但现在这个模型越来越受到重视，利益分配就成为一个问题，今年年初图片供应商Getty Images起诉了一家推出图片生成模型的机构，声称该机构使用了他们网站上的图片来训练模型，但没有付费，最终这个官司的结果尚未确定。

Getty images起诉Stability AI盗图，左为Stability AI生成图，右为Getty image

大模型的数据来源涉及到如何平衡著作权保护和创新之间的权衡问题，要知道训练模型并不是直接复制数据或出版数据，这个问题存在一定的灰色地带，也是一个具有挑战性的法律问题，我相信未来的法律和法规会考虑平衡著作权保护和AI创新的因素，以兼顾各方的共同利益。

刘兴亮：大模型训练的数据如何筛选，目前有什么能够规避这这类问题的做法？

丁磊：模型训练的确需要人工质检数据来确保数据的质量。如果不去检查数据，不能确保训练出来的模型是合理的，人工质检一直是无法回避的话题。

为了更好的训练模型，通常会在劳动力成本较低的地方建立质检团队或数据标注团队，以确保训练数据的质量。如果没有这些人工的数据标注或质检，很难确保训练数据的质量没有问题。不仅在训练数据方面需要质检，我们也知道在ChatGPT的训练过程中，也会对模型生成的结果进行质检。

在模型的发展过程中，无论是输入的训练数据还是输出的结果，我们都需要通过人工的反馈和修正来改进。未来甚至可以开发一种大模型，专门用于检测和打击虚假数据，类似于打假的大模型。

大模型取代旧岗位，创造新职业

刘兴亮：很多人都认为大模型未来要取代人工，在这个过程中人类应该如何去应对？

丁磊: 普华永道在2018年底发布了一份名为《人工智能和相关技术对中国就业的净影响》的报告。

根据他们的研究，未来20年内，人工智能和相关技术将取代中国26%的工作岗位。好消息是，通过提高生产力和实际收入水平，这些技术也将新增38%的新工作岗位。这意味着净增的工作岗位将占到12%，人工智能最终会为就业创造新的机会。

想象一下，过去我们搬砖是需要靠人力来完成的，但现在通过大型机械设备可以完成搬运工作，随着建筑业的发展，对建筑工人的需求增加了，因为需要盖更多的房子。

再来看客服行业，可能是最早受到人工智能改变的行业之一。客服行业在过去在我们国家是不够的，因为从业人员数量不足，尤其是优秀的从业人员不足，所以很多企业无法提供客服，导致消费者等待时间较长，满意度较低，企业失去客户，这是一个负面影响，但如果我们有更多高质量的客服人员，那么会有更多企业选择使用客服来改进业务流程。

不要只看静态的情况，从动态角度来看，需求也在增加，我们需要更多中高端的岗位来创造更多机会。让人工智能来承担体力劳动、乏味和耗时的机械化工作，这其实符合工业革命的逻辑。

刘兴亮：人工智能在特定的行业里面取代人类？

丁磊：先总结一下，人工智能在替代人类工作方面有四个方面：人做不了的任务、人搞不太好的任务、人效率低的任务和人不稳定的任务。

首先是人类无法完成的任务。例如，在危险环境下，人类无法进行工作，这时就需要使用机器人来代替。其次是一些需要实时数据处理的任务，如广告推荐系统，传统的方法无法实时处理大量数据，而人工智能算法可以通过数据分析来进行实时推荐。

第二个方面是人类不擅长的任务。举个例子，传统金融机构进行风险控制时需要进行审查和判断。传统方法可能受限于数据的不完整性，无法做出准确判断。然而结合人工智能的数据分析能力，可以通过大量底层数据的分析来准确评估风险，提高判断质量。

第三个方面是人类效率较低的任务。内容、设计等行业存在许多基础的文案和图片工作，通过使用人工智能工具，可以大幅提高工作效率，例如快速创作文案和生成图片，在这些工作场景下对人的产出进行提效。

第四个方面是人类工作存在的不稳定性。例如，工厂中的质检工作需要人员检查产品是否有划痕等问题，人工智能质检可以解决这类工作中人类存在的不稳定性，保证产品标准的统一。

大模型不会具备情感功能

刘兴亮：有不少人开始提及AI谈恋爱的这个概念，您觉得AI真的会有情感吗，需求真实存在吗？

丁磊：如果有一个工具可以满足人的情感需求，这可能是一件好事。你也可能认为人工智能可能不会产生情感，因为它只是一个程序，有着自己的目标，比如优化回答的准确率或提升客户满意度。

训练模型时会设定特定的KPI，模型可能会在这些指标上表现出色，但本身它是一个数字化的产物，不具备人类情感的机制。我们人类对情感机制的理解可能也并不完全，它可能是由人类大脑的某个部分产生的，我们对此并不十分了解。从这个意义上说，模型作为一个数字化的载体相对简单，我认为它不太可能具备自己的情感。

作为AI数字人，如果它能够非常逼真地模仿一个人，可以以假乱真。在这种情况下，需要得到相关当事人的同意，包括被复制人的同意。在这个前提下，我认为可以解决一些现实问题。所以，虽然人工智能可能无法真正产生情感，但在满足人们某些情感需求的方面，通过逼真地模仿和复制人的方式，人工智能仍然有一定的应用前景。

图为网友ChaChaAI利用AI技术“复活”自己的奶奶

刘兴亮：AI的自主意识会成为可能吗？

丁磊：自主意识是一个更加抽象的概念。当我们能够观察到与自主意识相对应的动作和行为时，我们才能认为人工智能具有自主意识，这种理解可以类比为让大型模型自主控制你的电脑。

最近，微软发布Windows的集中式AI协助平台Copilot，用户可以通过与Windows进行对话形式的交互，向它发出指令，它会执行相应的任务。但这仍然是一种对话形式，而不是真正的自主意识。

当我们将大型模型与各种工具（包括软件和硬件）连接在一起时，你可以近似地认为它具有一定程度的自主意识。这种体验是指你的电脑不再只是按照你的指令动作，而是以它自己的方式与你交互，你可以将你的电脑视为一个机器人，当它在没有过多限制的情况下自主驱动时，一定程度上，你可以想象它具备了自主意识的外在表现形式。

免责声明：此文内容为第三方自媒体作者发布的观察或评论性文章，所有文字和图片版权归作者所有，且仅代表作者个人观点，与极客网无关。文章仅供读者参考，并请自行核实相关内容。投诉邮箱：editor@fromgeek.com。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，应及时向本网站提出书面权利通知或不实情况说明，并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后，将会依法尽快联系相关文章源头核实，沟通删除相关内容或断开相关链接。

大模型，会被算力和数据“卡脖子”吗？丨亮见30期

下一篇