摘译：认知体系研究综述（三）

前期回顾

作为人工智能的一个重要分支，认知体系的研究和应用经过了近40年的发展，已取得了可见的成果。前两期内容对认知体系的概念、感知和注意力进行了介绍，本期将继续分享关于行动选择和记忆的部分。

摘译：认知体系研究综述（一）1 引言2 什么是认知体系3 认知体系的分类

摘译：认知体系研究综述（二）4、感知

5、注意力

6 行动选择（Action Selection）

一般来说，行动选择决定在什么时间要做些什么，被分为“做什么”（即做什么决策）和“怎样做”（即动作如何控制）。例如，在MIDAS体系，行动选择包含了目标任务和执行这个选择的动作或行动。同样的，在MIDCA中，下一个动作通常是从一个被计划好的序列中选择出来的（如果这个序列存在的话）。因为在不同的认知体系中，行动选择的方法是不同的。在接下来的讨论中，行动选择机制可应用于决策和动作。

图7显示了所有被执行的行动选择机制，根据相关的体系类型（符号、混合、涌现）来组织。执行行动选择的主要两种方式：计划和动态。计划是事先制定一系列的步骤以达到一个确定的目标。在动态的行动选择中，一个最好的动作是从其他方案中被选择出来的，基于当时可获得的知识。对于这个类别，我们考虑选择的类别（赢者通吃、概率、预定义）和选择的标准（相关性、效用、感情）。默认选项一直是基于给定的标准做出的最好的动作（有最高激活水平的动作）。

最后，学习也可以影响行动选择，但会在第8节中讨论。注意，这些行动选择机制并不互相排斥并且大多数体系中有不止一种机制。尽管很少的体系会执行同样的行动选择机制，可行的组合空间通常会很大。

图7：行动选择所涉及的机制

图7中可视化分为三列：符号、混合和涌现。注意，在这个图中（以及第7节和第8节的图中），排序顺序强调具有相似动作的选择机制（或分别为记忆和学习方法）的体系结构簇。

6．1 计划与反应式动作

可以预见的是，计划型行动选择在符号范式体系中更加常见，但是也能在一些混合的甚至是涌现范式体系中被发现。尤其是在任务分解中，当目标被递归地分解成子目标，任务分解是计划动作的一种非常常见的形式。

其他被使用的计划动作的类型有：暂时性的、连续性的、层级性任务网络的、生成式的、基于搜索的、局部择优的等等。在我们的选择中，很少有体系仅仅只依赖于计划，例如OSCAR做逻辑推理和IMPRINT使用任务分解来模拟人类行动。除此之外，计划型行动选择经常利用加强动态的行动选择机制，来提升对变化的环境的适应性。

6．2 动态行动选择

动态行动选择能提供更多灵活性，并且能被用来模拟人类和动物。“赢者通吃”是神经网络中的一种选择策略（最强的输入被增强而其余的被抑制），它和它的变异体在各种新兴体系中很常见。同样的机制也被用来在所有体系中寻找最适合的动作，通常行动是多个并行过程的合作和竞争的结果。

行动选择的预定义序（方式）可能服务于不同目的。比如，在Subsumption体系中，机器人行动被附属行动等级所表示，高级行动优先于（包含）低级行动的输出。

在FORR中，做决策的部分根据递增顺序来从顾问中考虑选项，以达到与人类成员类似的学习。在YMIR中，优先级首先被给与到反应层中的过程中，然后是内容层，再是过程控制层。这里，目的是提供一个平滑的实时行动生成。每层有一个不同的认知反应时间上限，因此，反应式模块为用户提供自动的反馈（变化的脸部表情、自动发声），而审议性模块生成更复杂的行动。剩余的行动选择机制包含有限状态机制，被经常用来表示动作的顺序甚至来编译整个系统的行动，概率行动选择也常见。

行动选择标准

在选择下一个动作时，有多个标准要被考虑到：相关性、效用和感情（包括动机、情感状态、情绪、心情、积极性等）。

相关性反映出动作有多么契合现在的情况，这主要应用于有符号范式推理的系统和在应用前测试规则前／后的条件。动作的效用是测量为了达到现有目标的期望贡献。一些体系也会执行候选动作的“干运行（dry run）”，并观察他们的效果来决定他们的效用。效用也会考虑到过去动作的表现并在将来通过强化学习来促进行动的成长。其他机器学习技术也可以被用来把过去的成功行动和目标做关联。最后，内部因素并不直接决定下一个行动，但是会使选择存在偏差。

简单来说，我们会考虑关联到情绪、积极性和人类个性特征的短期、长期和终身因素。基于这些因素对于人类的决策和其他认知能力的影响，在认知体系中模拟情绪和情感是重要的，特别在人机交互、社交机器人和虚拟代理的领域。

在认知系统中，人工感情通常被模拟成能够影响认知能力的过度状态。比如，在CoJACK中，斗志和恐惧的情绪能改变计划选择。在斗志高昂时，那些能应对威胁的计划有更高的效用，但当恐惧时，效用低下。其他例子包括压力影响决策的模型、影响21点策略的开心／悲伤情绪、在焦虑状态下的类比推理、记忆唤醒的影响、基于目标满意度的正面和负面情感、在HCI场景中的情绪学习等。

积极性是内部动机的另一个源泉。一般来说，他们代表基本的生理需要，比如食物和安全，但也能包含高级和社交动机。在ASMO中，3种相关的简单积极性，“喜欢红色、用户与机器人的赞美“，通过调整相关模块的权重来做偏差行动选择。在CHARISMA中，保存积极（避免伤害和饥饿）、好奇心和自我提升的欲望一起指导行动生成。在MACSi中，好奇心驱使代理，探索到它学习最快的领域。同样，在CERA－CRANIUM中，好奇心、恐惧和生气通过可移动的机器人来影响对环境的探索。

社交机器人Kismet的行动被3种适应性积极所影响：与人接触、与玩具接触以及休息。这些积极的外部事件会有助于机器人的情感状态（情绪）和通过面部表情，站姿或声音的语调来展示表情，比如生气、恶心、恐惧、欢乐、悲伤和惊喜。与拥有过度本质的情绪不同，性格特征是独特的长期行动模式，通过一贯的偏好例如内部动机，情绪，决策来展示。大部分的被识别的个性特征能被归纳到一个足够广泛定义人类个性的小的维度或因素集合里。

同样的，认知系统里的个性经常被多个因素和维度所代表。这些特征，反过来，和系统可能经历的情绪和积极性相关。在最简单的案例中，一个参数就足以在系统行动中创建一个系统偏差。

NARS和CogPrime使用“个性参数”来定义需要多少证据来评价逻辑声明的真实性或计划下一个动作。参数的值越大，系统就更加“保守”。在Novamente中，一个虚拟动物的个性特征（攻击性、好奇心、玩乐）通过概率规则与情绪状态和动作相关联。同样的，在AIS特征中，下流、冷淡、害羞、自信、懒散，它们被赋予一个整数值来定义被展示的程度。基于个性，抽象的规则能定义什么行动更有可能。在CLARION中，个性类型决定了很多预定义积极的基线强度和初始赤字。映像被包含在一个预训练的神经网络中。

引人注目的是，这些简单的模型甚至能生成一系列的个性。比如，Pogamut代理有9种可能的状态和5种个性因素（基于FFM），能够生成45种不同的映像，每种映像能够不同程度地产生12 种预定义的意图并生成广泛的行动。CLARION 和MAMID值得特殊的关注。CLARION提供一个认知可信的框架，有能力处理情绪、积极性和个性特征，并把它们和其他包含决策的认知系统相关联。

情绪的3个方面被模拟：反应式情感（情绪的潜意识经历）、审议性评估（可能有意识）和处理／动作（在评估之后）。因此，情绪以显性和隐形过程的交互形式出现并包含（和影响）认知和动作。多个CLARION模型已经被心理学数据，FFM个性的计算机模型，用来处理校园霸凌，压力下的表现退化和由社交焦虑所引起的成见偏差模型所验证。

MAMID是一个由外部事件、内部解释、目标和个性特征所产生的生成与情绪效果的模型。在内部，与信念网络和任务标准、个体标准有关，即目标失败是否会导致在一个特殊的代理中出现焦虑。MAMID已经在两个领域被实例化了：保卫和平的任务训练和搜救任务。它对于情绪和设计的跨学科理论的贡献也有很大的价值。

12下一页>

（免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，应及时向本网站提出书面权利通知或不实情况说明，并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后，将会依法尽快联系相关文章源头核实，沟通删除相关内容或断开相关链接。）