强化学习:了解不同的机器学习技巧
强化学习是监督的还是无监督的?虽然这个技术问题很重要,但让我们把重点转向商业视角。强化学习(RL)在改变各行业的决策过程和优化战略方面具有巨大的潜力。
计算机、智能手机和各种技术所产生的数据量之大可能令人生畏,特别是对于那些对其影响不确定的人而言。为了有效地利用这些数据,研究人员和程序员经常利用机器学习来增加用户体验。
数据科学家每天都在使用复杂的方法,包括监督学习、无监督学习和强化学习技术。本文旨在简洁地描述监督学习、无监督学习和强化学习,并强调它们间的区别。
强化学习是监督的还是无监督的?
强化学习在机器学习领域开辟了自己的道路,与监督学习和无监督学习截然不同。但首先,让我们先了解一下什么是监督学习和无监督学习。
什么是监督学习?
监督学习是一种机器学习技术,其中模型是在标记数据集上训练的。这意味着数据既包括输入示例,也包括相应的期望输出(标签)。模型的目标是学习输入和输出之间的关系,这样它就可以准确地预测新的、看不见的数据的输出。
将其想象成一个学生跟着老师学习。标记的数据集就像带有解决方案的实践问题。学生(模型)学习这些例子,教师(算法)指导学习过程。目标是让学生学会如何独立解决类似的问题。
关键概念: 标签数据:监督学习的核心。每个数据点都有一个输入(特性)及其相应的正确输出(标签). 培训:模型被输入标记数据。它分析了输入和输出之间的模式和相关性。 学习功能:该模型开发了一个数学函数,尽可能精确地将输入映射到输出中。 预测:一旦经过培训,该模型可以吸收新的投入并预测相应的产出。
什么是无监督学习?
无监督学习是一种机器学习技术,其中模型是在未标记的数据集上训练的。这意味着数据只包括输入,没有相应的目标输出。模型的目标是发现数据本身中隐藏的模式、结构或关系。
将其想象成一个孩子在没有任何具体指示的情况下探索一个新环境。孩子们通过观察模式、对相似的物体进行分组和理解关系来学习,而不需要任何人直接告诉其事物的名称。
关键概念:
无标签数据:无监督学习没有预先定义的答案来学习。 模式发现:模型分析数据以找出相似性、差异性和潜在结构。 没有明确的指导:没有"老师"纠正模式。它通过自我发现学习。什么是强化学习?
强化学习是一种机器学习,其中代理人通过与环境交互的试错来学习。代理尝试不同的行为,根据其行为获得奖励或惩罚,并随着时间的推移调整其策略以最大化总奖励。
想象一下训练一只狗,但没有明确告诉狗怎么坐。相反,当它执行导致坐着的动作时,给予它奖励。随着时间的推移,狗学会了把坐和奖励联系起来。
关键概念:
代理人:决策者,学习的实体。 环境:代理人与之相互作用的系统。 状态:代理人在其环境中的现状。 行动:代理人在其环境中能做什么。 奖励:积极或消极的反馈信号,代理人收到的行动。 策略:代理人使用的策略来决定在给定的状态中采取什么行动。总结
没有任何一种"最佳"的机器学习技术能超越所有其他的。最佳技术取决于需求。
无监督学习是探索数据集、发现隐藏模式或在没有预定结果的情况下分组相似数据点的完美选择。而,如果有带有标记示例的数据集(输入数据及其相应的正确输出),则选择有监督的学习。
强化学习对于以长期奖励为重点的决策问题特别有用,如游戏或机器人。在强化学习中,代理人与环境交互,以奖励或惩罚的形式获得反馈,并学习随着时间的推移使奖励最大化的最佳策略。
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。