TD 学习 是由 理查德·萨顿在20世纪80年代提出的

Showcase, discuss, and inspire with creative America Data Set.
Post Reply
Bappy11
Posts: 477
Joined: Sun Dec 22, 2024 9:27 am

TD 学习 是由 理查德·萨顿在20世纪80年代提出的

Post by Bappy11 »

时间差异学习允许代理从环境中学习,而无需模型。然而,它产生了自适应且稳健的算法。

时间差分学习(TD Learning)是一种强化学习方法。它的特殊性来自于它是一种无监督学习技术:代理自行学习来预测变量的预期值。

TD Learning 的诞生
20 世纪 50 年代,理查德贝尔曼 (Richard Bellman)提出了另一种解决问题的方法:动态规划。它基于将复杂问题分解为具有中间解决方案的更简单的子问题。通过结合蒙特卡洛方法和动态规划的某些方面,理查德·萨顿 (Richard Sutton) 得以开发 TD 学习……

它为强化学习提供了重要的进步。此前,主要方法是蒙特卡罗方法,这是 20 世纪 40 年代开发的技术家族,依赖于完整轨迹(从初始状态到最终状态)。必须等待一集结束后才能更新这些值。

什么是时间差分学习?
TD Learning 的目标是以渐进的方式实现可预测的奖励( predicted reward )。行为的长期价值是根据一系列中期奖励来计算的。这些估计值是根据两个连续状态的估计值之间的差异(因此称为“时间差异”)进行更新的。

萨顿举了一个例子,试图从一周初预测周六的天气状况。TD 学习将使用中间信阿塞拜疆电报数据 息,并在过程中完善其算法。假设是,随着新观察的出现,对未来价值的预测“不会一下子被证实或被驳斥,而是一点一点地被证实或被驳斥”。

详细了解 TD Learning
向前迈出的重要一步
TD学习标志着解决奖励预测问题取得了突破。以前的推理系统依赖于复杂的学习过程,而它开辟了一种更加渐进的方法。

它的优势在于它是一种无模型预测算法,它基于当前估计进行学习。其原理是根据以下组合进行上述估计:


LinkedIn

数据科学家新闻
订阅我们的时事通讯,即可直接在您的收件箱中收到我们的指南、教程和最新数据新闻。
Post Reply