强化学习基础概念理解,强化学习经典入门书的

(4)如果能获得或者学习到一个环境模型,那么会更好的改善学习效果。


1. Markov Decision Process

是强化学习的数学基础,马尔可夫特性:目前的状态完全刻画世界的状态

亚洲必赢 1

其中包含S为状态集,A是action集,R是给定(state, action)对后reward的分布,P是转移概率(例如从给定的状态action对转移到下一个state的分布),y是discount factor表示了reward的重要程度。

马尔可夫决策过程的工作原理为:

亚洲必赢 2

首先有初始的状态分布p(s0),在t=0时,先从初始状态分布中采样一些初始状态。接着Agent选择一个action,然后环境给出一个reward并且采样下一个状态,接着Agent收到reward和下一个时刻的状态。目标就是找到一个函数能使得reward求和最大。

    model of environment -- 对环境的建模。这个模型有点预测环境的走向的意思。比如,假如我有了这个模型,我可以知道在当下的环境下,下一步的环境状态和reward是什么。这样,我就不必去真实的走这一步,就已经知道结果了,也就是不用非得试错了。这是个新的发展方向。

与supervised learning 的区别主要是:
1. RL没有label指导在什么情况下做出什么样的行为,只有一个作出一系列行为后最终反馈回来的reward signal, 并通过这个signal判断这个行为是好是坏。
2. RL的学习结果有延时,可能进行了几步判断之后才刚刚知道之前某步的选择是好是坏。
3. RL的输入总是处于变化中的,而监督学习的输入是固定的(独立分布的)。

强化学习:Agent与Environment之间交互,Agent发起一个Action,环境会给出一个reward。目标是如何执行action才能将reward最大化。

 

(它们并不一定同时存在)        

亚洲必赢 3

    reward function -- 也可以看成是一个映射,关于当前的动作,或者当前环境和当前动作的pair的好不好的一个评价。属于立即评价,只考虑当前这一步的好坏。

RL是一种试错的学习方式(trial-and-error)。

2. Policy Gradients

Q-function很复杂,如果有很多个状态就很难计算啦。

亚洲必赢 4

Policy Gradients

定义一组policies,然后选择最优的。使用Reinforce algorithm

亚洲必赢 5

trajectory轨迹

亚洲必赢 6

亚洲必赢 7

如果reward高,就推高概率,如果reward低,就减少概率。

如感兴趣,欢迎关注微信公众号:

RL Agent 包含:

问题:如何衡量state的好坏和state-action对的好坏?使用value function和Q-value function

亚洲必赢 8

亚洲必赢,    if the step-size parameter is reduced properly over time, this method converges, for any fixed opponent, to the true probabilities of winning from each state given optimal play by our player


网络结构:

亚洲必赢 9

输入是过去四帧图像,输出是一个向量,比如有四个action的话,输出就是四维向量,代表每个动作的Q-value

    1、强化学习中的基本元素:

  1. RL不需要正确的输入/输出对,不需要精确校正优化的行为,它注重于在线规划,在exploration(探索未知)和exploitation(应用现有知识)之间平衡。

Experience Replay:

问题:从批次的连续样本中学习是有问题的---1. 样本是相关的,学习效率低下 2. Q-network的参数决定了下一个训练样本(例如,如果最大的action是向左移动,那么训练样本将由左侧的样本控制),会导致错误的反馈循环。

解决这些问题的方法是使用experience replay,更新replay memory table of transitions(st, at,rt, st 1),同时训练的时候使用随机的minibatches of transitions from the replay memory,而不是使用连续的样本。

亚洲必赢 10

算法

(1)首先初始化replay memory,Q-network。(2)接着玩M次完整的游戏,这是训练集。在每个episode的开始都初始化state(starting game screen pixels,开始游戏的画面)。(3)接着对于每个时刻,以一个很小的概率随机选择一个action,或者根据当前的policy贪心的选择一个action。(4)接着执行action之后,得到了s(t 1) = st, at, x(t 1),将其保存在replay memory中。(5)接下来是experience replay阶段,采样然后这行BP

    这次第一篇就写第一章。第一章是概述,更多的是从宏观上讲强化学习的一些概念和思想,虽然概括性较强,但也还是有很多值得细读的点,在下文一一道来。

RL原理:
先尝试做出一些行为,得到一个结果,通过判断这个结果是对是错来对之前的行为进行反馈

问题:如何处理随机性(例如初始状态,转移概率)?

亚洲必赢 11

    value function -- 和上面的reward function对比着看,这一步考虑的是当前环境状态的长远优势,也就是以当前状态为起点,以后的多个时间点之后的各个状态的reward之和。如何更好的估计这个值,是几乎所有增强学习问题的解决重点和难点。这个也是如何评定一个policy好坏的标准。也是把增加学习和evoluation method (例如遗传算法)区别开的地方。

 

如何计算最优的Q-value function

使用Bellman Equation贝尔曼方程,也被称作是动态规划方程(Dynamic Programming Equation),这种方法的问题在于不可扩展,需要对每个(state-action)对计算Q(s, a)

亚洲必赢 12

解决方法:Q-learning,使用一个function approximator来估计action-value function。

亚洲必赢 13

使用function approximator来近似计算

亚洲必赢 14

Exploration的含义:放弃一些已知的reward信息,而去尝试一些新的选择。
Exploitation的含义:根据已知信息最大化reward。

    关于evolution method 要多说点:它和强化学习的区别在于,它不利用任何你的过程信息,只使用结果。比如我采用某一个policy,我就用这固定的policy和环境进行多次实验,看看最后的结果概率分布,然后知道这个policy有多大概率赢。然后换下一个,继续大量实验。最后在policy空间里找到一个最优的。它的缺点是忽略了大量的实验过程信息,也即根本没有考虑到value function。

  1. policy: agent's behavior function //策略: state 2 action 的映射
            有两种表达: 1)Deterministic policy 确定策略:某state下一定会执行行为a
                       2)Stochastic policy 随机策略: 某种state下执行某种行为a的概率                    
  2. value function: how good is each state and/or action //价值函数: 预测可能获得的reward的期望,用以衡量当前state的好坏。

  3. model: agent's representation of the environment //模型: 预测环境下一步会发生什么变化,从而预测agent即将进入的state以及接收到的reward是什么。
                             包括预测下一步state的模型和下一步reward的模型。

原文链接:

    policy --相当与环境和动作之间的一个映射,某种环境下最应该做什么动作呢?这个是由policy决定的。policy的所有可能组成一个policy空间,强化学习的目的,就是在这个巨大的空间中,学习到某一种最优的policy。

(2)强化学习的动作,除了像这个游戏这种离散的,也可能是连续的,reward函数也可能是连续函数。

    关于value function的更新规则,"temporal difference learning method"

最近读sutton的“reinforcement learning - An introduction”的读书笔记,其实大多数更像是按照自己理解写的中文翻译,可能语言有时没有那么严谨,主观因素多一点,更像是一种和自己的对话。希望各位看官多多包涵,如果想真正理解一些,最好对照着英文原本看,也许能看出自己的想法。

    从这个游戏中,可以引申出几个点的思考:

(1)先验知识的运用,可能改善学习效果

(3)强化学习的状态集可能比这个游戏所有的大的多,如何保证在大的状态集上表现良好(具备很强的泛化能力),监督学习是一个好途径。

2、tik-tok-toc游戏中的实例

 

亚洲必赢 15

本文由亚洲必赢娱乐游戏发布于亚洲必赢,转载请注明出处:强化学习基础概念理解,强化学习经典入门书的

TAG标签: 亚洲必赢
Ctrl+D 将本页面保存为书签,全面了解最新资讯,方便快捷。