首页 科技 军事 财经 教育 体育 房产 健康 汽车 安全 热点 人才 推选

财经

旗下栏目:

为什么E-GREEDY算法中e越小性能会更好

发布时间:2019-07-23 来源:原创/投稿/转载 作者:admin 人气:

  第一句,讲的是e-贪心方法最终的性能更好的原因在于它持续地探索使得找到最优动作的概率提高了(纯粹的贪心只有1/3的概率找到最优动作)。

  第二句,当e=0.1时,该方法探索的概率更高,因而能更早地找到最优动作,但它选取该动作的概率不超过91%(因为有10%概率是继续探索,而不是利用该最优动作)。(空有宝藏,不会利用)

  第三句,当e=0.01时,尽管方法的性能提升的较慢,但最终的性能要比e=0.1要好(平均收入和最优动作选取的概率两方面)。

  我认为,更小的探索概率即更大的利用概率,会使得探索得到的更有的动作更有可能在下一次被利用到,满足了拥有宝藏的同时,有效的使用该宝藏,以此更上一层楼。

  最后一句,有可能的话,随着时间的迁移,逐步减小e的值,尽可能地利用e的高值和低值的优点。(高值探索的快,前期无敌,低值会利用,后期无敌)

  附上RFAI书上的三种动作价值方法(纯贪心、e=0.1、e=0.01) 性能指标的图。

  我研一下学期选修了网络管理,因为是限选课所以我没有认真上课,今天因为快结课考试了,我才去,然后我发现了一个大秘密。。。。。。原来老师从第三节课已经开始讲算法导论的知识了,我是不是错过了什么。。。废话不...博文来自:世上只有一种英雄主义

  由于组里新同学进来,需要带着他入门RL,选择从silver的课程开始。对于我自己,增加一个仔细阅读《reinforcementlearning:anintroduction》的要求。因为之前读的不太认...博文来自:mmc2015的专栏

  算法简介参考:贪婪算法(贪心算法)是指在对问题进行求解时,在每一步选...博文来自:风无言

  贪心算法适用于最优化问题的算法往往包含一系列步骤,每一步都有一组选择。贪心算法是使所做的选择看起来是当前最佳的,期望通过所做的局部最优解来产生出一个全局最优解。贪心算法对大多数优化问题来说可以产生最优...博文来自:liuzhifuabc的专栏

  作者:MassimilianoPatacchiola你好!欢迎来到“解剖强化学习”系列的第六部分。到现在我们已经了解了强化学习如何工作。然而,我们将大部分技术应用于机器人清洁示例,我决定采用这种方法的...博文来自:wilbertzhou的专栏

  1、贪心的定义贪心算法是什么意思?举个例子就很清楚了:现在你有一个能装4斤苹果的袋子,苹果有两种,一种3斤一个,一种2斤一个,怎么装才能得到最多苹果?当然我们人考虑的线斤的苹果,就刚好装...博文来自:weixin_41913844的博客

  接着考虑前文的10臂问题。假设我们可以与交互TTT次,显然我们每次采取的行动(action)不必一成不变。记我们在ttt时刻采取行动为ata_tat​,获得的回报为R(at)R(a_t)R...博文来自:汪星人来地球的博客

  通过在getAction中实现epsilon-greedy贪心动作选择完成Q-learning代理,这意味着它选择的是时间epsilon的随机动作,否则将遵循当前的最佳Q-values值。请注意,选择...博文来自:段智华的博客

  根据《算法的乐趣》阅读总结:贪心算法每一步选择完后,局部最优解就确定了,不再进行回溯处理,也就是说,每一个步骤的局部最优解确定以后,就不再修改了,知道算法结束。因为不在进行回溯处理贪心算法只在很少的情...博文来自:数数1234

  PartI:TabularSolutionMethods在这一部分中我们描述了强化学习中几乎所有的核心思想。在这些问题中state和action空间足够小可以被估计值函数如队列,表来展示。在这些例子中...博文来自:的博客

责任编辑:admin