Q是Quality的首字母,表示质量/优劣,表示给它打一个分。 总共有12个状态,s1到s12.对于每一个状态会有四个动作。对于每个状态下的每个动作会有一个Q的值。 用Tkinter 来模拟gym的环境构建。我们用到的方法名和用法都和gym是类似的。 定义它的动作空间: action_space 上下左右四个。 up downaction的数目。 title: 生成的游戏窗口的titlegeometry 几何形状。第一维是一宽度乘以每个单元的像素值,第二维是高乘以每个单元像素值。 输出的Action可以是一个连续的值,Value-Based输出是不连续的。 |