强化学习车杆游戏

时间：2018-11-03 14:41:08 阅读：288 评论：0 收藏：0 [点我收藏+]

网上搜寻到的代码，亲测比较好用，分享如下。

import gym
import time

env = gym.make(‘CartPole-v0‘) # 获得游戏环境
observation = env.reset() # 复位游戏环境,新一局游戏开始
print (‘新一局游戏 初始观测 = {}‘.format(observation))
for t in range(200):
    env.render()
    action = env.action_space.sample() # 随机选择动作
    print (‘{}: 动作 = {}‘.format(t, action))
    observation, reward, done, info = env.step(action) # 执行行为
    print (‘{}: 观测 = {}, 本步得分 = {}, 结束指示 = {}, 其他信息 = {}‘.format(
            t, observation, reward, done, info))
    if done:
        break
    time.sleep(1)#可加可不加，有的话就可以看到图

env.close()

技术分享图片

以下给出多个回合的代码：

import gym
env = gym.make(‘CartPole-v0‘)
n_episode = 20
for i_episode in range(n_episode):
    observation = env.reset()
    episode_reward = 0
    while True:
        # env.render()
        action = env.action_space.sample() # 随机选
        observation, reward, done, _ = env.step(action)
        episode_reward += reward
        state = observation
        if done:
            break
    print (‘第{}局得分 = {}‘.format(i_episode, episode_reward))
env.close()

技术分享图片

这次的多回合游戏并没有加入绘图，需要绘图的话可以将 env.render() 加入。

强化学习车杆游戏

标签：orm 学习 while 随机 sleep 随机选择观测比较 +=

原文地址：https://www.cnblogs.com/devilmaycry812839668/p/9900674.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行

强化学习 车杆游戏

强化学习车杆游戏