摘要:智能体 agent 在环境 environment 中学习,根据环境的状态 state(或观测到的 observation),执行动作 action,并根据环境的反馈 reward(奖励)来指导更好的动作。 本文分享自华为云社区《强化学习从基础到进阶 - 案例与实践 [5.1]:Policy