网页学习体会

  • 首页
  • 个人博客
您的位置: 首页  >  IT文章  >  基于策略梯度的强化学习论文调研 RL-Adventure: Policy Gradients

基于策略梯度的强化学习论文调研 RL-Adventure: Policy Gradients

分类: IT文章 • 2023-10-26 11:00:24

开源代码:https://github.com/higgsfield/RL-Adventure-2

自身实现:https://github.com/lucifer2859/Policy-Gradients

1、Advantage Actor Critic(A2C)& A3C  

2、Soft Actor-Critic(SAC)(旧版),(新版)

  • off-policy

  原始论文中伪代码有状态价值函数V:

基于策略梯度的强化学习论文调研
RL-Adventure: Policy Gradients

  后续为什么没有了 基于策略梯度的强化学习论文调研
RL-Adventure: Policy Gradients 函数?在 的方法,使得SAC更加稳定,于是就只保留了 基于策略梯度的强化学习论文调研
RL-Adventure: Policy Gradients 函数。

基于策略梯度的强化学习论文调研
RL-Adventure: Policy Gradients

基于策略梯度的强化学习论文调研
RL-Adventure: Policy Gradients

3、Deep Deterministic Policy Gradient(DDPG)

  • off-policy

4、Proximal Policy Optimization Algorithms(PPO)

  • on-policy

相关推荐

  • 基于策略梯度的强化学习论文调研 RL-Adventure: Policy Gradients
  • BZOJ 2006 [NOI2010]超级钢琴(ST表+堆)
  • GapCloser
    网站免责声明 网站地图 最新文章 用户隐私 版权申明
本站所有数据收集于网络,如果侵犯到您的权益,请联系网站进行下架处理。   

Copyright © 2018-2021   Powered By 网页学习体会    备案号:   粤ICP备20002247号