深度强化学习实现机械臂抓取
强化学习算法输入的有 state 和 visual 两种形式。
state ,智能体内部传感器的数据,visual 外部传感器的数据如相机。
visual 形式的输入更加难训练,网络参数更多,训练样本不足会过拟合。相关的前沿研究都在努力提高视觉输入的训练速度。
强化学习算法应用到了很多地方,比如游戏,自动驾驶,决策优化,推荐系统...。不同场景下,算法都是一样的,但是环境不一样
机械臂的环境,在仿真环境里封装,通过 gym 接口做强化学习算法的交互。游戏的话,使用网络通信的手段实现和算法的交互。
学习内容
强化学习
项目架构
搭建 pybullet 训练环境
Spinup 库的 PPO 算法
训练和结果
强化学习,机器学习中的一个领域,
机器学习
监督学习
回归、分类、标记
无监督学习
聚类、主成分分析、生成对抗网络
强化学习
这个话题比较热门,但是并不简单,门槛不低。强化学习不仅仅有强化学习本身的理论知识,还包含深度学习的知识。
整体的一个流程

大部分强化学习的任务,做好这几步基本上就能训练的起来。

算法输出 Action,处理 State。
Last updated