水下滑翔蛇形机器人滑翔控制的强化学习方法

张晓路; 李斌; 常健; 唐敬阁东北大学信息科学与工程学院; 辽宁沈阳110819; 中国科学院沈阳自动化研究所机器人学国家重点实验室; 辽宁沈阳110016; 中国科学院机器人与智能制造创新研究院; 辽宁沈阳110016; 中国科学院大学; 北京100049

关键词：强化学习水下滑翔蛇形机器人马尔可夫决策过程循环神经网络

摘要：研究了一种强化学习算法,用于水下滑翔蛇形机器人的滑翔运动控制.针对水动力环境难以建模的问题,使用强化学习方法使水下滑翔蛇形机器人自适应复杂的水环境,并自动学习仅通过调节浮力来控制滑翔运动.对此,提出了循环神经网络蒙特卡洛策略梯度算法,改善了由于机器人的状态难以完全观测而导致的算法难以训练的问题,并将水下滑翔蛇形机器人的基本滑翔动作控制问题近似为马尔可夫决策过程,从而得到有效的滑翔控制策略.通过仿真和实验证明了所提出方法的有效性.

机器人杂志要求:

{1}参考文献必须在文中用[数字]标出对应标号,参考文献统一列在文后。

{2}著作类：作者（译者）姓名、书名、出版地、出版社名称、出版年份、页码（直接引文时标明）。论文类：作者姓名、文章名、所载报刊名称、年份、期号、页码。

{3}如一旦发现一稿两用，本刊将刊登该文系重复发表的声明，并在3年内拒绝以该文第一作者和通讯作者的任何来稿。

{4}论文题目应当简洁明了，反映论文的主旨。论文题目应便于读者检索、转抄和引用，中文题名不宜超过20个字；外文题名不超过10个实词。不宜采用抒情意味、反问意味的主标题和副标题。

{5}任何来稿视为作者、译者已经阅读或知悉并同意本须知约定。

注：因版权方要求，不能公开全文，如需全文，请咨询杂志社

投稿咨询免费咨询

机器人

北大期刊
预计1-3个月审稿

期刊主页

投稿策略

水下滑翔蛇形机器人滑翔控制的强化学习方法

期刊咨询

投稿咨询

订阅服务