关键词:强化学习 水下滑翔蛇形机器人 马尔可夫决策过程 循环神经网络
摘要:研究了一种强化学习算法,用于水下滑翔蛇形机器人的滑翔运动控制.针对水动力环境难以建模的问题,使用强化学习方法使水下滑翔蛇形机器人自适应复杂的水环境,并自动学习仅通过调节浮力来控制滑翔运动.对此,提出了循环神经网络蒙特卡洛策略梯度算法,改善了由于机器人的状态难以完全观测而导致的算法难以训练的问题,并将水下滑翔蛇形机器人的基本滑翔动作控制问题近似为马尔可夫决策过程,从而得到有效的滑翔控制策略.通过仿真和实验证明了所提出方法的有效性.
机器人杂志要求:
{1}参考文献必须在文中用[数字]标出对应标号,参考文献统一列在文后。
{2}著作类:作者(译者)姓名、书名、出版地、出版社名称、出版年份、页码(直接引文时标明)。论文类:作者姓名、文章名、所载报刊名称、年份、期号、页码。
{3}如一旦发现一稿两用,本刊将刊登该文系重复发表的声明,并在3年内拒绝以该文第一作者和通讯作者的任何来稿。
{4}论文题目应当简洁明了,反映论文的主旨。论文题目应便于读者检索、转抄和引用,中文题名不宜超过20个字;外文题名不超过10个实词。不宜采用抒情意味、反问意味的主标题和副标题。
{5}任何来稿视为作者、译者已经阅读或知悉并同意本须知约定。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社