今天继续阅读杭杰发给我的论文,里面主要内容是关于如何使用隐马尔可夫模型和强化学习来进行避障。我读了
后,感觉作者使用的方法很巧妙,首先根据智能体(agent)能搜集到的传感器信号作为输入,然后将该输入作为隐马
尔科夫模型的观测值,将周围的复杂情况作为隐状态,并通过高斯马尔科夫模型建模出十个状态,然后根据测量的
结果构造奖励函数,最后通过该奖励函数构造一个强化学习模型。该模型作为最后的输出就是运行的速度和角速度。
为了读懂该论文,我又一次仔细研究了HMM和DQN模型,周末总结一下。
今天继续阅读杭杰发给我的论文,里面主要内容是关于如何使用隐马尔可夫模型和强化学习来进行避障。我读了
后,感觉作者使用的方法很巧妙,首先根据智能体(agent)能搜集到的传感器信号作为输入,然后将该输入作为隐马
尔科夫模型的观测值,将周围的复杂情况作为隐状态,并通过高斯马尔科夫模型建模出十个状态,然后根据测量的
结果构造奖励函数,最后通过该奖励函数构造一个强化学习模型。该模型作为最后的输出就是运行的速度和角速度。
为了读懂该论文,我又一次仔细研究了HMM和DQN模型,周末总结一下。