阪井啓紀_ホームページ

Mambaを用いた模倣学習によるロボットアームの自動制御

研究背景

従来手法
ロボットアームの自動制御は，従来から様々な手法が提案されてきました．しかし，一貫してパイプライン型と呼ばれる手法が最も多くを占めています。具体的には，対象物体を画像認識し，その位置を計算し，経路探索を行ったうえでロボットアームに操作量を与えるという手法です．しかし，この手法ではエラーが起きた際のロバスト性が低いという点や人間による教示が難しいという点が課題とされています．

模倣学習
これに対して模倣学習[1]は，人間の実演から人間の思考を学習するという手法です．具体的には，人間がロボットアームを操作し，その操作量を記録し学習することで，人間の思考を学習することができます．この手法は，人間の思考を学習するため，人間による教示が容易であり，エラーが起きた際のロバスト性が高いという特徴があります．また，人間は実演を行うだけでよいので教示も簡単に行うことができます．

Transformerによる模倣学習
近年では，Transformer[2]を用いた模倣学習が提案されています．Transformerは，自然言語処理などで高い性能を発揮しているモデルであり，多くの分野のタスクに転用されています．しかし，一方でTransformerはパラメータの数が多く，学習に時間がかかるという問題があります．さらに，ロボットアームの自動制御においては，計算機の性能が必要となるため，実用化が難しいという問題があります．本研究では，Transformerを用いた模倣学習に代わる手法として，Mambaを用いた模倣学習を提案します．

手法

データセット収集
模倣学習ではまず人間の実演データを収集するデータセット収集を行います．模倣学習では，人間の実演データのバラエティーの高さが性能に大きく影響するため，ノイズを加えて（操作し辛くして）あえて失敗に近いデータも収集します．記録するデータは，画像と操作量の組です．この組を学習データセットとします．

深層学習モデルの学習
次に学習データセットを用いて深層学習モデルの学習を行います．深層学習モデルには画像のみが与えられ，計算を行い操作量を出力します．この出力と学習データセットの人間の操作量との誤差を計算し逆伝播することで学習します．最終的に，人間を模倣して似た操作量を出力するようになります．

深層学習モデルの走行
学習後の深層学習モデルに実際に自律走行をさせます．深層学習モデルに画像が連続的に与えられ，各画像ごとに操作量を出力することで移動ロボットを操作します．このように深層学習モデルは人間の運転を模倣して，自律走行を行います．

実験

移動ロボットの製作
実験としてはまず最初に移動ロボットの製作を行います．人間にとっても運転しやすい移動ロボットを製作することが重要です．移動ロボットにはJetson nanoが搭載され，操作量の計算や各モジュールへの信号送信を行います．移動ロボットのシステム図を下記に示します．

ノイズの付与
模倣学習においては，学習データセットの質がとても重要です．学習データセット内で人間が陥っていない状態に深層学習モデルが陥った場合，人間と同様の反応をするとは限りません．そのため，通常の運転では人間が陥ることのない状態での人間の反応を記録しなければなりません． DART[2]では，ノイズを加え操作をし辛くすることであえて失敗に近い状態での人間の修正行動を記録します．この人間の修正行動を深層学習モデルが学習することで失敗に近い状態からの修正行動を行うことができます．また，ノイズ付加前の値が学習データセットに含まれるため，失敗に近い状態に深層学習モデルが自ら陥るようにすることなく修正行動のみを学習データセットに追加できます．本実験では，三角波ノイズ[3]をデータセット収集時に付与しました．

深層学習モデルの設計
次に深層学習モデルの設計を行います．本実験では，単願カメラの画像から操作量を出力するモデルを設計しました．深層学習モデルの設計において重要なのは，人間と同等の情報を持つようにすることです．人間は運転をするときに過去の情報にアクセスしながら運転を行います．一方で深層学習モデルはLSTM層やTransformerを用いなければ，1フレームの画像のみで計算を行います．本実験では，LSTM層[4]を導入し過去の情報たる時系列情報を用いて運転をできるように設計しました．

結果

自律走行の実行
学習を行い，実際に走行を行った際の映像を最後に示します．屋外環境のコースにおいて，76.7%で走行に成功しました．

参考文献

[1] A. Hussein, M. M. Gaber, E. Elyan, and C. Jayne: “Imitation Learning: A Survey of Learning Methods”,ACM Comput. Surv.,Vol. 50.2, No. 21,pp. 1–35(2017).
[2] M. Laskey, J. Lee, R. Fox, A. Dragan, and K. Goldberg: “DART: Noise Injection for Robust Imitation Learning,” in Proceedings of the 1st Annual Conference on Robot Learning, pp. 143–156 (2017).
[3] F. Codevilla, M. Müller, A. López, V. Koltun, and A. Dosovitskiy: “End-to-end Driving via Conditional Imitation Learning.” arXiv (2018).
[4] S. Hochreiter and J. Schmidhuber: “Long Short-Term Memory”,Neural Comput.,Vol. 9, No. 8,pp. 1735–1780 (1997).