認知的満足化—限定合理性の強化学習における効用

久しぶりに日本語で論文を書きました。

PDFダウンロード可: https://www.jstage.jst.go.jp/article/tjsai/31/6/31_AI30-M/_article/-char/ja/

人間を含むエージェント一般の知覚・推論・行動能力の限界を考慮に入れた合理性である限定合理性の概念は1950年代に提唱され、「満足化」(satisficing) という行動ポリシーは 当初から限定合理性の中心に存在してきました。この論文では、意志決定の心理学・行動経済学におけるプロスペクト理論におけるリスク態度を単純に実装することで、非常に効率的な満足化を実現できることを、K本腕バンディット問題と、非線形力学系を荒く離散化した状態空間上の強化学習によるロボット制御において示しました。

高橋 達二, 甲野 佑, 浦上 大輔: 認知的満足化—限定合理性の強化学習における効用, 人工知能学会 論文誌, 31, 6, AI30-M_1–11. (2016) doi:10.1527/tjsai.AI30-M