イラストで学ぶ人工知能概論 第六章 前半

画像


マルコフ

マルコフ性とは、現在の状態のみで未来の状態が決まること、昔は関係ない(うれしいね)

このマルコフ性をもつ状態遷移のモデルをマルコフモデルといい、特に離散の場合はマルコフ連鎖という。

マルコフ過程というマルコフモデルに生成される系列に、行動というエージェントを加えると、マルコフ決定過程と呼ばれる。

強化学習

強化学習は、人無しで自分自身AIが考えて解決策を見つけるように行う学習のこと。

環境から知覚する状態をインプットとして、意思を決定し、累積報酬を最大化するように環境に働きかけるように行動をする。

この報酬によって、自分自ら学んで行動していく。

マルコフ決定過程

行動の確率や、方針の確率など色々と多いが一番前提にあるのが方針であると考える。

方針は、その状態$s$で行動$a$を取るような確率を指す。
これは方針の内容によって、どの行動を取りやすいかは変わってくる。

例えば、守りにはいるAIをなら、守りやすい行動をより大きい確率で選ぶ。
また、攻めやすいAIなら、攻めの行動を多い確率で選ぶ。

このように方針は、どのくらいある行動を取るか?を表している。

この方針が先立って、その後の状態遷移確率が起こると考える。

価値関数は、この方針によって現在の状態から得られるすべての報酬の期待値を表す。

この価値関数は、方針と割引率からその状態からその方針で動き続けたとき、おそらくどれくらいの報酬が得られるかを

確率 * 累積報酬(その行動を選んだときの)

を返す。

よって、この価値関数を最大化するような方策を取りたいね!になる。

まだ、この方策と状態遷移確率の違いが明確になっていない。