TD(λ)

さて、先ほどのTD(0)では直前の状態の価値のみを更新しました。
ですが直観的に、訪れた状態全ての価値を更新しても良さそうです。
ただし、時間的なズレが大きくなっていくので1以下の定数(λ)倍します。
下図の状態からスタートします。

エージェントはランダムに行動を取ります(探査)。
報酬-1が手に入ったので、前にいた状態の価値を-1します(0-1 -> -1)。
λ=0.5として最初の状態の価値を-0.5します(3-0.5 -> 2.5)。

1エピソード終了です。最初に戻ります。


先ほどのTD(0)と比べ最初の状態の価値が変わりました。
このように繰り返していくと、TD(λ)はTD(0)に比べ価値の収束が早くなります。
ただし、計算量はTD(λ)の方が多いので問題に応じて使い分ける必要があります。
previous: 強化学習(TD(0))
Next: 集団学習