TD(λ)さて、先ほどのTD(0)では直前の状態の価値のみを更新しました。ですが直観的に、訪れた状態全ての価値を更新しても良さそうです。 ただし、時間的なズレが大きくなっていくので1以下の定数(λ)倍します。 下図の状態からスタートします。 ![]() エージェントはランダムに行動を取ります(探査)。 報酬-1が手に入ったので、前にいた状態の価値を-1します(0-1 -> -1)。 λ=0.5として最初の状態の価値を-0.5します(3-0.5 -> 2.5)。 ![]() 1エピソード終了です。最初に戻ります。 ![]() ![]() 先ほどのTD(0)と比べ最初の状態の価値が変わりました。 このように繰り返していくと、TD(λ)はTD(0)に比べ価値の収束が早くなります。 ただし、計算量はTD(λ)の方が多いので問題に応じて使い分ける必要があります。 |