『強化学習(手続き学習)』って何だ？ | 報酬系のリハビリ応用(報酬誤差学習も解説！)

報酬系

この記事では「報酬系コラム」の番外編として、報酬系と関連深い学習理論である『強化学習』について解説していく。

強化学習（手続き学習）と報酬誤差学習
報酬予測誤差とは？
強化学習における重要なポイント
強化学習をリハビリへ応用
初めは無誤学習から
補足：課題分析と連鎖化
次の記事はこちらから

強化学習（手続き学習）と報酬誤差学習

リハビリでは『強化学習』という学習理論が有用な場合が多い。

確かに「ある程度速く、正確さが求められる熟練した運動」は、『教師あり学習（フードバック誤差学習）』が大切となる。

しかし一方で、人間の動作は「正確さを要求される素早い運動ばかりが必要」なわけではない

例えば、立ち上がりや車椅子からベッドの移乗など複合的な運動では、スピードもさほど速くない運動が多い（方法も、人によって何パターンも存在する）。このような運動の学習には「動作の正確さ」より「適切さ」を重視する「強化学習（手続き学習）」の方が適していると言える。

強化学習でもっとも重要な要素は、「一連の運動の軌道が正確であること」ではなく「最終的な結果が適切であったか」ということである。

「結果が適切であった」という事実は、動作をする本人にとって「報酬」となる。

つまり、「運動の結果として報酬が得られた」と表現でき、この成功体験が、モチベーションを高め、その行動をさらに強化してくことになる。

このように報酬によって学習する仕組みを『強化学習(Reinforcement learning)』という。

※当然のことながら逆もあり得る。

※運動の結果として報酬が得られなければ、失敗体験が、モチベーションを低下させ、その行動をさらに弱化させてしまうことになる。

念のため、強化学習に関してウィキペディアでは以下の様に記述されている。

強化学習（きょうかがくしゅう、英: Reinforcement learning）とは、ある環境内におけるエージェントが、現在の状態を観測し、取るべき行動を決定する問題を扱う機械学習の一種。エージェントは行動を選択することで環境から報酬を得る。強化学習は一連の行動を通じて報酬が最も多く得られるような方策(policy)を学習する。代表的な手法としてTD学習やQ学習が知られている。

報酬予測誤差とは？

強化学習の理論では、報酬が重要では当然であるが、もう一つ重要な要素として『報酬予測誤差』が挙げられる。

前述したように、強化学習では（フィードバック誤差学習とは異なり）大脳基底核が大きな役割を果たす（フィードバック誤差学習は小脳が大きな役割を果たす）。

また、フィードバック誤差学習では「運動の各時点における誤差情報が重要であり、正確さが求められる学習であった」のに対し、「強化学習では途中経過の正確さは関係なく、最終結果が適切であったかどうかだけが重視される」といった違いがある。

でもって、最終結果が適切であったかどうかのフィードバックを報酬と呼び、実際の報酬と予測した報酬との差を『報酬予測誤差』という。

この報酬予測誤差が大きいとき、すなわち予測よりも大きな報酬を得られたとき、その動作が強化される。

これを繰り返すことにより、かなり複雑な系列動作も学習されていくという仕組みが強化学習にはある。

※『コラム報酬系シリーズ』で何度も紹介してきた通り「期待をどれだけ（良い意味で）上回れるか」が報酬系を活性化する上で重要となってくる（これが報酬予測誤差である）。

※「中脳のドーパミンニューロンの活動」が報酬予測誤差を表現していることが実験的に確かめられている。

※この点に関しては、このシリーズを観覧してくれた人は簡単に理解してくれると思う。

強化学習における重要なポイント

強化学習における重要なポイントは以下の２つ。

強化学習にとって、「報酬が大きいほど良い」ではなく、「報酬予測より実際の報酬が大きいこと」が重要

報酬は治療者にとっての認識できるだけではダメで、学習者(患者）自身が認識できる報酬であること

強化学習をリハビリへ応用

例えば「立ち上がり動作」において、動作中の股関節や膝関節の角度を｢教師あり学習｣的に正確に制御するような学習が好反応を示す場合もあるが、逆に期待した反応が出にくい場合もある。

でもって、そのような学習法より、単純に座面を上げるなど立ち上がりやすい環境を整えて、どんな方法でも良いので「結果として立ち上がれたときの達成感」のほうが学習に役立つ場合があることは何となくイメージしてもらえると思う。

関連記事⇒『大腿四頭筋訓練を解説！高齢者のトレーニングに重要だよ』

※もちろん、最低限の「教師あり学習」は必須だと思う。っというか、この記事では「教師あり学習」や「強化学習」を分けて記載しているが、実際の臨床は併用しながらのリハビリになる点は誤解なきよう。。。

「練習を何度やっても、うまく一人で立ち上がれない」というケースでは達成感（報酬）が得られず、じきにモチベーションが低下する可能性がある。

そんな際は、どんな方法でも良いので「成功した！達成感が得られた」といった感覚を持って報酬系が活性化することこそ、更なるリハビリに対する動機づけ、行動につながることになる。

あるいは脳卒中片麻痺に対する装具療法として、「まずは長下肢装具」⇒「能力改善に応じて関下肢装具に切り替える」といった発想も「強化学習」の観点から有用だと表現することが出来なくもない。

繰り返しになるが、教師あり学習（動作の方法を理学療法士などが細かく教えること）が重要なケースもあるが、一方で（低めの難易度にするなど環境だけ設定して、あとは口を出さずに）ある程度患者自身が試行錯誤(探索）するほうが効率が良い場合もあったりする。

探索するうちに何度か成功すれば、成功した動作が強化され、次第に学習が進み、自立して動作が可能となったりすることもある。

初めは無誤学習から

『無誤学習法(errorless learning)』とは以下を指す。

指導初期に誤反応が出ないように様々な手掛かり刺激（プロンプト）を十分に与え、行動が安定して遂行されるようになったら、徐々にプロンプトをなくしていくことで、誤反応の少ない状態で学習を進める方法

目標とする動作の難易度が高い場合には、達成可能な低い目標を設定する。

それでも成功の可能性が低い場合には、プロンプトを与えて動作が成功する可能性を高める。

この様な『無誤学習』によって得られた「成功」や「上達」は動作訓練に対する意欲を向上させ、反復練習が容易に実施できるようになる。

で、ここからは以下の様に順次の段階に移行していく。

成功する確率が高くなれば、プロンプトを減少させていく。で、プロンプトをなくしても成功するようであれば、徐々にターゲット行動に近づけていく。

※こうすることで、誤りが極力少ない状況下での訓練を実現していく。

例えば、前述した立ち上がり練習に関しては、座面の高い椅子からの立ち上がりによって「成功体験」という報酬によりモチベーションを上げる。

で、その後は座面を徐々に（難しいが、何とか立ち上がれる程度）に調整することで「成功体験」を維持させつつ、リハビリの難易度をあげていく。

稀に「最初は○○cm高の座面からしか立ち上がれなかったのが、いまでは○○cm高の座面からも簡単に立ち上がれるようになりましたね」などと（ポジティブな）過去との比較も報酬系を活性化す売る材料となり得る。

ここから先は、無誤学習を実践するために用いられる専門用語について記載して終わりにする。

シェイピング

シェイピング（shaping）とは以下を指す。

目標行動を細分化し、容易に達成できそうな課題から難易度の高い課題へ段階的に目標行動を近づける技法のこと。

例えば、前述の「椅子からの立ち上がりが難しい患者」に対して座面を高くする（達成可能な難易度に下げる）のはシェイピングに該当する。

運動療法も私たちは、難易度の低いものから高いものへと移行していく手法をとることは多く、これは報酬系の観点からも望ましい。

例えば支持基底面の広い肢位から狭い肢位での運動（背臥位→座位→立位→歩行）や、重心移動の小さい運動から大きい運動（姿勢保持→その姿勢での重心移動→移動）を行うなどは、シェイピングに該当するだろう。

プロンプト・フェイディング法

プロンプト・フェイディング法(prompt-fading)とは以下を指す。

教示やモデリング、身体的ガイドによって動作を確実に成功させる。そして、その流れが確実に成功したところで、つぎの手がかりとなる刺激を徐々に減らしていく方法。目標行動の獲得につれて、目標行動の獲得を支援していた外部刺激(プロンプト)を徐々に減少させる技法のこと。

ポイントは「（前述してきた）教示やモデリング、身体的ガイドによって動作を確実に成功させた後に、今度は逆にプロンプトを減らしていくこと」がプロンプトフェイティングということになる。

例えば、前述の「椅子からの立ち上がりが難しい患者に対して座面を高くし、容易に立ち上がりができるようになった段階で、徐々に座面の高さを（元の状態に近づけるべく）低くする」というのははフェイディングに該当する。

補足：課題分析と連鎖化

『強化学習』の補足として、課題分析と連鎖化（＋行動連鎖）について解説して終わりにする。

課題分析と連鎖化（＋行動連鎖）は、それぞれ以下を意味する。

動作は通常、いくつかの下位動作のつながりによってできており、これは『行動連鎖』と呼ばれる。

『課題分析』とは、複雑な行動連鎖をより下位動作別に練習することであり、一つひとつの下位動作が可能になった後、それをつないでいくのが『連鎖化』である。

運動課題の実施方法は、運動課題の全体を実施するのではなく、運動課題を相に分類したうえで（課題分析）運動の一部分から開始し（部分法)、一部分の運動が改善されたら、つぎの一部分の運動とつなぎ合わせて反復運動を行い、最終的に運動の全体を実施することで、さらに成功体験は増加する。

例えば寝返り動作であれば「頚部の回旋から開始し、頚部の回旋が可能になったら、肩甲帯の回旋を続けて行い、最後に骨盤の回旋を続けて行う」などがイメージしやすいのではないだろうか。

でもって、「連鎖化」や「シェイピング」を用いても、すぐには上手にならない場合も当然あり得る。

そういうときには、「身体的ガイド（動作の手順を文章や図で示したり、セラピストが実際にやってみせ模倣させるなど）」や「口頭指示」などのプロンプトを用いて動作を成立させる。

※細かな指示を与えるという意味で「教師有り学習」を併用していると言い換えることが出来るかもしれない。

繰り返しになるが、その人に合った学習理論を用いる、あるいは併用するなど、臨機応変にいさまざまな引き出しを持っておいてほしい。

次の記事はこちらから

報酬系にしては、コラムにして面白おかしく全５記事にして連載しています。

興味がある方は、こちらも合わせて観覧してみてください。

⇒『コラム報酬系まとめ！全てはここから始まった。。興奮は幸せを呼ぶのか？』

以下の記事は、ここで解説した『強化学習』を補足する内容となっている。合わせて観覧することで「報酬系」「強化学習」について理解が深まると思う。

⇒『リハビリ（理学療法・作業療法）にも報酬系を活用しよう！』

また、ここで解説した『強化学習』以外にも学習理論は存在し、それらは以下の記事でまとめているので興味がある方は観覧してみてください。

⇒『リハビリ（理学療法・作業療法）でも活用される、様々な「学習理論」まとめ』

カテゴリー

報酬系

タグ

報酬系 / 学習理論