October 10, 2018

[最新研究紹介]意思決定の切り替えは大脳基底核が担っている

生物は過去の経験を活用して、目的達成のための意思決定をする

われわれは目標を達成するために、過去の経験を駆使して様々な選択肢を選ぶことができる。だが、この知的な営みは具体的にどんな脳部位で実現されているのだろうか。

もし物事を決める上で重要な部位や要素が分かれば、様々な人が集まる組織での意思疎通を向上させたり、ものごとを選ぶ動機を失った人へ活力を取り戻したりできるだろう。「意思決定(decision-making)」と呼ばれるこの分野は、古くから研究者の興味を引いてきた。

生物は罰を回避し、報酬を求めるようにものを決める:行動抑制系/行動賦活系

さて、人間の意思決定の有力なモデルとして、行動抑制系/行動賦活系(Behavioral Inhibition System/ Behavioral Activation System, BIS/BAS)モデルが提唱されてきた(Gray, 1970; 1981; 1982; 1987)。おおまかには、行動抑制系は罰や欲求不満を引き起こす環境を避けようとはたらき、行動賦活系は報酬や罰の不在(≒安全)をもたらす環境へ接近しようとはたらく、行動の動機づけシステムをさす。人間は、この「罰の回避」「報酬の追求」のバランスによって、日々ものごとを決めていると考えられている。

大脳基底核が行動抑制系/行動賦活系を切り替える

こうした意思決定モデルは行動レベルではよく観察されてきたが、抑制と賦活を切り替える統合的なシステムについては不明な点が多かった。しかし近年の技術の発展の恩恵で、この意思決定システムに深く関わる脳部位が、ラットによる実験で見つかった。
実験では、「Multi-Linc法」と呼ばれる最新の技術が活用された。Multi-Linc法を用いると、特定の脳部位中の複数の神経細胞の活動が、別の脳部位へ伝播する様子を計測することができる。この最新技術を組み合わせることで、従来の観測技術では解明しきれなかった意思決定の仕組みを明らかにした。

ラットが行った意思決定課題は、「当たり」「ハズレ」の選択肢を試行錯誤で学習して、たくさん当たりを選んで多くの報酬を得られるように努めるものだった。選択肢は、レバーを「押す」「引く」のどちらかで、どちらかが「当たり(8割の確率で報酬がもらえる)」、どちらかが「ハズレ(2割の確率で報酬がもらえる)」になっていた。
この課題ではラットは10回程度の試行錯誤でどちらが「当たり」か学習できるのだが、ある程度レバー倒しを繰り返すと、「当たり」「ハズレ」が逆転するようになっている。したがってマウスは、どこかのタイミングでこの逆転に気づき、戦略を変えなければならなかった。
この戦略の逆転こそが、行動抑制・賦活の制御に関わっている。本来「当たり」であるはずの選択肢が「ハズレ」になり、「当たり」をさがし直す一連の行動は、

  1. 「当たり」を選び続ける
  2. 「当たり」が逆転したのに気づき、選び続けていた選択肢をやめる
  3. 新しい「当たり」を学習し、また選び続ける

という順番で、いわば賦活→抑制→賦活、のような切り替わりが生じるはずである。
このように行動が切り替わっている時、ラットのどの脳部位が活動を変化させるかを見れば、こうした意思決定に対応した脳部位がわかる、という仕組みだ。
実験で筆者らは、「期待した報酬が得られない時に、切り替える」ときには大脳基底核間接路、「当たりを選び続ける」ときには大脳基底核直接路が活動することを発見した。いわば、行動抑制系のような制御を間接路が、賦活系のような制御を直接路が、それぞれ担っている、といえる。

「意思決定」という知的営みからも切り離せない、ドーパミンという伝達物質

大脳基底核間接路・直接路は、どちらもドーパミンによって強力に制御されている。本研究成果は例えばパーキンソン病のような、ドーパミン系の異常を伴う病態の解明に役立つと筆者らは指摘する。
また、(多くの研究が示すように)我々の選択を動機づけているドーパミンが、選択肢の切り替えという複雑な営みにも重要だったことは興味深い。われわれの様々な知的作業は、突き詰めて分解していくと神経伝達物質のバランスに寄って成り立っているのだろう。

生物は過去の経験を活用して、目的達成のための意思決定をする

われわれは目標を達成するために、過去の経験を駆使して様々な選択肢を選ぶことができる。だが、この知的な営みは具体的にどんな脳部位で実現されているのだろうか。

もし物事を決める上で重要な部位や要素が分かれば、様々な人が集まる組織での意思疎通を向上させたり、ものごとを選ぶ動機を失った人へ活力を取り戻したりできるだろう。「意思決定(decision-making)」と呼ばれるこの分野は、古くから研究者の興味を引いてきた。

生物は罰を回避し、報酬を求めるようにものを決める:行動抑制系/行動賦活系

さて、人間の意思決定の有力なモデルとして、行動抑制系/行動賦活系(Behavioral Inhibition System/ Behavioral Activation System, BIS/BAS)モデルが提唱されてきた(Gray, 1970; 1981; 1982; 1987)。おおまかには、行動抑制系は罰や欲求不満を引き起こす環境を避けようとはたらき、行動賦活系は報酬や罰の不在(≒安全)をもたらす環境へ接近しようとはたらく、行動の動機づけシステムをさす。人間は、この「罰の回避」「報酬の追求」のバランスによって、日々ものごとを決めていると考えられている。

大脳基底核が行動抑制系/行動賦活系を切り替える

こうした意思決定モデルは行動レベルではよく観察されてきたが、抑制と賦活を切り替える統合的なシステムについては不明な点が多かった。しかし近年の技術の発展の恩恵で、この意思決定システムに深く関わる脳部位が、ラットによる実験で見つかった。
実験では、「Multi-Linc法」と呼ばれる最新の技術が活用された。Multi-Linc法を用いると、特定の脳部位中の複数の神経細胞の活動が、別の脳部位へ伝播する様子を計測することができる。この最新技術を組み合わせることで、従来の観測技術では解明しきれなかった意思決定の仕組みを明らかにした。

ラットが行った意思決定課題は、「当たり」「ハズレ」の選択肢を試行錯誤で学習して、たくさん当たりを選んで多くの報酬を得られるように努めるものだった。選択肢は、レバーを「押す」「引く」のどちらかで、どちらかが「当たり(8割の確率で報酬がもらえる)」、どちらかが「ハズレ(2割の確率で報酬がもらえる)」になっていた。
この課題ではラットは10回程度の試行錯誤でどちらが「当たり」か学習できるのだが、ある程度レバー倒しを繰り返すと、「当たり」「ハズレ」が逆転するようになっている。したがってマウスは、どこかのタイミングでこの逆転に気づき、戦略を変えなければならなかった。
この戦略の逆転こそが、行動抑制・賦活の制御に関わっている。本来「当たり」であるはずの選択肢が「ハズレ」になり、「当たり」をさがし直す一連の行動は、

  1. 「当たり」を選び続ける
  2. 「当たり」が逆転したのに気づき、選び続けていた選択肢をやめる
  3. 新しい「当たり」を学習し、また選び続ける

という順番で、いわば賦活→抑制→賦活、のような切り替わりが生じるはずである。
このように行動が切り替わっている時、ラットのどの脳部位が活動を変化させるかを見れば、こうした意思決定に対応した脳部位がわかる、という仕組みだ。
実験で筆者らは、「期待した報酬が得られない時に、切り替える」ときには大脳基底核間接路、「当たりを選び続ける」ときには大脳基底核直接路が活動することを発見した。いわば、行動抑制系のような制御を間接路が、賦活系のような制御を直接路が、それぞれ担っている、といえる。

「意思決定」という知的営みからも切り離せない、ドーパミンという伝達物質

大脳基底核間接路・直接路は、どちらもドーパミンによって強力に制御されている。本研究成果は例えばパーキンソン病のような、ドーパミン系の異常を伴う病態の解明に役立つと筆者らは指摘する。
また、(多くの研究が示すように)我々の選択を動機づけているドーパミンが、選択肢の切り替えという複雑な営みにも重要だったことは興味深い。われわれの様々な知的作業は、突き詰めて分解していくと神経伝達物質のバランスに寄って成り立っているのだろう。

Reference

Monitoring and Updating of Action Selection for Goal-Directed Behavior through the Striatal Direct and Indirect Pathways. Nonomura et al., 2018, Neuron.

Reference

Monitoring and Updating of Action Selection for Goal-Directed Behavior through the Striatal Direct and Indirect Pathways. Nonomura et al., 2018, Neuron.