学政工心理 - 亀山尚輝の日記

レビー小体(Lewy body)とは、神経細胞の内部に見られる異常な円形状の構造物（封入体）である。ドイツ生まれの神経学者であるフレデリック・レビー(Frederic H. Lewy)によって初めて発見された。

レビー小体は主にα-シヌクレインでできており、一部のパーキンソン病などとの関連も指摘されている。

レビー小体は、中枢および末梢の神経細胞に出現する円形・好酸性の細胞質封入体で、染色すると中心部の芯(core)は濃く染まり周辺部の暈輪(うんりん)(halo)は明るく見える。電子顕微鏡では、中心部に緻密物質、周囲に放射状の細線維が認められる。物質構成としては、α-シヌクレインと、それに結合するユビキチン・ニューロフィラメントタンパク質・α-Bクリスタリンといったタンパク質から成る。レビー小体は、ドーパミン、ノルアドレナリン、セロトニン、アセチルコリンを分泌する神経細胞に好発するが、詳しい出現機序はよくわかっていない。

レビー小体が関係する病気としては、パーキンソン病、レビー小体型認知症（DLB）がある。パーキンソン病では、中脳の黒質緻密質のドーパミン神経が変性脱落したところにレビー小体ができる。その他、青斑核、迷走神経背側核、末梢の自律神経節にも好発する。一方、レビー小体型認知症では、大脳皮質やマイネルト核にもレビー小体が広く見られる。

近年病理学的観察から、ドイツの病理学者であるハイコ・ブラーク（英語版）によりα-シヌクレインの蓄積が嗅球、延髄から始まり、徐々に上行して中脳に至り、最終的には大脳皮質に達するという仮説（ブラークの仮説）が提唱され[1]、議論されている。

α-シヌクレイン (あるふぁ-しぬくれいん) はSNCA 遺伝子によってエンコードされるアミノ酸140残基からなるタンパク質[2][3][4]。

このタンパクの断片が、アルツハイマー病に蓄積するアミロイド中の (主な構成成分であるアミロイドベータとは別の) 成分として発見され、もとのタンパク質がNACP (Non-Abeta component precursor 非アミロイド成分の前駆体) と命名された。後にこれがシビレエイ属のシヌクレインタンパクと相同であることがわかり、ヒトα-シヌクレインと呼ばれるようになった。

α-シヌクレインの蓄積は、パーキンソン病をはじめとする神経変性疾患 (いわゆるシヌクレイノパチー) の原因とされている[5][6]。

α-シヌクレインは主として神経組織内にみられる機能不明のタンパク質であり、細胞質中のタンパク質の約1%にのぼる[7]。α-シヌクレインは主に大脳新皮質、海馬、黒質、視床および小脳に発現する。主として神経細胞内に存在するが、グリア細胞内でも見られる[8]。メラニン細胞では、SNCA遺伝子の発現を小眼球症関連転写因子 (microphthalmia-associated transcription factor, MITF) が調節している可能性がある[9]。

α-シヌクレインが哺乳類の神経細胞体の核周辺にも広く存在していることがわかっており、このタンパク質が核内で何らかの役割を果たしている可能性が考えられる[10]。しかしむしろシナプス前終末で圧倒的に多くみられ、脂質二重膜に結合しあるいは細胞質中に遊離して存在するが[11][12]、膜結合型のものは約15%程度にすぎない[13]。

α-シヌクレインは神経細胞のミトコンドリア内部に局在することが明らかになってきた[14]。嗅球、海馬、線条体、黒質、視床では細胞質・ミトコンドリア内部にともに高濃度のα-シヌクレインが存在するが、一方大脳皮質と小脳では細胞質には豊富に存在するもののミトコンドリア内部には少ない、あるいはほとんど存在しない[15]。ミトコンドリア内部のα-シヌクレインが、内膜上に局在していること、そして濃度依存的にミトコンドリア呼吸鎖の複合体Iに対して阻害的に作用することもわかっている。これらのことから、もともとミトコンドリア内部でのα-シヌクレイン発現のしかたは脳内の部位によって異なり、この発現の程度が、ミトコンドリア機能に影響し、また神経変性を起こしやすくなる潜在的因子である可能性がある[15]。

SNCA遺伝子の選択的スプライシングによって、少なくとも3種のアイソフォーム (アミノ酸残基の配列は多少異なるが、働きそのものは変わらないタンパク質en) が産生される[6]。よく研究されている主要なものは140アミノ酸残基からなるアイソフォームで、遺伝子すべてが翻訳される。その他エクソン3が欠けたα-シヌクレイン126 (41-54残基がない) や、エクソン5を欠いたα-シヌクレイン112[16] (103-130残基がない) などがある[6]。

学習に伴うシナプス再構築の際に、α-シヌクレインのシナプス前終末における数が特異的に上方制御 (ある刺激によって遺伝子発現が加速し、タンパク質産生が増加する調節) される[17]。α-シヌクレインはチューブリンと相互作用し[5]、(タウタンパクのように) 微小管結合タンパクとなりうる活性を持つことが示されている[18]。

SNAREタンパク質複合体 (神経伝達物質放出において、シナプス小胞と細胞膜の融合にかかわる物質) の形成に際して、α-シヌクレインが分子シャペロンとして働いている可能性が示唆されている[19][20]。特に、N末端ドメインで細胞膜のリン脂質と、C末端ドメインでシナプトブレビン-2 (SNAREタンパクの一種) と同時に結合するが、これはシナプス活性化の際には特に重要である[21]。α-シヌクレインが神経細胞のゴルジ装置や小胞輸送の機能にかかわっている、という証拠は増えつつある[22]。

α-シヌクレインと膜の相互関係や、膜の合成と再生へのかかわりについても証拠が蓄積されつつある。酵母ゲノムスクリーニングで、脂質代謝にかかわる酵素の中にα-シヌクレインの毒性を増強するものがあることもわかった[23]。逆にα-シヌクレインの発現レベルは、脂質二重層内にある脂肪酸の、粘度と相対的な量に影響している[24]。

α-シヌクレインは脂質膜の負に帯電した表面に直接結合し[24]、単層小胞に結合した状態では伸展したαヘリックス構造をとる[25]。また小さな小胞に結合する傾向があり[26]、脂質膜に結合することによって二重膜構造を変化させ、小さな小胞を形成させるという複雑な効果を及ぼす[27]。すなわち負の電荷をもつ小胞の膜を折り曲げて、大きな小胞から細い環を形成する[28]。膜における抗酸化活性を持つ可能性も指摘されている[29]。

α-シヌクレインの一次構造は、通常次の3つのドメインから構成される

第1-60残基：両親媒性のN末端領域で、共通配列 KTKEGV (リシン-スレオニン-リシン-グルタミン酸-グリシン-バリン) を含む11残基の不完全な7回繰り返しが中心である。この配列はアポリポタンパク質の脂質結合領域に相同で、αヘリックス構造をとりやすい[30]。
61-95残基：この中間部は疎水性領域で、非アミロイド成分 (non-amyloid component NAC) と呼ばれるタンパク凝集する部分である[2]。
96-140残基：酸性度が高くプロリンを豊富に含む領域で、特定の構造をとらない。ある種のキナーゼによるチロシン125とセリン129のリン酸化が、α-シヌクレインの機能調節に関与している[31][32][33]。

インビトロでα-シヌクレインをインキュベートする (恒温に保つ) と、自己分解して低分子量の様々な断片を生成することがわかる (高速液体クロマトグラフィー、高分解能イオン移動度質量分析器を用いた検出による)[34]。もとの14.46kDa (キロダルトン) のタンパクから多数の断片が生じることが分かっており、例えばC末端やN末端が切断されてできる12.16kDaの断片 (14-133アミノ酸残基) 、10.44kDaの断片 (40-140アミノ酸残基) およびC末端の断片である7.27kDa (72-140) がある)[34]。7.27kDaの断片はNAC領域の大部分を含んでおり、未分解のα-シヌクレインに比べてずっと速く凝集する。これらの分解産物が生体内 (インビボ) でも、α-シヌクレイン凝集に対して仲介・補助的に働いている可能性がある。

α-シヌクレインは長らく可溶性の天然変性タンパク質であると考えられてきたが、変異のない場合は安定な折りたたまれた4量体を形成し、凝集抵抗性を持つと思われる知見が得られている[35]。にもかかわらず、パーキンソン病・レビー小体型認知症[36]・多系統萎縮症[37]のような疾患では、レビー小体に代表される不溶性の原線維を形成するため、これらの疾患はシヌクレイノパチーと呼ばれる。α-シヌクレインはレビー小体中の[フィラメント]として代表的な構造体だが、レビー小体中にタウタンパク質が存在したり[38]、また同一封入体中にα-シヌクレインとタウタンパク質のフィラメントがそれぞれ集合して存在していることもある[39]。病的なα-シヌクレインはまた、孤発性および家族性アルツハイマー病のどちらの場合にもみられる[40]。

α-シヌクレインの凝集メカニズムについては、かなり不明な点が多いが、凝集の前駆体としてまずβ構造に富む中間構造物を形成し、その後レビー小体になるという証拠も存在する.[41]。天然変性、αヘリックス、βシートに富む構造のそれぞれが混在し、平衡状態にあることを示唆する1分子レベルの研究もある。凝集を促進することがわかっている条件 -A30P (30番目のアミノ酸がアラニンからプロリンに変化する) 点変異やイオン強度の上昇といった緩衝液の変化- の下では、平衡状態が移動してβ構造の量が著しく増加することから、β構造が病的な凝集に関与していることが考えられる[42]。α-シヌクレイン凝集が関与する疾患に対する治療戦略は様々考えられるが、凝集の阻害物質を使用する方法は重要である。例えばクミンアルデヒドは、低分子ながらα-シヌクレインの原線維化を阻害することが示されている[43]。エプスタイン・バール・ウイルスもこれらの病態に関与している[44]。

家族性パーキンソン病の中に、α-シヌクレインをコードする遺伝子が変異している稀なタイプが存在する。A53T[45] (53番目のアラニンがスレオニンに)、A30P[46] (30番目のアラニンがプロリンに)、E46K[47] (46番目のグルタミン酸がリシンに) の3つの点変異がこれまでに同定されているほか、遺伝子重複 (二重複、三重複) も家族性パーキンソン病の原因となることがわかっている[48] (こちらの方が点変異よりも数は多い)。このように、α-シヌクレインの変異によってアミロイド類似の原線維形成が起こり、パーキンソン病の原因となることがある。

以前までの抗ユビキチン抗体に代わって、抗α-シヌクレイン抗体 (リン酸化α-シヌクレイン特異抗体) がレビー小体免疫染色のゴールドスタンダードとして用いられるようになっている[49]。

α-シヌクレインの断片の中には、タウオパチー (タウタンパク質が原因となる疾患群) に関与しているものがある[50]。

α-シヌクレイン毒性の機序[51] ：中央の図はタンパク質凝集の主要経路を表している。α-シヌクレインの単量体は可溶性の天然変性形態だが、膜に結合してαヘリックス様の形態になることもできる。細胞内ではこの2形態が平衡状態にあると考えられるが、証明はされていない。折りたたみの解けた単量体はまずβシート様の相互作用によって安定するオリゴマーとなり、さらに高分子量の不溶性原線維となることが、試験管内では明らかになっている。また細胞内の環境では脂質の存在によってオリゴマー形成が促進され、α-シヌクレインも環状の細孔 (ポア) のような構造となって膜と作用することがわかっている。神経内部でα-シヌクレインが沈着しレビー小体のように病的な構造となるのは、おそらく末期の現象である。
左図は、以上の経路における既知の修飾である。神経内部の電気的活性はα-シヌクレインと小胞との結合状態を変化させ、またPLK2 (polo-like kinase, 細胞周期の調節に関係するセリン-スレオニンキナーゼの一種) を刺激してセリン129をリン酸化する。これ以外のプロテインキナーゼの関与を主張する説もある。リン酸化以外には、カルパインによる切断や、おそらくNO (一酸化窒素) をはじめ炎症反応中に存在する活性窒素種（Reactive nitrogen species）なども凝集性を高めるような修飾を行う。レビー小体のユビキチン化 (小さな黒丸で図示) も、おそらくは沈着の2次的過程である。
右図は、α-シヌクレインによる毒性の細胞内標的の仮説である。上から順に、小胞体-ゴルジ装置輸送 (輸送が阻害され、小胞体ストレスとゴルジ装置の断片化が起きる)、シナプス小胞 (神経伝達物質の放出が減少)、ミトコンドリア(エネルギー産生が傷害され、アポトーシスを誘導する)、およびリソソームとその他のタンパク分解機構 (シャペロン介在性オートファジーの基質蓄積、プロテアソーム傷害)。いずれの場合も、括弧内に示すような有害な影響を及ぼすと考えられている。ただしいずれの場合も、神経毒性に関して必要十分に説明し得るかは、はっきりしていない。

α-シヌクレインは、以下の分子と相互に作用する。

ドーパミン輸送体[52][53]
パーキン[54][55]：家族性パーキンソン病の原因となるリガーゼの一種
ホスホリパーゼD1[56]
シンフィリン-1 (SNCAIP)[57][58][59][60]
タウタンパク質[61][62]
アミロイドベータタンパク質[63]

パーキンソン病の患者が多く存在する地域として知られる。18世紀初めごろこの村に暮らしていたある人の子孫が、イタリア、ギリシア、アメリカ、オーストラリアでそれぞれパーキンソン病を発症していたことが近年になってわかり、遺伝性のパーキンソン病 (家族性パーキンソン病) が初めて報告された[1]。この病気の原因であるα-シヌクレインというタンパク質の遺伝子異常も発見され[2]、パーキンソン病研究の前進にとって大きなきっかけとなった[3]。

ホスホリパーゼ (phospholipase) は、リン脂質を脂肪酸とその他の親油性物質に加水分解する酵素である[1]。触媒する反応の種類によりA, B, C, Dの4種に大きく分類される。

ホスホリパーゼA (Phospholipase A)
ホスホリパーゼA1 (Phospholipase A1) - SN-1アシル基を切断する。
ホスホリパーゼA2 (Phospholipase A2) - SN-2アシル基を切断し、アラキドン酸を生成する。
ホスホリパーゼB (Phospholipase B) - SN-1とSN-2アシル基を共に切断する。リゾホスホリパーゼ (Lysophospholipase) としても知られる。
ホスホリパーゼC (Phospholipase C) - リン酸ジエステル結合（グリセロールとの間）を切断し、ジアシルグリセロールとリン酸基を有する頭部を生成する。PLCはセカンドメッセンジャーであるジアシルグリセロールとイノシトールトリスリン酸を放出し、シグナル伝達において重要な役割を果たしている。
ホスホリパーゼD (Phospholipase D) - リン酸エステル結合を切断し、ホスファチジン酸 (phosphatidic acid) とアルコールを生成する。
C型とD型はホスホジエステラーゼである。

ホスホリパーゼA2は、完全なレシチン分子に対して作用し、2位の脂肪酸エステル結合を加水分解する。生成物は脂肪酸とリゾレシチン (lysolecithin) である。ヘビ毒、ハチ毒（Bee venom）の主成分で哺乳類では膵液中に存在し消化酵素の役割を果たす[2][3]。

封入体（ふうにゅうたい、英:inclusion body）とは異常な物質の集積により形成される細胞内の異染色領域であり、能動的機能を有しない小体。ウイルスやクラミジア感染あるいは重金属中毒において形成されることがある。細胞質内に形成される封入体を細胞質内封入体、核内に形成される封入体を核内封入体、両者に形成される封入体を混合型封入体と呼ぶ。核内封入体には両染性の封入体が核内を満たすfull型と両染性から好酸性の封入体の周囲にhaloが伴うCowdry A型が存在する。例えば、狂犬病では海馬や小脳の細胞質内に好酸性のネグリ小体と呼ばれる封入体を形成することがある。封入体は糖質、脂肪、タンパク質、分泌顆粒、色素、結晶質、異物、細菌、ウイルスなどで構成される。

あるいは遺伝子組み換え等で合成されたタンパク質等が、本来の生体内での状態とは異なる立体構造を構成することによって、不溶性の凝集体として蓄積したもの。そのため、組み換え蛋白等は、尿素等によって溶解後再構成させたりして使用する必要が生じることがある。

ネグリ小体（ねぐりしょうたい、英:Negri body）とは狂犬病ウイルスに感染した神経細胞の細胞質に認められる、明瞭な外観を有する特徴的な封入体である。

ネグリ小体は、イタリアの病理学者であるアデルキ・ネグリ（英語版）によって発見された。パヴィア大学で後にノーベル生理学・医学賞受賞者となるカミッロ・ゴルジに師事していたネグリは、ゴルジの勧めで狂犬病における脳病変の検索に従事し、1903年に狂犬病ウイルスに感染した神経細胞内に特徴的な封入体が存在することを報告した[1]。研究者らによる議論を経た後、ネグリ小体は狂犬病の重要な診断要素として認識されることとなった。一方、ネグリ小体がどんな物質で構成され、狂犬病ウイルスとどのような関係を持っているのかという問題については、後の電子顕微鏡の登場を待たねばならなかった[2][3]。ネグリ小体は狂犬病ウイルスの野生株（街上毒）による感染では多く見られるが、継代により弱毒化したウイルス株（固定毒）ではほとんど形成されなくなるなど、ネグリ小体の存在意義については今なお未解明の点が残されている[1]。

ネグリ小体は狂犬病に罹患したヒトや動物の神経細胞に形成される細胞質内封入体である。概ね円形で、直径は2-10 μm。脳と脊髄全域の神経細胞に発生し得るが、好発部位は動物種によって異なり、ヒトやイヌでは海馬アンモン角の錐体細胞に多く認められる一方、ウシでは小脳のプルキンエ細胞に多い。ウイルス粒子の構成成分であるヌクレオカプシドの集合から成り、電子顕微鏡で観察すると、ネグリ小体の周辺から狂犬病ウイルス粒子の出芽（budding）像が認められる。

類似の封入体が認められる疾患が他になく、狂犬病に特徴的な病変とされるため診断的価値は高い。ただし、狂犬病患者（患畜）の全例に形成されるわけではなく、病理学的検査においてネグリ小体が認められないからといって直ちに狂犬病を否定はできない。ヒトの場合、狂犬病発症から4-5日以上経過した症例ではネグリ小体の形成頻度が高い一方、発症から2日以内に死亡した例ではほとんど形成が見られない[4]。

1950〜60年代にかけて免疫蛍光染色による特異的で迅速な診断法が開発され、鏡検技術の熟練度に影響されるネグリ小体検出の診断的意義は低下した[4]。ネグリ小体が真に狂犬病限定の病変であるかについては異論もあり[5]、近年では複数の検査法を組み合わせて確定診断を行うことが望ましいとされる。しかし、狂犬病が恒常的に発生している開発途上国や、蛍光抗体法あるいはRT-PCR法を利用できない地域・施設においては、依然として重要な診断基準となっている。

逆転写ポリメラーゼ連鎖反応（ぎゃくてんしゃポリメラーゼれんさはんのう、Reverse Transcription Polymerase Chain Reaction, RT-PCR）とは、RNA を鋳型に逆転写を行い、生成された cDNA に対して PCR を行う方法である。

PCR法では鋳型となる DNA にプライマーを付着させ、DNAポリメラーゼによって目的のプライマー配列にはさまれる DNA を特異的に検出する。PCR法は DNA の検出に用いることは可能であるが、RNA の検出をすることができない。そこで、RNA を逆転写によって cDNA に変換し、その cDNA に対して PCR法を行う。

例えば、レトロウイルスなどの一部のウイルスは、RNA しかもっていない。このようなウイルスの感染を証明する場合、RT-PCR法を用いることになる。細胞内に存在する mRNA は DNA と比較すると非常に不安定な物質であり、−80 ℃ で凍結保存しても半減期が約半年と言われている。そのため、半永久的に mRNA 配列を保存する目的で RT-PCR を用いる場合もある。

マイネルト基底核（まいねるときていかく、Nucleus basalis of Meynert（NBMと省略））は、新皮質へ広く投射する前脳基底部無名質にあるニューロン群である。アセチルコリンとその合成酵素であるコリンアセチルトランスフェラーゼを多く含んでいる。

変性によりアセチルコリンの産生が低下する。アルツハイマー病、レビー小体型認知症や精神的活動や記憶の減退を来すパーキンソン病などで見られる。認知症に対する多くの薬物治療は、低下したNBMの機能をアセチルコリンレベルを増加させ代償することに焦点が当てられている。

NBMは淡蒼球の下方、無名質に存在する。

これらのコリン作動性ニューロンは視覚認知における現実と仮想現実の比を調節することが特に重要な機能である[1]。(一部省略）NBMの活性化は促進(A)、抑制(B)により新たな刺激により多くの注意を払うようになる。GoardとDan[2]、Kuoら[3]は同様の所見を報告している。Gerrard Reopitは1984年にこの所見を確認している。

Theodor Meynertに由来する.[4]

淡蒼球（たんそうきゅう globus pallidus = ラテン語で「蒼いもの」、あるいは pallidum）は、脳の皮質下構造のひとつで大脳基底核の一部。外節と内節とに区別されるが、どちらも共にGABA作動性の大型の投射ニューロンを含んでいる。ミエリンの髄鞘を被った軸索が通過するため、青白い外見を呈し、淡蒼球と呼ばれる。別名を、古線条体ともいうが、通常の意味での線条体は、背側線条体（もしくは腹側線条体）のことを指すため、注意を要する。

ヒト脳の冠状断面。緑色で示す所が淡蒼球。外側が淡蒼球外節(GPe)、内側が淡蒼球内節(GPi)。他、青色は線条体（Striatum）、黄色は視床下核(STN)、赤色は黒質(SN)。

淡蒼球外節（たんそうきゅうがいせつ external segment of globus pallidus; GPe）は、間接路の構成要素であり、線条体からのGABA作動性入力を受ける。外節からのGABA作動性の出力は、視床下核および、淡蒼球内節、黒質網様部へ入力する。

淡蒼球内節（たんそうきゅうないせつ internal segment of globus pallidus; GPi）は、線条体からのGABA作動性入力を受け（直接路）、また淡蒼球外節からGABA作動性入力、視床下核からグルタミン酸作動性の入力を受ける（間接路）。黒質網様部と共に、大脳基底核の出力核として位置づけられている。

腹側淡蒼球（ventral pallidum, VP）は、上述の淡蒼球の腹側に位置し、無名質（substantia innominata）の一部を成す。腹側線条体、すなわち側坐核と嗅結節からの入力を受けるが、それらはほとんどがGABA作動性の抑制性入力である。腹側淡蒼球は視床の背内側（MD）核に投射する。MD核からは大脳新皮質の前頭前野への興奮性の投射がある。

被殻（ひかく、英: Putamen）は、脳の中央部に存在する脳構造で、尾状核と共に背側線条体を形成している。

被殻は大脳基底核の一部で、レンズ核の最外部を形成している。

被殻は強化学習に役割を持っていると見られている。

運動野と体性感覚野、視床の髄板内核、及び黒質から、被殻への投射が存在する。

被殻からは淡蒼球と視床を介して、皮質の運動前野と補足運動野への投射が存在する。

レンズ核（lentiform nucleus または lenticular nucleus）は、大脳基底核のうち、被殻と淡蒼球の2つを指す脳の領域の名称。レンズ核は円錐形の灰白質であり、内包の外側に位置する。レンズ核の名称はラテン語に由来し、おそらく側面から剖出して観察した際のこの核の形状を表したものである。

尾状核（びじょうかく、英: Caudate nucleus）は、多くの動物の脳の大脳基底核に位置する神経核である。尾状核は元々、自発運動のコントロールに主に関わっていると考えられていたが、現在では、脳の学習と記憶システムの重要な部分を占めていると考えられている。

尾状核は脳の中心付近、視床の両側に存在する。脳の2つの大脳半球にはそれぞれ尾状核が存在する。尾状核はそれぞれアルファベットのCのような形をしていて、前方の尾状核頭が膨らんでおり、後方の尾状核体、尾状核尾にかけて細くなっている (尾状核の一部は膝 (genu) と呼ばれることもある[1])。

尾状核頭と尾状核体は、側脳室前角の底面の一部を形成している。尾状核頭の後部方向へと尾状核体をわずかに移動すると、尾状核尾が下方から前方に向かってカーブしていて、側脳室下角の上面を形成している。つまり、脳を冠状断 (顔面と同じ向きで切る) すると、尾状核尾と尾状核体 (または尾状核頭) の両方が現れる。

尾状核は解剖学的に他の多くの脳構造と関係している。尾状核は最内包前脚によってレンズ核 (淡蒼球と被殻から成る) と分けられている。また、尾状核と被殻で線条体を形成している。

尾状核の活動はドーパミンニューロンの神経支配を受けていて、これらのニューロンは主に腹側被蓋野 (VTA) 黒質緻密部 (SN)から始まっている。また、尾状核は様々な関連する皮質からの入力を受けている。

歴史的に、大脳基底核は全体で高次運動の調節に関与しているとされてきた[2]。より最近では、尾状核が学習と記憶[3]、特にフィードバック処理[4]に強く関わっていることが証明されている。一般的に、尾状核で起きる神経活動は被験者がフィードバックを受け取っている時に発生していることが示されている。

左尾状核は特に、単語の理解と調音 (articulation) を複数の言語間でスイッチする時に、これらを支配している視床と関係していることが示唆されている [5] [6]。

脳は興奮性シナプスによって相互接続した非常に多くの神経細胞の集合を含んでいる。したがって、これらはポジティブフィードバックを構成要素に持つ大きなネットワークを形成している。このようなシステムが活動の爆発を防ぐメカニズムを持たずに動作していると考えるのは難しい。尾状核が大脳皮質全体の活動を計測し、閾値となる電位を制御しているという間接的な証拠が存在する [7]。

腹側被蓋野（ふくそくひがいや、ventral tegmental area, ventral tegmentum、VTA）は哺乳類の脳における中脳の一領域であり、被蓋の腹側部に位置する。被蓋とは脳幹の背側の領域を広く指す言葉であり、系統発生的に古い部分である（赤核や黒質も被蓋に含まれる）。この中の腹側被蓋野は黒質や赤核に囲まれた内側の領域である。A10細胞集団と呼ばれる、ドーパミン作動性ニューロンが多く存在し、中脳辺縁投射、中脳皮質投射を形成している。これらのニューロンの活動は報酬予測に関わっていると考えられている。

腹側被蓋野はドパミン、GABA、グルタミン酸作動性神経によって成り立ち、以下の主だった2つのドパミン経路の一部である。

中脳辺縁系（腹側被蓋野と側坐核を結ぶ）
中脳皮質系（腹側被蓋野と前頭葉を結ぶ）

腹側被蓋野は報酬系の一部と考えられている。快の感覚を生むような活動は腹側被蓋野を活性化する。また、コカインなどの覚醒剤はこの領域に直接的に作用する。そのため、嗜癖行動の神経学的なメカニズムに関っていると考えられている。

また、腹側被蓋野は恐怖条件付けなどに関与しており、様々な情動や防御本能に関わっていると考えられる。

黒質（こくしつ substantia nigra = ラテン語で「黒い物質」の意）は中脳の一部を占める神経核である。黒質は、緻密部と、網様部（および外側部）とによって、大きく二群に大別されるが、いずれも大脳基底核を構成する中心的な要素である。

黒質緻密部（こくしつちみつぶ substantia nigra pars compacta）は、ヒトにおいて、ニューロメラニン色素を含有するニューロンが多く存在しているため黒色を帯びているが、加齢と共にニューロメラニンの量が減少する。ニューロメラニンはドーパ（ヒドロキシフェニルアラニン）が重合したもので、ニューロメラニンの色素沈着は、明瞭な黒い斑として脳切片上で認めることができ、黒質という名前の起源となっている。多くのニューロンはドーパミン作動性であり（A9細胞集団[1]）、とりわけ太く長い樹状突起をもち、腹側方向へ延びる樹状突起は境界を越えて網様部の中へ深く侵入している。

類似したドーパミン作動性ニューロンが、数はより少ないが、中脳の中を黒質からより内側および後方へ連続的に分布しており、これらの領域は腹側被蓋野（ventral tegmetal area, VTA；A10細胞集団[1]）および赤核後部（retrorubral fielad, RRF；A8細胞集団[1]）と名付けられている。

黒質緻密部自体も、Ventral Tier（A9v）と、カルビンディン（calbindin）陽性[2]のDorsal Tier（A9d）とに区別される。背側部A9dは、A8やA10と互いに関連が深い[3]。緻密部ドーパミン作動性ニューロンの長い樹状突起はGABA作動性の線条体入力を受ける。緻密部のニューロンはまた網様部のGABA作動性ニューロンの軸索側枝からの抑制性入力を受けている[4]。これらのニューロンは軸索を黒質線条体路に沿って線条体に投射し、神経伝達物質のドーパミンを分泌する。ドーパミン作動性軸索はまたその他の大脳基底核を構成する神経核にも投射しており、それらには淡蒼球[5]、黒質網様部、視床下核[6]などが含まれる。

黒質緻密部ドーパミン作動性ニューロンの機能は複雑である。当初考えられていたように運動制御に直接関わるものではない。すなわち「ドーパミンニューロンは、新規かつ予想外の刺激によって、報酬予測を可能とするような刺激がない状況では一次報酬によって、また学習中に活性化される」[7]。ドーパミン作動性ニューロンはどのような行動が報酬（たとえば食物やセックスなど）をもたらすのかを予測するための学習に関与すると考えられている。とくに、ドーパミンニューロンは、予測していたよりも報酬が大きいときに発火する（すなわち報酬予測誤差信号を担う）ということが示唆されており、これが強化学習理論におけるTD誤差信号に類似することから、大脳基底核の神経回路において強化学習が実現していると考える仮説の有力な根拠となっている。この報酬予測誤差信号はその行動の期待値を更新するために用いられると考えられ、習慣形成や手続き記憶の形成に関わっていると推測されている。ドーパミン作動性ニューロンの発火は、投射先の線条体でのドーパミン放出を引き起こし、線条体投射ニューロンのD1受容体、D2受容体に作用する。多くの薬物乱用においては、たとえばコカインなどの薬物がこの報酬反応を刺激するために、薬物中毒を引き起こすと考えられている。

黒質緻密部ニューロンの変性がパーキンソン病の主たる病理であると見なされている。遺伝性のパーキンソン病も少数存在するが、多くの例についてはドーパミン作動性ニューロンが死ぬ理由は明らかになっていない。パーキンソン症状は脳炎のようなウイルス感染や、MPTPなどの化学薬品によっても引き起こされる。ドーパミン作動性ニューロンの病理的変化は統合失調症や、うつ病に時折みられる精神運動遅延にも関わっていると考えられている。

MPTP（1-メチル-4-フェニル-1,2,3,6-テトラヒドロピリジン、1-Methyl-4-phenyl-1,2,3,6-tetrahydropyridine）は神経毒の一つで、ヒトが摂取するとパーキンソン病様の病態を引き起こす。これは、脳内でモノアミン酸化酵素によりパラコートに類似したMPP+（1-メチル-4-フェニルピリジニウム）に変換され、中枢神経系ドーパミン神経の特異的な脱落を引き起こすためである[3]。

MPTP

IUPAC名
1-Methyl-4-phenyl-1,2,3,6-tetrahydropyridine

識別情報
CAS登録番号 28289-54-5 チェック
PubChem 1388
ChemSpider 1346 チェック
EINECS 248-939-7
KEGG C04599 チェック
MeSH 1-Methyl-4-phenyl-1,2,3,6-tetrahydropyridine
ChEBI CHEBI:17963 チェック
ChEMBL CHEMBL24172 チェック
IUPHAR/BPS
280
SMILES
c2c(/C1=C/CN(C)CC1)cccc2
InChI
InChI=1S/C12H15N/c1-13-9-7-12(8-10-13)11-5-3-2-4-6-11/h2-7H,8-10H2,1H3 チェック
Key: PLRACCBDVIHHLZ-UHFFFAOYSA-N チェック
InChI=1/C12H15N/c1-13-9-7-12(8-10-13)11-5-3-2-4-6-11/h2-7H,8-10H2,1H3
Key: PLRACCBDVIHHLZ-UHFFFAOYAV
特性
化学式 C12H15N
モル質量 173.25 g mol−1
外観明るい黄色の結晶[1]
融点
40 °C, 313 K, 104 °F

沸点
128-132 °C, 401-405 K, 262-270 °F (12 Torr[2])

水への溶解度 Slightly soluble
危険性
NFPA 704
NFPA 704.svg040
特記なき場合、データは常温 (25 °C)・常圧 (100 kPa) におけるものである。

麻薬中毒患者が自分で合成した麻薬を用いたところ、パーキンソン病様症状を示した事がきっかけに見入出された（この患者は合成オピオイドの一種であるデスメチルプロジン（英語版）（1-メチル-4-フェニル-4-プロピオノキシピペリジン、MPPP）を合成したが、一部手順を省略したために不純物としてMPTPが生成してしまった）。パーキンソン病のモデル動物の作成に用いられるが、揮発しやすく、毒性が高いため、取り扱いは注意を要する。次亜塩素酸により分解される。

単体の他に塩酸塩（CAS登録番号:23007-85-4）が実験用に市販されている。

黒質網様部（こくしつもうようぶ substantia nigra pars reticulata）はGABA作動性ニューロンを高密度に含む神経核であり、淡蒼球内節と同様、大脳基底核の出力核であるとみなされている。高頻度の発火を持続しているのが特徴とされる。線条体からの直接路出力によって黒質網様部の発火が一時的に抑制され、黒質網様部の投射先の活動を脱抑制することが、運動の開始に重要だという見方が一般的である。投射繊維は視床の一部などへ出力する。黒質網様部への主な入力は、線条体からのGABA入力（直接路）、淡蒼球内節からのGABA入力（間接路）、視床下核からのグルタミン酸入力などである。

黒質網様部のニューロンは、緻密部に比較すると、細胞の分布密度が低い。緻密部のドーパミン作動性ニューロンよりも、淡蒼球のニューロンに形態は類似している。網様部ニューロンは線条体または淡蒼球外節からのGABA作動性入力を受けると共に、視床下核からのグルタミン酸入力も受けている。多くの網様部ニューロンはGABA作動性であり、主軸索を運動性の視床核（VA核）へ投射する。VA核ニューロンはグルタミン酸作動性であり、運動性の皮質領野へ軸索を投射している。また、上丘や脚橋被蓋核など脳幹の一部にも出力する。

強化学習(きょうかがくしゅう, Reinforcement Learning)とは、ある環境内におけるエージェントが、現在の状態を観測し、取るべき行動を決定する問題を扱う機械学習の一種。エージェントは行動を選択することで環境から報酬を得る。強化学習は一連の行動を通じて報酬が最も多く得られるような方策(policy)を学習する。代表的な手法としてTD学習やQ学習が知られている。

最も基本的なモデルでは、ここでの環境は、有限状態数のマルコフ決定過程として定式化される。また、強化学習のアルゴリズムは動的計画法に類似したアルゴリズムである。

マルコフ決定過程 (Markov decision process; MDP) での強化学習は以下の条件の中、学習していく。

環境は状態を持ち、それは完全に正確に観測可能。
エージェントが行動を行うと、環境が確率的に状態遷移し、環境から確率的に報酬が得られる。その遷移確率と報酬が得られる確率は事前には与えられず、学習過程で学習していく。
報酬の指数移動平均を最大化するように行動する。
環境が完全・正確には観測可能でない場合は、部分観測マルコフ決定過程 (POMDP) という。

基本的なモデルでは、環境の状態や行動は離散であるが、連続とするモデルもある。

ヒトを含む高等生物は強化学習を行っていると思われる。神経科学においては、Schultzらが、黒質緻密部のドーパミン作動性ニューロンから電気記録をとり、その位相性の発火が報酬予測誤差信号をコードしていることを示唆して以来、哺乳類の脳において大脳基底核はドーパミンを介した強化学習を行う神経回路であるという仮説が有力視されている。

移動平均は、時系列データ（より一般的には時系列に限らず系列データ）を平滑化する手法である。金融（特にテクニカル分析）分野をはじめ、気象、水象などの計測分野で使われる。有限インパルス応答に対するローパスフィルタ（デジタルフィルタ）の一種であり、分野によっては移動積分とも呼ばれる。

主要なものは、単純移動平均と加重移動平均と指数移動平均の3種類である。普通、移動平均といえば、単純移動平均のことをいう。

単純移動平均 (英: Simple Moving Average; SMA) は、直近の n 個のデータの重み付けのない単純な平均である。例えば、10日間の終値の単純移動平均とは、直近の10日間の終値の平均である。それら終値を
p
M
p_{{M}},
p
M
−
1
p_{{M-1}}, ...,
p
M
−
9
p_{{M-9}} とすると、単純移動平均 SMA(p,10) を求める式は次のようになる:

SMA
M
=
p
M
+
p
M
−
1
+
⋯
+
p
M
−
9
10
{\text{SMA}}_{{M}}={p_{{M}}+p_{{M-1}}+\cdots +p_{{M-9}} \over 10}
翌日の単純移動平均を求めるには、新たな終値を加え、一番古い終値を除けばよい。つまり、この計算では、改めて総和を求め直す必要はない[1]。

SMA
t
o
d
a
y
=
SMA
y
e
s
t
e
r
d
a
y
−
p
M
−
n
+
1
n
+
p
M
+
1
n
{\text{SMA}}_{{\mathrm {today}}}={\text{SMA}}_{{\mathrm {yesterday}}}-{p_{{M-n+1}} \over n}+{p_{{M+1}} \over n}
テクニカル分析では様々な n の値が使われる（5、22、55、200など）[2]。期間の選択は注目している動きの種類に依存する。すなわち短期間の動きなのか、中期間の動きなのか、長期間の動きなのか、である。いずれにしても、移動平均線は、市場が上昇傾向（ブルマーケット）にある場合はサポートとして働き、下降傾向（ベアマーケット）にある場合はレジスタンスとして働く。

一般に移動平均線は実際の動きから少し遅れて平滑化した上で追随する。SMA をあまりに長期間の平均を取るようにすると、現在の平均的な価格からかけ離れた古い価格の影響を受けすぎることがある。これに対処するために考案された、最近の価格に大きな重み付けを与える方式として、後述するWMAとEMAがある。

SMAの特徴として、データに周期的変動があるとき、その周期でSMAを求めると周期が平滑化される。しかし、経済や金融では完全な周期的変動が生じることはほとんどない[3]。

加重平均とは、個々のデータに異なる重みをつけて平均を計算するものである。単に加重移動平均 (英: Weighted Moving Average; WMA) と言った場合、線形加重移動平均 (英: Linear Weighted Moving Average; LWMA) のことを指し、重みを徐々に線形に（一定量ずつ）減らす手法を指す。n 日間の WMA では、最も現在に近い日の重みを n とし、その前日を n-1、…… のように重みを減らしていって、最終的にゼロにする。

WMA
M
=
n
p
M
+
(
n
−
1
)
p
M
−
1
+
⋯
+
2
p
M
−
n
+
2
+
p
M
−
n
+
1
n
+
(
n
−
1
)
+
⋯
+
2
+
1
{\text{WMA}}_{{M}}={np_{{M}}+(n-1)p_{{M-1}}+\cdots +2p_{{M-n+2}}+p_{{M-n+1}} \over n+(n-1)+\cdots +2+1}

WMA の重み付け N=15 の場合
翌日の WMA を計算するには、
WMA
M
+
1
{\text{WMA}}_{{M+1}} と
WMA
M
{\text{WMA}}_{{M}} の分子 (numerator) の差分が
n
p
M
+
1
−
p
M
−
⋯
−
p
M
−
n
+
1
np_{{M+1}}-p_{{M}}-\cdots -p_{{M-n+1}} であることに注目する。ここで、n 日間の総和
p
M
+
⋯
+
p
M
−
n
+
1
p_{{M}}+\cdots +p_{{M-n+1}} を
Total
M
{\text{Total}}_{{M}} で表すと、次のようになる:

Total
M
+
1
=
Total
M
+
p
M
+
1
−
p
M
−
n
+
1
{\text{Total}}_{{M+1}}={\text{Total}}_{{M}}+p_{{M+1}}-p_{{M-n+1}}
Numerator
M
+
1
=
Numerator
M
+
n
p
M
+
1
−
Total
M
{\text{Numerator}}_{{M+1}}={\text{Numerator}}_{{M}}+np_{{M+1}}-{\text{Total}}_{{M}}
WMA
M
+
1
=
Numerator
M
+
1
n
+
(
n
−
1
)
+
⋯
+
2
+
1
{\text{WMA}}_{{M+1}}={{\text{Numerator}}_{{M+1}} \over n+(n-1)+\cdots +2+1}
この分母は三角数であり、
n
(
n
+
1
)
2
{n(n+1) \over 2} として簡単に計算できる。

上図は、WMA での重みがどのように変化（減少）するかを示したものである。次節の指数平滑移動平均での重みと比較するとよい。

指数移動平均(英: Exponential Moving Average; EMA) では、指数関数的に重みを減少させる。指数加重移動平均 (英: Exponentially Weighted Moving Average; EWMA)、指数平滑移動平均 (英: Exponentially Smoothed Moving Average) とも呼ばれる。重みは指数関数的に減少するので、最近のデータを重視するとともに古いデータを完全には切り捨てない（重みは完全にゼロにはならない）。右図は、重みの減少する様子を表したものである。なお、EMA は移動平均とは呼べないとする立場もあり、その場合は指数平滑平均 (英: Exponential Average) と呼ぶ。

重みの減少度合いは平滑化係数と呼ばれる 0 と 1 との間の値をとる定数 α で決定される。α は百分率で表現されることもあり、平滑化係数が 10% というのは α=0.1 と同じことを表している。αを時系列区間 N で表すこともあり、その場合は
α
=
2
N
+
1
\alpha ={2 \over {N+1}} となる。例えば、N=19 なら α=0.1 となる。重みの半減期（重みが0.5以下となる期間）は、約 N/2.8854 である（N＞5 のとき1％の精度で）。

時系列上のある時点 t の値を Yt で表し、ある時点 t での EMA を St で表す。S1 は定義しない。S2 の値をどう設定するかにはいくつかの手法があり、S2 の値を Y1 とすることが多いが、S2 を時系列上の最初の4つか5つのデータの平均とすることもある。α が小さい場合、S2 をどう設定するかは比較的重要であるが、αが大きい場合は（古い値の重みが小さくなるので）重要ではない。

t≧3 の場合の EMA の計算式は次のとおりである。[4]

S
t
=
α
×
Y
t
−
1
+
(
1
−
α
)
×
S
t
−
1
S_{{t}}=\alpha \times Y_{{t-1}}+(1-\alpha )\times S_{{t-1}}
この計算式は Hunter (1986)によるものである[5]。各データの重みは、
α
(
1
−
α
)
x
Y
t
−
(
x
+
1
)
\alpha (1-\alpha )^{x}Y_{{t-(x+1)}} になる。Roberts (1959) では Yt-1 の代わりに Yt を使っていた[6]。

この式をテクニカル分析の用語を使って表すと次のようになる。用語が異なるだけで同じ式である

EMA
t
o
d
a
y
=
EMA
y
e
s
t
e
r
d
a
y
+
α
×
(
price
t
o
d
a
y
−
EMA
y
e
s
t
e
r
d
a
y
)
{\text{EMA}}_{{\mathrm {today}}}={\text{EMA}}_{{\mathrm {yesterday}}}+\alpha \times ({\text{price}}_{{\mathrm {today}}}-{\text{EMA}}_{{\mathrm {yesterday}}})
この式で
EMA
y
e
s
t
e
r
d
a
y
{\text{EMA}}_{{\mathrm {yesterday}}} を展開すると次式のようなべき級数となり、各時点の価格 p1, p2, …… が指数関数的に重み付けされている。

EMA
M
=
α
×
(
p
M
+
(
1
−
α
)
p
M
−
1
+
(
1
−
α
)
2
p
M
−
2
+
⋯
)
{\text{EMA}}_{{M}}=\alpha \times \left(p_{{M}}+(1-\alpha )p_{{M-1}}+(1-\alpha )^{2}p_{{M-2}}+\cdots \right)[7]
理論上これは総和であるが、1-α が 1より小さいので、項はどんどん小さくなって、ある項から先は無視できる大きさになる。

N 日間の EMA といった場合の N は単に係数αを示すに過ぎず、実際の計算は N 日間のデータだけでは済まない。ただし、直近の N 日間のデータが EMA において 86 ％の重みをもつ。証明：

α
×
(
1
+
(
1
−
α
)
+
(
1
−
α
)
2
+
⋯
+
(
1
−
α
)
N
)
α
×
(
1
+
(
1
−
α
)
+
(
1
−
α
)
2
+
⋯
+
(
1
−
α
)
∞
)
=
1
−
(
1
−
2
N
+
1
)
N
+
1
{{\alpha \times \left(1+(1-\alpha )+(1-\alpha )^{2}+\cdots +(1-\alpha )^{N}\right)} \over {\alpha \times \left(1+(1-\alpha )+(1-\alpha )^{2}+\cdots +(1-\alpha )^{\infty }\right)}}=1-{\left(1-{2 \over N+1}\right)}^{{N+1}}
（左辺の分母は1であり、分子の等比数列の和が右辺の形になる[8]。）この極限値は、
lim
N
→
∞
[
1
−
(
1
−
2
N
+
1
)
N
+
1
]
\lim _{{N\to \infty }}\left[1-\left(1-{2 \over N+1}\right)^{{N+1}}\right] = 1-e-2 ≒ 0.8647
になる[9]（e はネイピア数）。
実際には、上のべき級数の式を使って最初のある日までの EMA を計算し、その翌日以降は最初のほうで示した式を使えばよい。

初期値の問題に戻る。古いデータに極めて大きな値があった場合、たとえその重みが小さくても全体には大きな影響を与える。そういう場合には、価格変動がそれほど大きくないと仮定できるなら、重みだけを考慮してある項目数 k までで計算を打ち切ればよい。このとき、省略される項の重みは

α
×
(
(
1
−
α
)
k
+
(
1
−
α
)
k
+
1
+
(
1
−
α
)
k
+
2
+
⋯
)
\alpha \times \left((1-\alpha )^{k}+(1-\alpha )^{{k+1}}+(1-\alpha )^{{k+2}}+\cdots \right)
=
α
×
(
1
−
α
)
k
×
(
1
+
(
1
−
α
)
+
(
1
−
α
)
2
+
⋯
)
=\alpha \times (1-\alpha )^{k}\times \left(1+(1-\alpha )+(1-\alpha )^{2}+\cdots \right)
=
(
1
−
α
)
k
=(1-\alpha )^{k}
となる。すなわち、全体の重み 1 に対して
(
1
−
α
)
k
(1-\alpha )^{k} に相当する部分が省略されることになる。

例えば、99.9 ％の重み（精度）で計算したい場合には、計算する項目数を
k
=
log
⁡
(
0.001
)
log
⁡
(
1
−
α
)
k={\log(0.001) \over \log(1-\alpha )} とすればよい。
log
(
1
−
α
)
\log \,(1-\alpha ) は N が増えるに従って
−
α
=
−
2
N
+
1
-\alpha ={-2 \over {N+1}} に近づいていく[10]から、N が大きいときは
k
=
3.45
(
N
+
1
)
k=3.45(N+1) [11]とすればほぼ 99.9% の精度となる。

なお、
α
=
2
N
+
1
\alpha ={2 \over {N+1}} ではなく
α
=
1
N
\alpha ={1 \over {N}} とする EMA もある（次節）。

修正移動平均 (Modified Moving Average; MMA) は、Running Moving Average (RMA)、平滑移動平均 (Smoothed Moving Average) などと呼ばれる。

定義は次式による。

MMA
t
o
d
a
y
=
(
N
−
1
)
×
MMA
y
e
s
t
e
r
d
a
y
+
price
N
{\text{MMA}}_{{\mathrm {today}}}={(N-1)\times {\text{MMA}}_{{\mathrm {yesterday}}}+{\text{price}} \over {N}}
要するに、
α
=
1
N
\alpha ={1 \over {N}} とした指数移動平均である。

Triangular Moving Average (TMA)。三角形移動平均ともいう。単純移動平均を2回適応したものである。

定義は以下のとおり。w は (N+1)/2 の切り上げとする。

TMA
=
SMA
(
SMA
(
price
,
w
)
,
w
)
{\text{TMA}}={\text{SMA}}({\text{SMA}}({\text{price}},w),w)
重みのグラフが二等辺三角形となる。w - 1 日前に最も大きな重みがかかる。

Sine Weighted Moving Average (SWMA)。加重移動平均において、重みのかけ方に正弦波（三角関数）を利用する。線形加重移動平均に近い
cos
\cos を利用する方法と、三角移動平均に近い
sin
\sin を利用する方法がある。

Cumulative moving Average (CA)。全期間の平均をとった移動平均。

定義は次式のとおり。

CA
i
=
x
1
+
⋯
+
x
i
i
{\text{CA}}_{i}={{x_{1}+\cdots +x_{i}} \over i} [12]

より一般化し、重みを任意に決めたものは、移動平均とは呼ばれず、畳み込みやFIRフィルタリングなどと呼ばれることが多い。

しかし、「自己回帰移動平均モデル」の「移動平均」は、この一般化した意味である。

単純移動平均より良好な周波数特性を得るため、単純移動平均を数回繰り返すことがある。この操作によってかけられるフィルタをコルモゴロフ・ズルベンコ・フィルタ (Kolmogorov-Zurbenko filter、KZフィルタ) という。

回数を十分増やすと、KZフィルタのインパルス応答はガウス関数に漸近する。

ガウス関数（ガウスかんすう、Gaussian function）は、

a
exp
⁡
{
−
(
x
−
b
)
2
2
c
2
}
a\exp \left\{-{\frac {(x-b)^{2}}{2c^{2}}}\right\}

の形の初等関数である。なお、2c2 のかわりに c2 とするなど、表し方にはいくつかの変種がある。

ガウシアン関数、あるいは単にガウシアンとも呼ばれる。

図のような釣鐘型の関数である。

正規分布関数（正規分布の確率密度関数）として知られる

1
2
π
σ
exp
⁡
{
−
(
x
−
μ
)
2
2
σ
2
}
{\frac {1}{{\sqrt {2\pi }}\sigma }}\exp \left\{-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}\right\}

は、ガウス関数の1種である。

ガウス関数の1つ exp (-x2) の両側無限積分はガウス積分と呼ばれ、

∫
−
∞
∞
exp
⁡
(
−
x
2
)
d
x
=
π
\int _{{-\infty }}^{\infty }\exp({-x^{2}})dx={\sqrt {\pi }}

である。

ガウス関数の半値半幅 (HWHM) と半値全幅 (FWHM) は、

H
W
H
M
=
2
ln
⁡
2
⋅
σ
{{\rm {HWHM}}}={\sqrt {2\ln 2}}\cdot \sigma
F
W
H
M
=
2
2
ln
⁡
2
⋅
σ
{{\rm {FWHM}}}=2{\sqrt {2\ln 2}}\cdot \sigma

である。

光学分野においては、超短パルスの波形をガウス関数に近似することが多い。

半値幅（はんちはば、half width）は、山形の関数の広がりの程度を表す指標。半値全幅 (はんちぜんはば、full width at half maximum, FWHM) と、その半分の値の半値半幅 (half width at half maximum, HWHM) とがある。単に半値幅と言うと半値全幅のことが多い。

関数 f(x) が、ある箇所の前後で山形の局所的応答を示しているとする。尚、f(x) が不連続な場合などは考えない。もし不連続なときは、近似的な連続関数を考える。

f(x) を、ベースライン関数 b(x) と局所的応答関数 g(x) の和

f(x) = b(x) + g(x)
で表す。山形の広がりの成分は g(x) に含まれ、十分大きい x と十分小さい x （あるいは、±∞ への極限）に対し g(x) = 0 となる。

なお、十分大きい x と十分小さい x に対し f(x) = 0 なら、b(x) = 0 とみなし、

f(x) = g(x)
とすることができる。実用上は、f(x) が上の条件を満たさなくてもこうすることがある。

g(x) の最大値を gmax = g(xmax) とすると、g(x) = gmax/2 を満たす x が2つ以上存在する（g(x) が単峰性なら xmax の左右に1つずつ存在する）。g(x) = gmax/2 を満たす最小の x を x1、最大の x を x2 とすると、x2 - x1 が半値全幅、(x2 - x1)/ 2 が半値半幅である。

編集このページをウォッチする別の言語で閲覧
半値幅

半値全幅 (FWHM)
半値幅（はんちはば、half width）は、山形の関数の広がりの程度を表す指標。半値全幅 (はんちぜんはば、full width at half maximum, FWHM) と、その半分の値の半値半幅 (half width at half maximum, HWHM) とがある。単に半値幅と言うと半値全幅のことが多い。

定義編集

f(x) を、ベースライン関数 b(x) と局所的応答関数 g(x) の和

f(x) = b(x) + g(x)
で表す。山形の広がりの成分は g(x) に含まれ、十分大きい x と十分小さい x （あるいは、±∞ への極限）に対し g(x) = 0 となる。

なお、十分大きい x と十分小さい x に対し f(x) = 0 なら、b(x) = 0 とみなし、

f(x) = g(x)
とすることができる。実用上は、f(x) が上の条件を満たさなくてもこうすることがある。

半値幅の例編集

標準偏差 σ の正規分布の半値幅は、

F
W
H
M
=
2
2
ln
⁡
2
σ
≈
2.354820
σ
{\rm FWHM} = 2 \sqrt{2 \ln 2}\; \sigma \approx 2.354820 \; \sigma
H
W
H
M
=
2
ln
⁡
2
σ
≈
1.177410
σ
{\rm HWHM} = \sqrt{2 \ln 2}\; \sigma \approx 1.177410 \; \sigma

である。

双曲線正割関数 sech x の半値幅は、

F
W
H
M
=
2
Sech
−
1
⁡
1
2
=
2
ln
⁡
(
2
+
3
)
≈
2.633916
{\rm FWHM} = 2 \; \operatorname{Sech}^{-1} \frac{1}{2} = 2 \ln (2 + \sqrt{3}) \approx 2.633916
H
W
H
M
=
Sech
−
1
⁡
1
2
=
ln
⁡
(
2
+
3
)
≈
1.316958
{\rm HWHM} = \operatorname{Sech}^{-1} \frac{1}{2} = \ln (2 + \sqrt{3}) \approx 1.316958

である。

幅 a の矩形関数の半値幅は、

FWHM = a
HWHM = a/2
である。なおこのばあい、「半」値でなくても常にこの幅になるので、単に「全幅」「半幅」とも言う。

Q学習（-がくしゅう、英: Q-learning）は、機械学習分野における強化学習の一種である。

Q学習は機械学習手法の方策オフ型TD学習の一つである。概念自体は古くから存在するが、Q学習（Q-learning）という名前で今日の手法がまとめられたのは、1989年のクリス・ワトキンズ（Chris Watkins）の論文に端を発する。

Q学習は有限マルコフ決定過程において全ての状態が十分にサンプリングできるようなエピソードを無限回試行した場合、最適な評価値に収束することが理論的に証明されている。実際の問題に対してこの条件を満たすことは困難ではあるが、この証明はQ学習の有効性を示す要素の一つとして挙げられる。

Q学習では実行するルールに対しそのルールの有効性を示す Q値という値を持たせ、エージェントが行動するたびにその値を更新する。ここでいうルールとはある状態とその状態下においてエージェントが可能な行動を対にしたものである。例えばエージェントの現在の状態を st とし、この状態で可能な行動が a, b, c, d　の4通りあるとする。この時エージェントは 4つの Q値、 Q(st , a)、Q(st , b)、Q(st , c)、Q(st , d)を元に行う行動を決定する。行動の決定方法は理論上では無限回数試行するならランダムでも Q値の収束は証明されているが、現実には収束を早めるため、なるべく Q値の大きな行動が高確率で選ばれるように行う。選択方法としては、ある小さな確率εでランダムに選択し、それ以外では Q値の最大の行動を選択する ε-グリーディ手法や、遺伝的アルゴリズムで使用されているルーレット選択、以下のようなボルツマン分布を利用したソフトマックス手法などが使用されている。

π
(
s
,
a
)
=
exp
⁡
(
Q
(
s
,
a
)
/
T
)
∑
p
∈
A
exp
⁡
(
Q
(
s
,
p
)
/
T
)
\pi (s,a)={\frac {\exp(Q(s,a)/T)}{\sum _{{p\in A}}\exp(Q(s,p)/T)}}
ここで T は正の定数、A は状態 s でエージェントが可能な行動の集合である。

行動を決定した場合、次にその状態と行動の Q値を更新する。例として状態 st のエージェントが行動 a を選び、状態が st+1 に遷移したとする。このとき Q(st , a)を次の式で更新する。

Q
(
s
t
,
a
)
←
Q
(
s
t
,
a
)
+
α
[
r
t
+
1
+
γ
max
p
Q
(
s
t
+
1
,
p
)
−
Q
(
s
t
,
a
)
]
Q(s_{t},a)\leftarrow Q(s_{t},a)+\alpha \left[r_{{t+1}}+\gamma \max _{p}Q(s_{{t+1}},p)-Q(s_{t},a)\right]
ここでαは学習率といい後述する条件を満たす数値であり、γは割引率といい 0 以上 1 以下の定数である。また rt+1 はエージェントが st+1 に遷移したときに得た報酬である。上記の更新式は現在の状態から次の状態に移ったとき、そのQ値を次の状態で最も Q値の高い状態の値に近づけることを意味している。このことにより、ある状態で高い報酬を得た場合はその状態に到達することが可能な状態にもその報酬が更新ごとに伝播することになる。これにより、最適な状態遷移の学習が行われる。

Q学習は学習率αが以下の条件を満たすとき、全ての Q値は確率 1 で最適な値に収束することが証明されている。

∑
t
=
0
∞
α
(
t
)
→
∞
\sum _{{t=0}}^{{\infty }}\alpha (t)\to \infty
∑
t
=
0
∞
α
(
t
)
2
<
∞
\sum _{{t=0}}^{{\infty }}\alpha (t)^{2}<\infty
この性質のため Q学習に関する多くの研究がなされているが、いくつかの問題点も指摘されている。例えば Q学習による理論的保証は値の収束性のみであり、収束途中の値には具体的な合理性が認められないため学習途中の結果を近似解として用いにくい、パラメータの変化に敏感でありその調整に多くの手間が必要である、などがある。

マルコフ決定過程 (マルコフけっていかてい、Markov Decision Process; MDP) は、状態遷移が確率的に生じる動的システム（確率システム）の確率モデルであり、状態遷移がマルコフ性を満たすものをいう。 MDP は不確実性を伴う意思決定のモデリングにおける数学的枠組みとして、強化学習など動的計画法が適用される幅広い最適化問題の研究に活用されている。 MDP は少なくとも1950年代には知られていた[1]が、研究の中核は1960年に出版された Ronald A. Howard の "Dynamic Programming and Markov Processes" に起因する[2]。 MDP はロボット工学や自動制御、経済学、製造業を含む幅広い分野で用いられている。

マルコフ決定過程は離散時間における確率制御過程 (stochastic control process) である。各時刻において過程 (process) はある状態 (state) を取り、意思決定者 (decision maker) はその状態において利用可能な行動 (action) を任意に選択する。その後過程はランダムに新しい状態へと遷移し、その際に意思決定者は状態遷移に対応した報酬 (reward) を受けとる。

遷移後の状態
s
′
{\displaystyle s'} 、および得られる報酬の値
r
r は現在の状態
s
s と行動
a
a のみに依存し、
s
s と
a
a が与えられたもとでそれより過去の状態および行動と条件付き独立となる。言い換えると、マルコフ決定過程の状態遷移はマルコフ性を満たす。

マルコフ決定過程はマルコフ連鎖に（選択可能な）行動、および（行動を計画する動機を与える）報酬を追加し拡張したものであると解釈できる。逆に言えば、各ステップにとる行動がそのステップにおける状態のみ依存するとき、マルコフ決定過程は等価なマルコフ連鎖に置き換えることが出来る。

有限マルコフ決定過程 (finite Markov decision process; finite MDP) は4つの要素の組
⟨
S
,
A
,
T
,
R
⟩
{\textstyle {\big \langle }S,A,T,R{\big \rangle }}で表される。ここで各要素はそれぞれ次を意味する。

S
=
{
s
1
,
s
2
,
…
,
s
N
}
{\displaystyle S=\{s^{1},s^{2},\ldots ,s^{N}\}} : 状態の有限集合
A
=
{
a
1
,
a
2
,
…
,
a
K
}
{\displaystyle A=\{a^{1},a^{2},\ldots ,a^{K}\}} : 行動の有限集合
T
:
S
×
A
×
S
→
[
0
,
1
]
{\displaystyle T:S\times A\times S\to [0,1]} : 遷移関数 (transition function)
R
:
S
×
A
×
S
→
R
{\displaystyle R:S\times A\times S\to \mathbb {R} } : 報酬関数 (reward function)
遷移関数
T
(
s
,
a
,
s
′
)
{\displaystyle T(s,a,s')} は状態
s
s にあり行動
a
a を取ったときの状態
s
′
{\displaystyle s'} への状態遷移確率
T
(
s
,
a
,
s
′
)
=
Pr
(
s
t
+
1
=
s
′
|
s
t
=
s
,
a
t
=
a
)
{\displaystyle T(s,a,s')=\Pr(s_{t+1}=s'|s_{t}=s,a_{t}=a)} である。また報酬関数
R
(
s
,
a
,
s
′
)
{\displaystyle R(s,a,s')} は状態
s
s から
s
′
{\displaystyle s'} に行動
a
a を伴い遷移する際に得られる即時報酬 (immediate reward) 、またはその期待値
E
[
r
t
+
1
|
s
,
a
,
s
′
]
{\displaystyle \mathbb {E} [r_{t+1}|s,a,s']} を表す。

MDP における基本的な問題設定は、現在の状態が
s
s が与えられたときに意思決定者の取る行動
a
∈
A
{\displaystyle a\in A} を既定する政策 (policy) を求めることである。政策は通常
s
,
a
{\displaystyle s,a} の条件付き分布
P
(
a
|
s
)
{\displaystyle P(a|s)} として規定され、状態
s
s に行動
a
a を取る確率を
π
(
s
,
a
)
{\displaystyle \pi (s,a)} と表記する。

政策を求める際に用いられるゴール（目的関数）は、典型的には現在時刻から無限区間先の未来までにおける「割引された」報酬の累積値が用いられる:

∑
t
=
0
∞
γ
t
r
t
+
1
where

a
t
=
π
(
s
t
)
{\displaystyle \sum _{t=0}^{\infty }\gamma ^{t}r_{t+1}\quad {\text{where}}\ a_{t}=\pi (s_{t})}
ここで
γ
∈
[
0
,
1
]
{\displaystyle \gamma \in [0,1]} は割引因子 (discount factor) と呼ばれる値であり、現在の報酬と未来の報酬との間における重要度 (importance) の差異を表している。状態が確率的に遷移することから上の値は確率変数となるため、通常はその期待値が用いられる。

MDP は線形計画法または動的計画法で解くことができる。ここでは後者によるアプローチを示す．

いま，ある（定常な）政策
π
\pi を採用した場合における割引報酬和
V
π
(
s
)
=
E
π
[
∑
t
=
0
∞
γ
t
r
t
+
1

|
s
0
=
s
]
{\textstyle V^{\pi }(s)=\mathbb {E} _{\pi }[\sum _{t=0}^{\infty }\gamma ^{t}r_{t+1}\ |s_{0}=s]} は現在の状態
s
s のみに依存し、これを状態価値関数 (state-value function) と呼ぶ（
E
π
[
⋅
]
{\displaystyle \mathbb {E} _{\pi }[\cdot ]} は政策
π
\pi の下での条件付き期待値）。この状態価値関数
V
π
(
s
)
{\displaystyle V^{\pi }(s)} は次式を満たす。

V
π
(s) =
∑
a
∈
A
π(s,a)
∑
s
′
∈
S
T(s,a,
s
′
)
(
R(s,a,
s
′
)+γ
V
π
(
s
′
)
)
=
R
π
(s)+γ
∑
a
∈
A
∑
s
′
∈
S
π(s,a)T(s,a,
s
′
)
V
π
(
s
′
)
{\displaystyle {\begin{aligned}V^{\pi }(s)&=\sum _{a\in A}\pi (s,a)\sum _{s'\in S}T(s,a,s'){\Big (}R(s,a,s')+\gamma V^{\pi }(s'){\Big )}\\&=R^{\pi }(s)+\gamma \sum _{a\in A}\sum _{s'\in S}\pi (s,a)T(s,a,s')V^{\pi }(s')\end{aligned}}}
ただし
R
π
(
s
)
=
∑
a
∈
A
∑
s
′
∈
S
π
(
s
,
a
)
T
(
s
,
a
,
s
′
)
R
(
s
,
a
,
s
′
)
{\textstyle R^{\pi }(s)=\sum _{a\in A}\sum _{s'\in S}\pi (s,a)T(s,a,s')R(s,a,s')} は状態
s
s において政策
π
\pi を採用した場合における即時報酬の期待値である。
任意の
π
′
{\displaystyle \pi '} および
s
∈
S
s\in S に対し
V
π
∗
(
s
)
≥
V
π
′
(
s
)
{\displaystyle V^{\pi ^{*}}(s)\geq V^{\pi '}(s)} を満たす政策
π
∗
{\displaystyle \pi ^{*}} を最適政策 (optimal policy) と呼ぶ。
π
∗
{\displaystyle \pi ^{*}}を採用したときの状態価値関数の最大値
V
∗
(
s
)
=
max
π
V
π
(
s
)
{\displaystyle V^{*}(s)=\max _{\pi }V^{\pi }(s)} は次のベルマン方程式を満たす[3]．

V
∗
(
s
)
=
max
a
∈
A
∑
s
′
∈
S
T
(
s
,
a
,
s
′
)
(
R
(
s
,
a
,
s
′
)
+
γ
V
∗
(
s
′
)
)

価値反復法 (value iteration)[1]は後ろ向き帰納法 (backward induction) とも呼ばれ、ベルマン方程式を満たす価値関数を繰り返し計算により求める。ロイド・シャープレーが1953年に発表した確率ゲーム（英語版）に関する論文[4]には価値反復法の特殊な場合が含まれるが、このことが認知されたのは後になってからである[5]．

ステップ
i
iにおける価値関数の計算結果を
V
i
(
s
)
{\displaystyle V_{i}(s)} と表記すると、価値反復法における更新式はつぎのように記述される:

V
i
+
1
(
s
)
←
max
a
∈
A
s
∑
s
′
∈
S
T
(
s
,
a
,
s
′
)
(
R
(
s
,
a
,
s
′
)
+
γ
V
i
(
s
′
)
)
∀
s
∈
S
{\displaystyle V_{i+1}(s)\leftarrow \max _{a\in A_{s}}\sum _{s'\in S}T(s,a,s'){\Big (}R(s,a,s')+\gamma V_{i}(s'){\Big )}\quad \forall s\in S}
上式をすべての状態において値が収束するまで繰り返したときの値を
V
∞
(
s
)
{\displaystyle V^{\infty }(s)} とし、最適政策
π
∗
{\displaystyle \pi ^{*}} を次式で求める。

π
∗
(
s
)
←
arg
⁡
max
a
∈
A
s
∑
s
′
∈
S
T
(
s
,
a
,
s
′
)
(
R
(
s
,
a
,
s
′
)
+
γ
V
∞
(
s
′
)
)
∀
s
∈
S
{\displaystyle \pi ^{*}(s)\leftarrow \arg \max _{a\in A_{s}}\sum _{s'\in S}T(s,a,s'){\Big (}R(s,a,s')+\gamma V^{\infty }(s'){\Big )}\quad \forall s\in S}

政策反復法 (policy iteration)[2]では、政策固定の下で行われる価値関数の更新 (policy evaluation) と、価値関数固定のもとで行われる政策の更新 (policy improvement) を交互に行うことで最適政策を求める。

次の線形方程式を解き、価値関数を更新する
V
π
(
s
)
=
R
π
(
s
)
+
γ
∑
a
∈
A
∑
s
′
∈
S
π
(
s
,
a
)
T
(
s
,
a
,
s
′
)
V
π
(
s
′
)
{\displaystyle V^{\pi }(s)=R^{\pi }(s)+\gamma \sum _{a\in A}\sum _{s'\in S}\pi (s,a)T(s,a,s')V^{\pi }(s')}

政策を次式で更新する
π
(
s
)
←
arg
⁡
max
a
∈
A
s
∑
s
′
∈
S
T
(
s
,
a
,
s
′
)
(
R
(
s
,
a
,
s
′
)
+
γ
V
π
(
s
′
)
)
∀
s
∈
S
{\displaystyle \pi (s)\leftarrow \arg \max _{a\in A_{s}}\sum _{s'\in S}T(s,a,s'){\Big (}R(s,a,s')+\gamma V^{\pi }(s'){\Big )}\quad \forall s\in S}

これらの操作を
π
\pi がすべての状態に対し変化しなくなるまで繰り返すことで、最適政策を得る。政策反復法は離散値を取る政策の値が変化しなくなるという明確な終了条件を持つため有限時間でアルゴリズムが終了するという利点を持つ。

MDP では政策
π
(
s
)
{\displaystyle \pi (s)} を計算する際に現在の状態
s
s が既知であることを仮定している。実際には状態観測に不確実性が伴う場合などこの仮定が成り立たない場合が多く、このような場合の一般化として部分観測マルコフ決定過程 (Partially Observable Markov Decision Process; POMDP) が用いられる。

状態遷移確率
T
(
s
,
a
,
s
′
)
{\displaystyle T(s,a,s')} や報酬関数
R
(
s
,
a
,
s
′
)
{\displaystyle R(s,a,s')} が未知の場合，環境との相互作用を通じてこれらの情報を得ながら行動を決定する必要がしばしば生じる．このような問題は強化学習の枠組みで議論される[6]．

強化学習における代表的な学習アルゴリズムはQ学習と呼ばれるものである。 Q学習では、行動価値関数 (action-value function) と呼ばれる関数
Q
π
(
s
,
a
)
{\displaystyle Q^{\pi }(s,a)} に着目する。ここで
Q
π
(
s
,
a
)
{\displaystyle Q^{\pi }(s,a)} は次のように定義される:

Q
π
(
s
,
a
)
=
E
π
[
∑
t
=
0
∞
γ
t
r
t
+
1
|
s
0
=
s
,
a
0
=
a
]
{\displaystyle Q^{\pi }(s,a)=\mathbb {E} _{\pi }[\sum _{t=0}^{\infty }\gamma ^{t}r_{t+1}|s_{0}=s,a_{0}=a]}
いま，最適政策のもとでの行動価値関数
Q
∗
(
s
,
a
)
=
max
π
Q
π
(
s
,
a
)
{\displaystyle Q^{*}(s,a)=\max _{\pi }Q^{\pi }(s,a)} は
V
∗
(
s
)
=
max
a
Q
∗
(
s
,
a
)
{\displaystyle V^{*}(s)=\max _{a}Q^{*}(s,a)} を満たす。すなわち、
Q
∗
{\displaystyle Q^{*}} を学習することができれば（モデルのパラメータを直接求めることなく）最適政策を獲得することができる。 Q学習では、各試行における遷移前後の状態と入力、および試行で得られる即時報酬の実現値をもとに
Q
(
s
,
a
)
{\displaystyle Q(s,a)} の値を逐次更新する。実際の学習プロセスでは、すべての状態を十分サンプリングするため確率的なゆらぎを含むよう学習時の行動が選択される。

強化学習では最適化に必要なパラメータの学習を状態遷移確率・報酬関数を介することなくおこなうことが出来る（価値反復法や政策反復法ではそれらの明示的な仕様（各状態間の遷移可能性，報酬関数の関数形など）を与える必要がある）。状態数（および行動の選択肢）が膨大な場合、強化学習はしばしばニューラルネットワークなどの関数近似と組み合わせられる。

機械学習理論における MDP のもう一つの応用は学習オートマトン (Learning Automata) と呼ばれる。これは環境が確率的な挙動を示す場合における強化学習の一つでもある。学習オートマトンに関する最初の詳細な論文は 1974 年に Narendra と Thathachar によりまとめられた[7]（そこでは有限状態オートマトンと明示的に記載されている）。強化学習と同様，学習オートマトンのアルゴリズムも確率や報酬が未知の場合の問題を解くことができる。 Q学習の違いは，価値関数ではく学習の結果を探すために行動の確率を直接求めることである。学習オートマトンは収束性が厳密に証明されている[8]．

制約付きマルコフ決定過程 (Constrained Markov Decision Process; CMDP) はマルコフ決定過程の拡張である。 MDP と CMDP には3つの基本的な違いがある[9]:

ある行動をほかのものの代わりに適用した後で（複数の）コストが発生する
CMDP は線形計画法のみで解くことが出来る（動的計画法を用いることはできない）
終端時刻における政策が初期状態に依存する
CMDP の応用例は数多く存在し、最近ではロボット工学におけるモーションプランニングに用いられている[10]。

遺伝的アルゴリズム（いでんてきアルゴリズム、英語：genetic algorithm、略称：GA）とは、1975年にミシガン大学のジョン・H・ホランド（John Henry Holland）によって提案された近似解を探索するメタヒューリスティックアルゴリズムである。人工生命同様、偶然の要素でコンピューターの制御を左右する。4つの主要な進化的アルゴリズムの一つであり、その中でも最も一般的に使用されている。

遺伝的アルゴリズムはデータ（解の候補）を遺伝子で表現した「個体」を複数用意し、適応度の高い個体を優先的に選択して交叉（組み換え）・突然変異などの操作を繰り返しながら解を探索する。適応度は適応度関数によって与えられる。

この手法の利点は、評価関数の可微分性や単峰性などの知識がない場合であっても適用可能なことである。必要とされる条件は評価関数の全順序性と、探索空間が位相（トポロジー）を持っていることである。

また、遺伝子の表現の仕方によっては組合せ最適化問題やNP困難な問題などのさまざまな問題に適用可能である。

遺伝的アルゴリズムは一般に以下の流れで実装される。なお、下記では個体数を N, 最大世代数を G と置く。

あらかじめ N 個の個体が入る集合を二つ用意する。以下、この二つの集合を「現世代」、「次世代」と呼ぶことにする。
現世代に N 個の個体をランダムに生成する。
評価関数により、現世代の各個体の適応度をそれぞれ計算する。
ある確率で次の3つの動作のどれかを行い、その結果を次世代に保存する。
個体を二つ選択（選択方法は後述）して交叉（後述）を行う。
個体を一つ選択して突然変異（後述）を行う。
個体を一つ選択してそのままコピーする。
次世代の個体数が N 個になるまで上記の動作を繰り返す。
次世代の個体数が N 個になったら次世代の内容を全て現世代に移す。
3. 以降の動作を最大世代数 G 回まで繰り返し、最終的に「現世代」の中で最も適応度の高い個体を「解」として出力する。

遺伝的アルゴリズムでは一般的に次の遺伝的操作が用いられる。

選択（淘汰、再生）
交叉（組み換え）
突然変異
交叉する確率を交叉率、突然変異する確率を突然変異率という。一般には（交叉率）>>（突然変異率）とすることが望ましいとされる。また上記のアルゴリズムの流れからわかるとおり（交叉率）+（突然変異率）< 1である必要がある。

選択は生物の自然淘汰をモデル化したもので、適応度にもとづいて個体を増やしたり削除したりする操作である。選択のアルゴリズムには次のようなものがある。

ルーレット選択は個体 i を選ぶ確率を pi と置いたとき、

p
i
=
f
i
∑
k
=
1
N
f
k
p_i = \frac{f_i}{\sum^{N}_{k=1}f_k}
とする選択方式である。上記の式の fi は個体 i の適応度を表す。この方式はホランドが最初に提案したときに使われた選択方式であり、最も有名な選択方式であるが適応度が負の数を取らないことが前提になっている。また適応度が高いことが前提になっているため最小値を求める問題では使の適応度の格差が激しい場合は適応度の高い個体の選ばれる確率が非常に高くなり、初期収束（後述）の原因にもなる。このため、実際には適応度をスケーリングした値を使用することが多い。

ランキング選択は各個体を適応度によってランク付けして、「1位なら確率 p1, 2位なら確率 p2, 3位なら…」というふうにランクごとにあらかじめ確率を決めておく方式である。

この方法は、ルーレット選択と違い選択確率が適応度の格差に影響されない。しかし、これは逆に適応度にあまり差がない個体間でも選択確率に大きな差が生じる可能性がある。また、個体にランク付けをするため次世代が揃うたびにソートを行う必要がある。

トーナメント選択はあらかじめ決めた数（トーナメントサイズという）だけ集団の中からランダムで個体を取り出し、その中で最も適応度の高い個体を選択する方式である。トーナメントサイズを変更する事で選択圧をコントロールできる特徴がある。すなわち、トーナメントサイズを大きくする事で選択圧を高める事ができるが、初期収束による局所（的）最適解に陥りやすくなる。

上記の選択とは別に適応度が高い個体（エリート）を一定個数、次世代に残すことがある（エリート選択）。これを利用することで、選択によって解が悪い方向に向かわない（適応度の最大値が下がらない）ことを保証できる。しかし、エリートの遺伝子が集団の中に広まりすぎて解の多様性が失われるという恐れもある。

交叉（組み換え）は生物が交配によって子孫を残すことをモデル化したもので、個体の遺伝子の一部を入れ換える操作である。交叉はその性質上、最も重要な遺伝的操作と言うことができる。

交叉のアルゴリズムには次のようなも1

、その場所より後ろを入れ換える方式である。ホランドが最初に提案したときの交叉方法であるが、効率は低く現在ではあまり使われていない。

個体A: 01001｜11010 ⇒ 01001 01011

個体B: 10101｜01011 ⇒ 10101 11010

二点交叉
交叉点をランダムで二つ選び、二つの交叉点に挟まれている部分を入れ換える方式。

個体A: 010 | 01110 | 10 ⇒ 010 01010 10

個体B: 101 | 01010 | 11 ⇒ 101 01110 11

一般に、3点以上の交叉点をもつ方法を多点交叉あるいは n 点交叉という。しかしながら一部の問題を除き、多点交叉は二点交叉と下記で述べる一様交叉のどちらかよりも良い値が出ることはほとんどなく、あまり使われていない。

各要素ごと独立に1/2の確率で入れ換える交叉である。後述するヒッチハイキングの問題をおさえることが可能である。一般に二点交叉が得意とする問題を苦手とし、二点交叉と逆の性質を示すことが知られている。

個体A: 0 1 0 0 1 1 1 0 1 0 ⇒ 0 0 1 0 1 1 1 0 1 1

個体B: 1 0 1 0 1 0 1 0 1 1 ⇒ 1 1 0 0 1 0 1 0 1 0

突然変異は生物に見られる遺伝子の突然変異をモデル化したもので、個体の遺伝子の一部を変化させる操作である。局所（的）最適解に陥ることを防ぐ効果がある。

例えば、遺伝子型がビット列の場合は、ある遺伝子座の0と1を入れ換える。数字の場合は乱数と置き換える。他にも遺伝子座の位置を変更するなどの方法がとられる。

突然変異の確率は0.1%～1%、高くても数%である。確率が低すぎると局所（的）最適解に陥りやすくなり、高すぎるとランダム探索に近づいてしまう（解が収束しにくくなる）。

GA はさまざまな問題に適用できる手法であるが、問題と使う方式によっては上手く探索しない場合がある。ここではよく起きる GA の問題点をまとめる。

初期収束とは、最初の方の世代で「偶然」他の個体より適応度が圧倒的に高い個体が生まれたとき、その個体の遺伝子が集団中に爆発的に増えて探索がかなり早い段階で収束してしまう現象である。ルーレット選択の設定が甘い場合や、突然変異の効果が上手く表れないときに起こりやすい。

対策としては、ルーレット選択を使う場合の適切な設定や適用する問題に合わせて効果的になるように突然変異の操作を変更したり、突然変異率を増やしたり、または集団の数を増やすなどの設定を行うことで防ぐことができる。しかしながら明確な解決法というものはなく、各パラメータを何度も繰り返し設定しなおすしかない。

例えば最適解が

～101～

という問題があるとする。このとき

～111～

～000～

という二つの個体が交叉して最適解を得る確率を求める。交叉の方式が二点交叉の場合は交差点が

～1|1|1～ ⇒ ～101～

～0|0|0～ ⇒ ～010～

で最適解が得られる。このとき遺伝子型の長さを l とおくと、最適解が得られる確率 p は

p
=
2
l
(
l
−
1
)
p=\frac{2}{l(l-1)}
と求められる。これは l が長くなるにつれ加速度的に確率が低くなる。つまりl が長いとほとんどの確率で上記の二つの個体は最適解と一致しないビットを新しく生成した個体に受け継がせてしまうことになる。このように最適解と一致するビットの近くにいて最適解の生成を妨げる現象をヒッチハイキングといい、そのビットをヒッチハイカーという。

このヒッチハイキングは一様交叉によって防ぐことができる。一様交叉は各要素が独立で交叉するので、上記の場合は

～111～⇒～101～

～000～⇒～010～

か

～111～⇒～010～

～000～⇒～101～

で最適解を得る。このとき、最適解を生成する確率は

p
=
2
2
3
=
1
4
p=\frac{2}{2^3}=\frac{1}{4}
であり、この確率は l の長さが長くなっても変化しない。

遺伝的アルゴリズムは他のメタヒューリスティックスに比べて、主要な探索手段である交叉が局所探索ではないことに大きな特徴がある。この性質のため、GA は提唱されて以来有効性に関して多くの疑問が投げかけられた。しかし、GAの有効性をアルゴリズムを解析して検証するのは難しいため、初期のGAに関する研究では有効性を実験的に検証していた。

1980年代後半から、以上の反省を踏まえて GA の理論的な考察が盛んに行われるようになった。ここではその基本的な部分をいくつか紹介する。

SGA とは Simple Genetic Algorithm（単純 GA）の略である。GAを通常のまま解析するとあまりにも複雑なので、処理を単純にした GA を用いて解析を進めるのが一般的になっている。SGA は具体的には

遺伝子表現は 1 と 0 のみ
ルーレット選択
一点交叉
突然変異は1箇所の遺伝子座の値を反転させる
という実装の遺伝的アルゴリズムである。

スキーマ理論とは、遺伝子型の部分集合（スキーマ）の有無が適応度に大きな影響を与えることを前提とした解析理論である。現在の GA の理論の根幹を成している。スキーマとは例えば

H = * * 0 1 * 1 *
のような形で表す。ここで * （アスタリスク）はワイルドカードのことであり、この部分には0と1のどちらが入っても良いことを意味している。このとき、

0 1 0 1 1 1 0
1 1 0 1 0 1 0
のように * 以外の部分が一致している遺伝子型を持つ個体のことを「スキーマ H を含む個体」と表現する。

スキーマ理論特有の用語として定義長とオーダがある。定義長とはスキーマの一番左のアスタリスク以外の文字と一番右のアスタリスク以外の文字との距離のことである。これは δ(H) という形で表す。上記の例の場合は δ(H) = 3 である。オーダとはスキーマ内のアスタリスク以外の文字の数のことである。これは O(H) という形で表す。上記の例の場合は O(H) = 3 である。

スキーマ定理とは、ある世代 t でスキーマ H を含む個体の数を m(H, t) と表したとき、次の世代のスキーマ H を含む個体の数 m(H, t+1) は SGA において以下のように表すことができるという定理である。

m
(
H
,
t
+
1
)
≥
m
(
H
,
t
)
⋅
f
(
H
)
f
¯
⋅
[
1
−
p
c
⋅
δ
(
H
)
l
−
1
−
O
(
H
)
⋅
p
m
]
m(H, t+1) \geq m(H, t) \cdot \frac{f(H)}{\overline{f}} \cdot \left[1 - p_c \cdot \frac{\delta(H)}{l-1} - O(H) \cdot p_m\right]
ここで、f(H) はスキーマ H を含む個体の適合度の平均、
f
¯
\overline{f}は全個体の適合度の平均、l は遺伝子型の長さ、pc, pm は交叉率と突然変異率である。

このとき、pc >> pm, δ(H) > O(H) であるので、括弧内の O(H)⋅pm はほとんど無視できる。そのため、この定理は

定義長 δ(H) が小さく
f(H) が全体の平均より常に大きい
となるようなスキーマ H の数は指数関数的に増大していくことを表している。

ここから、上記の条件を満たすスキーマを保持することが最適解を導くことになるような問題に対しては、GA は最適解を導き出すことが可能であるという考え方ができる。このようなスキーマを積み木（Building Block）といい、この考え方を積み木仮説という。

GA にはさまざまな拡張手法が存在する。ここでは有名なものをいくつか挙げる。

Messy GA とは積み木仮説、特に定義長 δ(H) が小さくなければならないという弱点を克服するために、Goldberg により提案された遺伝的アルゴリズムの拡張手法である。遺伝子表現は遺伝子座の位置とその値のペアで表現する。これに「カット」と「スライス」という手法で探索を進める。Goldberg はこれを用いて GA では非常に探索しにくい関数の最適解の導出に成功している。しかし、この手法は問題に対するかなり詳しい事前知識が必要なため、実際の応用例はほとんどない。

CHC は1990年、Eshelman によって提案された GA の拡張手法である。この名前は

2世代エリート選択（Cross generational elitist selection）
異種間交叉（Heterogeneous recombination）
大変動突然変異（Cataclysmic mutation）
のそれぞれの頭文字をとったものであり、それぞれ選択、交叉、突然変異を詳細に再検討してより効率的なアルゴリズムにしたものである。

Estimation of Distribution Algorithm (EDA)。GAは個体の集合に対して、交叉や突然変異を行い、個体の集合が進化するが、EDA では、個体生成の確率分布を進化させる。アルゴリズムは、Population-based incremental learning (PBIL)など。

遺伝的プログラミング（genetic programming;GP）は、J.Kozaによって提案された遺伝的アルゴリズムを拡張した物の一つである。遺伝子を木構造にすることで式やプログラムなどを扱えるようにした。工学分野だけではなく、経済分野などにも広く活用されている。

メタヒューリスティクスとは、組合せ最適化問題のアルゴリズムにおいて、特定の計算問題に依存しないヒューリスティクスのことである。近年では、上記の定義から拡張され、特定の問題に依存しない、汎用性の高いヒューリスティクス全般を指すこともある。そのため、組合せ最適化問題のアルゴリズムに限らず、連続最適化問題に対するアルゴリズムも含む解釈も存在する。

通常ある問題に対しての「解法」が存在するとき、その解法が適用できる範囲はその問題に対してのみである。

ところが近似アルゴリズムのように厳密な答えではなく、なるべく「答えに近い」まで拡大すると、局所探索法や貪欲法など複数の問題に対しても使用できる手法が存在する。

メタヒューリスティクスとは特定の問題に限定されず、どのような問題に対しても汎用的に対応できるように設計された、アルゴリズムの基本的な枠組みのことである。

言い換えればヒューリスティックアルゴリズムの内、特定の問題に依存せず手法のみが独立したものである。それゆえあらゆる問題に適用可能である。

このことはNP困難のような多項式時間で最適解を求めるアルゴリズムが存在しないと思われる問題などに対して有効である。

ただし、一般的にメタヒューリスティクスは特定の問題専用のヒューリスティクスより平均的な解の精度が劣ることが多い。これは汎用的な探索をするためには問題に対する事前知識を必要とせずに実装しなければならないので、それらを有効に使用することで解の探索を行う方法に対してどうしても不利な立場で探索を進める必要があるからである。

ノーフリーランチ定理によって平均的にはどの探索手法も同じ性能であることが示されて以来、「最も優れたメタヒューリスティクス」を求めることは無意味であることが示されている。この定理はしばしば「万能の探索アルゴリズムは存在しない」と表現されることがあり、メタヒューリスティクスに対するアンチテーゼとして用いられる。

しかしノーフリーランチ定理はあくまで「全ての問題に対する平均」であり問題空間をある程度まで限定した時の性能の善し悪しは論ずることはできない。また実際にメタヒューリスティックスを実装する場合は、探索効率を上げるためその問題の事前知識をさらに組み込んだりする例が多くある。それゆえ、この定理のみによってメタヒューリスティクスそのものに不要論を投げかけることはできない。

進化的アルゴリズム
 遺伝的アルゴリズム(Genetic Algorithm)
進化戦略(Evolution Strategy)
進化的プログラミング(Evolutionary Programming)
遺伝的プログラミング(Genetic Programming)
群知能
蟻コロニー最適化(Ant Colony Optimization)
粒子群最適化(Particle Swarm Optimization)
人工蜂コロニーアルゴリズム（英語版）(Artificial Bee Colony Algorithm)
ホタルアルゴリズム（英語版）(Firefly Algorithm)
カッコウ探索（英語版）(Cuckoo Search)
コウモリアルゴリズム（英語版）(Bat Algorithm)
花粉媒介アルゴリズム（英語版）(Flower Pollination Algorithm)
差分進化(Differential Evolution)

タブー探索(Tabu Search)
焼きなまし法(Simulated Annealing)

シミュレーティド・エボリューション(Simulated Evolution)
人工免疫システム(Artificial Immune System)
ニューラルネットワーク - 正確にはこのモデルを利用した各種アルゴリズム
 バックプロパゲーション
ホップフィールド・ネットワーク
自己組織化写像

ノーフリーランチ定理（ノーフリーランチていり、no-free-lunch theorem、NFLT）は、物理学者 David H. Wolpert と William G. Macready が生み出した組合せ最適化の領域の定理である。その定義は以下のようになる。

「コスト関数の極値を探索するあらゆるアルゴリズムは、全ての可能なコスト関数に適用した結果を平均すると同じ性能となる」

この定理の名称は、ハインラインのSF小説『月は無慈悲な夜の女王』（1966年）で有名になった格言のThere ain't no such thing as a free lunch.に由来する[1]。数学的にありうべき全ての問題の集合について、どの探索アルゴリズムも同じ平均性能を示すことを説明したものである。これは、探索アルゴリズムに必ず何らかの偏向があるため、そのアルゴリズムが前提としている事が問題に当てはまらないことがあるからである。

右の図はノーフリーランチ定理を視覚化した例である。

一方、この定理は「あらゆる問題で性能の良い汎用最適化戦略は理論上不可能であり、ある戦略が他の戦略より性能がよいのは、現に解こうとしている特定の問題に対して特殊化（専門化）されている場合のみである」ということを立証している（Ho and Pepyne、2002年）。

この定理は、問題領域に関する知識を使わずに遺伝的アルゴリズムや焼きなまし法などの汎用探索アルゴリズムを使うことに反対する論拠として使われる。他の汎用アルゴリズムにも適用されてきたが、一般にノーフリーランチ定理でカバーできない実世界の大きなサブセットを構築することも可能である。ノーフリーランチ定理は全てのコスト関数を対象として成立するものである。このため、コスト関数の真部分集合には適用できない。実際の問題解決への適用には、この点での制限をうける。

工学者や最適化の専門家にとって、この定理は、問題領域の知識を可能な限り使用して最適化すべきだということを示しており、領域を限定して特殊な最適化ルーチンを作成すべきであることを示している。

かつて酒場で「飲みに来た客には昼食を無料で振る舞う」という宣伝が行われたが、「無料の昼食」の代金は酒代に含まれていて実際には「無料の昼食」なんてものは有る訳がないだろう、という意味。格言自体はハインラインの創作ではなく、1949年には既に用例がある。