Topics

・関数型プログラミングとオブジェクト指向のパラダイムとしての対立 国内の【自称】関数型コミュニティと海外の論調の違い

ガラパゴス・ネットスラング=「関数型ポエム」という呪詛、先入観的読書と、フェアなレビューの登場

Qiitaの騒動から派生して、東北大学の住井 英二郎@esumii氏、らくだの卯之助@camloeba氏その他が、犯罪者集団に合流して2ちゃんねるでの誹謗中傷チームの「8賢者」「ウィザード組」とかアホなことをやってる件について

JavaScriptではES6+とReact-JSXからES5へのトランスパイルが標準に / ATOMエディタで最速環境構築 厳選パッケージ 3 + 3 2015年夏バージョン

2016年のnode、ES6、React、Babel、Atomエディタ界隈の方向性

Dockerじゃないsystemd-nspawn+machinectlが非常に良い

99%のプログラマがIQ145のJKに「ダサい」と言われてしまう理由とは?【その1】「計算機科学のほんとうの基礎」を理解していない。IQ145のJKと同じ事を語るMITの権威とSICPという聖典の権威を借りてマインドコントロールを解いてみよう

99%のプログラマがIQ145のJKに「ダサい」と言われてしまう理由とは?【その2】関数型プログラミングのイミュータブルな世界観とイミュータブルな実世界を完全に統合

10年先を行く斬新な関数型(FRP)データベースについて説明する 99%のプログラマがIQ145のJKに「ダサい」と言われてしまう理由とは?【その3】

[React (.js Facebook)解説 関数型プログラミングに目覚めた! IQ145の女子高生の先輩から受けた特訓5日間 サポート記事【静的HTML編】React 解説【動的HTML-FRP編】

量子コンピュータが超高速である原理と量子論とそれに至るまでの科学哲学史をゼロからわかりやすく解説01量子コンピュータが超高速である原理と量子論とそれに至るまでの科学哲学史をゼロからわかりやすく解説02

『関数型プログラミングに目覚めた!』のレビュー(Day-1)について

LISPデータ構造の問題点の指摘と抜本的解法としての新プログラミング言語の策定/純粋関数型言語「SPINOZA」

著書『関数型プログラミングに目覚めた! IQ145の女子高生の先輩から受けた特訓5日間』 [Day1]たち読み記事 無料公開中

『関数型プログラミングに目覚めた! IQ145の女子高生の先輩から受けた特訓5日間』を大変多くの方々にお買い求めいただき、感謝します。本書の全目次を公開し、質問を受け付けます。

2016年3月21日月曜日

ベイズ推定、条件付き確率について多世界解釈と参考資料の追加など

前回、ベイズ導入とベイズ統計的機械学習参考書の紹介など
で、筆者が考えうる限りもっとも簡潔なベイズ推定の概念導入を試みましたが、それなりの反応をいただきました。

やはり疑問、というか納得しにくい、納得した上で先に進みにくいのがベイズの定理であるようで、それが自然だとも思います。

「なんかひっかかる」「納得しにくい」という概念が現れたときは、そこは素通りすべきではないと思います。ほとんどの場合そこには大きな発想、パラダイムの転換(コペルニクス的転換)またブレイクスルーが存在していて、そこを突き詰めて考察することはとても有意義で楽しいことです。また逆にそういうパラダイムの差異を曖昧にしたまま腑に落ちないまま先に進むと苦労するのは自分だとも思います。

実際、ベイズ理論は、義務教育で習う統計学の発想、理念、哲学とは異なり、またイメージしにくいものだと思います。

義務教育で習うスタンダードな統計学は、ネイマンとピアソン、という人たちが体系構築したもので、「ネイマン=ピアソンの頻度主義統計学」とか呼ばれているようです。
彼らが思いっきり糾弾して表舞台(学会)から一旦放逐してしまった、近年大復活を遂げているのが、ベイズという人が考えたベイズ統計学というわけですが、何が異なるのか?

ここは実際かなり哲学的な思索になるわけで、筆者自身は結構そういうことは突き詰めて考えないと先に進みたくないわけで、自分なりに考えた結果、多分ほかではあんまり言われていない考え方をシェアしたいと思います。

キーワードは、現実(という世界)、観測、条件付き確率です。

1が出る可能性が100%のサイコロは存在するか?(歪みもないのに)

という思考実験をしてみます。
厳密な議論はさておき「ネイマン=ピアソンの頻度主義統計学」では、歪みがないんだから、無限回数試行(サイコロふってみること)をすれば、大数の法則で確率1/6に収束するはずだ、これが「真の確率」である、みたいなことを論じます。まあ学校でだいたいこういう感じで習ったと思います。そういうことです。

一方で、ベイズ統計学では確率とは「観測された事象」によって決まるという考え方をしています。
1が出る可能性が100%のサイコロは存在するか?(歪みもないのに)
答えYes。
たとえば、買ってきたばかりのサイコロをふって10回連続で1が出ることはあります。(1/6)の10乗の確率でそうなります。しかしそれは「極まれでたまたま」であって、次は1じゃないだろうとか100回ふったらさすがに1が出ないだろう、みたいになるわけですが、100回連続でふっても(1/6)の100乗の確率で「ありえる」わけです。
年末ジャンボ宝くじを1枚だけ買って、1等が当たる確率は2,000万分の1らしいですが、1枚だけ買っても当たる人は当たるわけで、その人にとっては当選確率100%になるわけです。だって当たったんだから。

「確率」というのは、「ネイマン=ピアソンの頻度主義統計学」のように、そういう人らが「こうだ」と厳密に定義することも可能ですが、別の解釈も可能な余地があるように思えます。「ネイマン=ピアソンの頻度主義統計学」は「客観確率」、「ベイズ統計学」はここで少し例を出した雰囲気からなんとなくわかるかもしれませんが「主観確率」と呼ばれたりします。

数学っていうのはもちろん、そもそも人間と関係なくアプリオリに存在していて、プラトンが論ずるように「イデア」として「客観」として存在しているわけで、その意味ではこの「主観確率」っていうのは何?ってことになります。少なくとも自分はこの「主観確率」っていう分類表現がどうも気に食わない。じゃあどう解釈するか?

ポイントは「観測」です。現代物理学、量子力学を勉強していると、どうもこの「観測」っていうのが「やっかい」もの扱いされているとわかってきます。

量子力学は、シュレディンガー方程式で記述される波動関数の確率密度によって量子の存在確率が決まるんですが、人間が観測した時点で、その波動関数っていうのは「崩壊」「収束」して1個の点に決まります。まあ、確率統計で構築されている美しい理論が、人間が観測した時点で急にその確率っていうのがどっか行ってしまって「波動関数の収束」という摩訶不思議な現象が起こります。当時、超天才のフォン・ノイマンが、ここを徹底的に追求して、結局、量子力学の理論体系からは「波動関数の収束」なんて現象はどうやっても導出できない!ってことを数学的に証明してしまいます。理論は非常に美しくて整合性もある正しそうだ、でも数学的にありえないことが実際起こっている、結局「人間の意識が波動関数を収縮させる」ということを主張しました。現在では、まあ理由はどうであれ、とにかく収束する、追求しないという「コペンハーゲン解釈」というのがあります。今でも一線の物理学者の多数が支持している解釈かどうなのかは知りませんが、少し昔までは多分これが標準的な解釈だったんでしょう。

一方で、エヴェレットという人が「観測者だけ特別扱いで波動関数の確率の枠組みに入れていないのはおかしくない?」という至極当然の発想で、突き詰めたのが「エヴェレットの多世界解釈」です。
これはつまり、観測者自身も波動関数の確率的存在と考えれば、どこにも観測対象の波動関数の収束みたいなおかしなことが起こる余地はない、理論的に整合が取れている、ということです。
まあ、意識を創発する物質としての人間の脳という観測主体が、量子力学の理論どおりシュレディンガー方程式で記述されるままの波動方程式によって表現されている確率的存在であるならば、それぞれの分布局所で「観測対象が1点に収束している!」と対応する現象が起こってるんでしょ?じゃあそれで矛盾がないじゃない、という考え方です。

意識を創発する物質としての人間の脳という観測主体が確率的に存在している、観測される対象(客体)も確率的に存在している、それぞれ重ね合わさって、「観測対象が1点に収束している!」とそれぞれ辻褄があっている、ってことは、すなわち世界が複数重ね合わさって存在してるってことです。
まあ、普通は信じられませんよね。でも論理的に否定するのは不可能で、論理的にはむしろこっちの多世界解釈のほうがよっぽど辻褄があっています。そもそも「波動関数の収束」みたいな解決不能な問題が解決されている、ってことでこっちのほうが正しそうだ、と私は思うし、今時はかなり多くの(気の利いている)理論物理学者はコペンハーゲン解釈ではなく、多世界解釈じゃないんでしょうか?一般にこれは素朴実在論では「直感」に反する考え方なので、いろいろ理由をつけて否定する人もいるでしょうが、それは理性でもなんでもなく、結局否定することなんて不可能だということくらいのコンセンサスはさすがにできており、だからこそ「コペンハーゲン解釈」「多世界解釈」どちらでもすきな解釈でどうぞ?みたいなことになってるわけです。真実は多世界であったとしても、多世界間は相互作用なんてない(はず)なので、実験で確認することは不可能であり、すなわち反証可能な科学理論としては成立しません。だから科学「理論」の範疇でなく「解釈」の問題です。

多世界解釈は決定論です。一般に馴染みがある、思いっきり俗な言い方をすると運命論みたいなものです。最初からすべては決まっている。
Wikipediaでも

だが、20世紀になると、量子力学におけるコペンハーゲン解釈によって、宇宙は原子下のレベル、量子レベルであまねく確率的であるという説が有力となった。

などと書かれていて、「だから未来は決まっていない」「人間は自分の意志で自由に未来を書き換えられる!」というBackToTheFuture的な世界観がポピュラーなわけですが、ぶっちゃけ、そんな「自由意志」みたいな、物理法則を超越した魔法みたいな事象はないです。意思、意識はこのベイズ理論の先にある「強い人工知能」によって発現すると、現在ほとんどの研究者は確信しており、そうなったら「意識」というか「自己認識」と言う現象も数学的構造あるいは計算結果だと証明されることになるでしょう。

世界は量子力学によって確率統計的に記述されているが、波動関数のランダムな確率的な収束がおこって偶然に決まるのではなく、波動関数で表現されている統計値は宇宙に「もれなく全部」決定的に展開されており、我々はその一部のみを知覚する世界のひとつにいる、ということです。

「波動関数」っていうのはこの世に数学的構造としてひとつしかなくて、それが時間も空間も超越した多世界にわーっとまたがっている、広がっている、その局地局地がある世界のある時間、そしてそこに存在する我々、我々の意識、ということになります。そういうのがいっぱいある、ということです。これが多世界解釈。
コペンハーゲン解釈では、この観測できる世界がまず存在する、まあ素朴実在論の素朴な発想です。そこになんかしらないが、波動関数という数学的「近似」理論があるみたい、それがなんかわからないけど、なんかのきっかけで収束する。この世界にこの波動関数はひとつ!みたいなことになります。間違っていると思いますが。素朴だし。

とこういう「多世界解釈」「決定論」としての哲学的足場が私にはまずあります。
これを前提に「確率論」というのは当然解釈していくわけです。

「ネイマン=ピアソンの頻度主義統計学」の根本的な問題点は、素朴実在論に基づいた「この世界はたったひとつ!」という暗黙の了解、大前提があることです。だから「真の値」とは「神様だけが知っている値」とか、「真の値が存在するが、私達が知る事ができるのは、真の値に近いと思われる値、それがサンプルから計算した平均値や標準偏差だ」みたいな議論になります。まあ日常の主観的には「この世界はたったひとつ!」という気持ちで生活してもまったく問題は発生しないわけですが、数学で突き詰めて考えるときに、果たしてこういう大前提を無条件に暗黙の了解として受け入れて良いのか?といえば良くないと思っています。

多世界解釈を採択する私の世界観からすると、こういう「ネイマン=ピアソンの頻度主義統計学」による「真の値」とは、「時間も空間も超越した多世界にわーっとまたがっている、広がっている、「波動関数」としてこの世に数学的構造として存在している確率分布の最尤値」のことです。

我々がたまたまこの世界で、たまたま観測する、観測できる事象とは、無限の多世界に存在するうち、たまたま今ここで意識を創発していると感じている、という意識がある自分が観測した「今ここでの値」という限定された局所的な値でしかありません。

その「今ここでの値」というローカル値というのは、当然、シュレディンガー方程式の波動関数によって規定される確率分布のどこかにある一つの値であって、確率分布に従って「他にもいっぱい」「今ここでの値」っていうのが決定論的に最初から存在しているわけです。

もうちょっと平たく言うと、
1が出る可能性が100%のサイコロは存在するか?(歪みもないのに)
答えYes。

たしかに歪みがないわけですから、多数回試行すれば、1−6までかなり平均的に出るような「世界」のほうが多世界グループのなかでも圧倒的に多いでしょう。しかしながら、多世界が無限に広がっているわけで、たまたまこの「世界」は「なんだかよくわからないけど、このサイコロは歪みがないのに1ばかり連続して出る!」という世界かもしれません。

あなたが年末ジャンボ宝くじを1枚だけ購入して、「案の定ハズレた!」とあなたが思ってる世界のほうが圧倒的に多いわけですが、「なんだかよくわからないけど、当選したぞ!奇跡だ!」とおもっている世界は2000万分の1の確率で存在するわけです。どこかに。存在しない?なんで?2000万分の1の当選確率であるならば、フェアに考えてそういう確率分布になっているはずです。もちろん、その多世界のうち、「今そこにいるあなた」の脳も確率分布に従って波動関数の重ね合わせで存在しており、意識もそれに呼応しているわけで、その意識において、「なんだかよくわからないけど、当選したぞ!奇跡だ!」と感じる事象になっている確率は2000万分の1にすぎません。

ある事象ひとつをとっても、無限に存在する多世界は、ある波動関数で規定される確率分布ですから、その曲線の山の最も高いところが最も存在確率が高い、つまり世界の数が一番多いです。
そういう多世界のうち世界の数が一番多いだろう(世界の存在確率が一番高いだろう)っていうポイントを「最尤値」と呼びます。

簡単のために次元を落として、オモテウラのコインで考えます。(2面のサイコロっていうのと一緒)(最初からコインの例に統一すればよかったかもしれない)

ネイマン=ピアソンの頻度主義統計学では、オモテが出る確率θは五分五分、1/2=0.5ですね。

一方で、ベイズ統計学ではこんな「オモテが出る確率θは1/2=0.5」みたいな多世界の「最尤値」=「真の値」は初期設定では論じることは不可能です。科学実験としてそんな多世界の全部は到底観測不能だからです。

世界は量子力学の波動関数の確率分布ですべて記述されているのです。まあ、多世界のうち存在確率が一番高いのは、たぶん、θは1/2=0.5、となっている世界だろうね!みたいな確率分布議論しかできません。そして、この世界は、その一番存在確率の高い世界に落とし込まれている可能性が高いから、多分、この世界でもθは1/2=0.5が最尤値となってる確率分布なんじゃない?みたいなことです。

しかし、実際に試行してみて、連続でオモテしか観測されなかった場合、
「おいおい、どうやらこの今自分が生息してる世界は、超多数派のθ1/2=0.5が最尤値の世界のパターンじゃなかったようだ、珍しいね!」ってことになります。
宝くじの例で言い換えると、
「おいおい、当選確率2000万分の一の存在確率が超低い世界なのに、なんか知らないけど、実際にこの世界で当選しちゃったので、この世界はたまたまその存在確率が超低い世界だったみたい!」みたいなことが起こりうるわけです。

今一体何を考えているのか?というと、「確率の確率」を考えています。
ネイマン=ピアソンの頻度主義統計学では「世界はただひとつ」であり、
この世界の「真の確率」もただひとつ、であるわけですが、
ベイズ統計学は多世界解釈であるという見解では、「世界は無数に存在する」ので、
それぞれの世界ごとに、それぞれ確率が存在する、無数に、と解釈できます。

無数に存在するであろう世界のそれぞれの確率を俯瞰的にみて統計的に確率分布で考える、「確率の確率」「確率分布の確率分布」を考えるということがベイズ統計学では可能です。

コインを実際に試行してみて、連続でオモテしか観測されなかった場合は、その世界の観測値に従って
オモテしかでない確率、つまりオモテ確率100%、θ=1が最大値、最尤値になります。
ベイズ推定では、コイン試行の「確率の確率分布」はベータ分布(サイコロなら一般化された多変数のディリクレ分布になる)になり、二次元グラフに表すと、ある世界(この世界)のある時間(観測時点)で、観測結果がオモテ100%だった場合のオモテが出る確率θの分布は、

enter image description here

です。オモテ確率0%、θ=0のときの確率は0になっています。少なくとももう1回はオモテが出たという事象が観測されてしまっているわけで、オモテ確率0%、θ=0というのはもう「絶対にない」ということになります。

さらに連続してオモテが観測されたとき、確率θの分布は、

enter image description here

に変化します。

さらに3回連続でオモテが観測された確率θの分布は、

enter image description here

というように、オモテ確率θ=100%の度合いがどんどん強まっていくことが確認できます。

このまま、「たまたま」オモテしかでない世界だった場合、この延長でどんどん、θの何乗っていうのが1個ずつ増えていってオモテ確率θ=1グラフの度合いが急激になっていくわけです。

さて、仮に、もし次の試行でウラが出たらこの確率分布はどのように変化するでしょうか?

enter image description here
 
こうなります。

もう、オモテ確率θ=100%というのは、実験、観測で少なくとも、もう1回ウラが出てしまったので、
オモテ確率θ=100%っていうのは「絶対ありえない」0%だ、言い換えると、θ=1.0となる確率はゼロである、というように確率分布が更新されてしまいました。とはいえ当初の実験で3回連続でオモテが観測されていたので、なおオモテ確率のほうが高い分布となっています。

それを打ち消すように、さらにウラが連続して9回出た場合。

enter image description here

というように確率分布は観測結果に応じて変化していきます。

さらに試行を重ね、オモテ30回、ウラ30回と均等に出るという事象が観測された場合。

enter image description here

かなり「ネイマン=ピアソンの頻度主義統計学」が云うところのいわゆる「真の値」である確率θ=1/2=0.5が際立った確率分布となっています。

多世界が「観測」によって波動関数が収束したように見えることは、ベイズ更新の確率分布をグラフに表したときの領域分割として幾何的にイメージして理解できます。

念の為にまず超基本的な確率のことがらと用語を復習しておきましょう。

P(A,B) = P(A)  x P(B|A)

「同時確率」P(A,B)は、
事象の確率P(A) に
「条件付き確率」P(B|A)を掛ければ求められる(確率の乗法定理)。

言い換えると、
事象の確率P(A)に掛ければ
「同時確率」P(A,B)になるような確率のことを
「条件付き確率」P(B|A)と定義する。

P(B|A) = P(A,B) / P(A)  

条件付き確率と確率の乗法定理は、
定義として表裏一体で同じ概念をそれぞれ逆方向で命名したものです。

非常に単純なことしか言ってないのですが、非常に単純だということがわかりにくい人は、
前回の記事のトランプの例を参照すれば良いでしょう。

カードが黒 ■
カードが赤 □
と表記し、
カードのマーク(スート)の強さは
♠ > ♡ > ♢ > ♣なので、
上位2つを ↑
下位2つを ↓
とグループわけして表記することにする。

|   | ■ | □ |            
+---|---|---+
| ↑ | ♠ | ♡ |
| ↓ | ♣ | ♢ |

Aはカードの色2択(図の横軸)
Bはカードのスートの強弱2択(図の縦軸)

カードの色、黒赤同じ割合の2択の事象の確率

P(A)=1/2

で、
カードの色が確定した事象について、さらにそこから、
スートの強弱の同じ割合の2択の事象があるので、
条件付き確率

 P(B|A) =1/2

となっています。ここまでが大前提。
さて、

♠というスートの存在確率は、
カード色=黒
その上なおかつ
カード強弱=強い
という「条件つき確率」からの「同時確率」で表現できます。

P(A,B) = P(A)  x P(B|A)
1/4 = 1/2 x 1/2 

そしてよくよく考えてみると興味深いことに、
カードの色A、スートの強弱Bを入れ替えてもまったく同じ論理で、

♠というスートの存在確率は、
カード強弱=強い
その上なおかつ
カード色=黒
という「条件つき確率」からの「同時確率」で表現できます。

P(A,B) = P(B)  x P(A|B)

なので、「同時確率」P(A,B)について接続してまとめると

P(A)  x P(B|A) = P(B)  x P(A|B)

4つの確率の関係式があります。
簡潔なこの4つの確率の関係式から深淵な理論が導出されてしまう。

P(B|A) = P(B)  x P(A|B) / P(A)

単に移項しただけなのですが、
この式の形が「ベイズの定理」と特別扱いされて呼ばれています。

ベイズの理論は式を見ての通り徹頭徹尾「条件付き確率についての理論」であると言えます。
ベイズの理論を理解する事は、「条件付き確率」とは何か?を理解することと同じです。
もちろん、こうすればこうなる、ほら使えるでしょ?と道具の使い方だけを学ぶことは可能ですが、
道具の使い方を理解していることは理論の理解ではありませんし、後々苦労するし応用もまったく効かないでしょう。

じゃあ、「条件付き確率」っていうのは多世界解釈において一体どういう意味なんだろう?
と考えてみると、いやいやそれ以前にそもそも「確率」ってなんのことだったんだろう?
と再確認する作業が必要です。

ものごとが「起こる」か「起こらないか」というときに、「可能性」という言葉を使います。
ものごとが起こらないことが観測され確定したときに「可能性が消えた」という言葉遣いをします。

これはすなわちある時点まで不確定であったものが、確定した、ということで、最初から論じている量子力学のコペンハーゲン解釈(この世界は眼の前にある世界唯一つ)で、波動関数がなんか理由がわからないけど、追求するのはあきらめてとにかく事実として収束する、という現象がある、という意味そのものです。(素朴実在論)

一方で、多世界解釈においてはそもそもそんな不確定事象などは存在せず、最初からぜんぶまるごと決定論的に決定されて世界はただそこに存在していて、我々が観測して「事象が確定した!」と思い込んでいるのは、実際のところ我々の脳もその可能性の一つの世界に波動方程式の確率分布のひとつとして存在しており、それぞれの多世界で「観察」した結果「事象が確定した!」と思っているという哲学的立場でした。(プラトニズム)

別の言い方をすると、可能性は消えない、ひとつの可能性を観測した場合、また別の可能性を観測している世界が無数に存在する、世界がそこで分岐したとみなされる。

「分岐」するというと動的な印象がありますが、実際は最初からそのように決定されている数学的構造です。波動関数がそのような確率密度の分布となっており、そのどの部分で切り取って見るか?ということに対応します。

確率とは事象の存在の割合です。世界の存在確率=多世界に含まれている、ある多世界の割合。’
多世界の分量は無限個ある(多分)ので、世界の量は割合でしか表すことはできません。
ブラウザの利用総数なんてわからないけれども、ブラウザ利用シェアは自サイトのアクセス分析から割り出せるみたいなことです。
Chrome7ブラウザからのアクセスは全アクセスのうち70%みたいに。
「こんなパターンの世界が全多世界のうち70%のシェアを占めている」
「こんなパターンの世界の存在確率は70%=0.7である」ということになります。

こういう多世界解釈の世界観でベイズ理論はどう解釈できるか?ということを追求してみます。

ベイズの定理

P(B|A) = P(B)  x P(A|B) / P(A)

ベイズ理論風に記号を書き直す
AをEvidence(証拠、観測値、データ(の確率分布))
BをHypothesis(仮説(の確率分布))
と書き換えて、

P(H|E) = P(H,E) / P(E)  
       = P(H) x P(E|H) / P(E)

この確率と条件付き確率の関係式を多世界解釈の立場から「理解」して「イメージ」できることを目標とします。
ベイズの定理の式がこうだから論理的にこうなる、という説明の組み立てはしない、すべきではないので、いったんこの目標を確認した上で、最後に統合します。

すでに上のほうで一回説明を試みた、コイン投下の試行について思考実験します。
まず多世界があります。その無限に広がる多世界のうち「今これからコインの実験をしよう!」とあるコインを用意した世界がそのなかに存在しています。そしてもちろん「コイン?なにそれ?」というまったくこの試行に無関係の世界がその他無限に存在していますが、そこは関係ないので今回切り捨てます。
あるコインについてだけの多世界にまず絞り込みます。これを「全事象」と初期設定します。わかりますね?

これからそのひとつのコインに関する多世界にまたがって思考実験していくわけですが、あるひとつの世界のなかで科学的な実験を行った場合、観測可能なのはたかだかその世界に所属しているコインひとつだけです。
それ以外の他の世界に所属している科学実験のことは絶対に観測不可能です。知る手段はありません。それぞれの世界の観測は独立しています。

ただし、量子力学がものがたるように、世界は量子力学の波動関数の確率分布ですべて記述されています。数学を通じて多世界にまがたる確率分布の議論をすることが可能ですし、それをやってるのが量子力学であるといえます。

それぞれの世界にはそれぞれの世界特有の観測結果や確率がありますが、多世界なので、前述したとおり、Chrome7ブラウザからのアクセスは全アクセスのうち70%みたいに、
「こんなパターンの世界が全多世界のうち70%のシェアを占めている」
「こんなパターンの世界の存在確率は70%=0.7である」という話ができます。
「確率の確率」です。もうちょっというとシェアの話なので、確率の確率分布の話ができます。

逆に言うと、多世界について我々が数学を通じて話せるのは、多世界の「確率の確率分布」以外にはありません。その話しかできないし、その話だけを徹頭徹尾しているのがベイズ統計学です。

あるコインについてのみ切り出した多世界の全事象を以下のように表現することとします。

enter image description here

横軸は0-1.0 の確率
縦軸も0-1.0 の確率
確率の確率のグラフです。
全事象は確率100%なので、掛け合わせると1.0になっています。

このグラフでは、確率の確率分布が視覚的に把握できます。
現在よく見ると、y=1 で直線が引かれており、
xとyともに0-1区間の領域で四角形になっていますね。
この領域があるコインについてのみ切り出した多世界の全事象で1となっています。
全事象のシェアは100%ということです。

ここで、コインを1回投げます。
ある世界ではオモテが出た。ある世界ではウラが出た。
コインを投げると、その観測結果を境界として多世界が分岐します。

enter image description here

このように分割されます。

y=x という直線で四角形の領域が半分に分割されました。
1回目の試行でオモテが出たほうの多世界グループと
1回目の試行でウラが出たほうの多世界グループと
に多世界全事象が半分に分割されました。

右下の三角形の領域がオモテ世界で、この世界の目線からすると、
1回目の試行でオモテが出た、という観測結果が確定したことにより、
1回目の試行でウラがでる、という「可能性は消滅した」ということになります。

しかしながら、「可能性は消滅などしない」というのが多世界解釈でした。
オモテ世界から消滅したように見えた、可能世界であるウラ世界は、
このグラフの左上の三角形の領域です。
彼らからすると、可能性が消滅したように見えるのはむしろオモテ世界のほうです。
 
全領域
y=1
enter image description here

から
オモテ世界の領域
y = x
enter image description here

を引き算してやると、
ウラ世界の領域
y = 1 - x 

enter image description here

左上の三角形の領域(の面積)がちょうど上下ひっくり返って明示的な確率の関数として計算して表現できます。
ちなみにこれは全領域1のうちの割合なんぼという話なので、
「確率の密度」という解釈ができるので、「確率密度関数」と呼ばれています。

全領域1のうちの割合なんぼという「確率の密度」を総計していけば、当然
全領域1のうちの割合なんぼが計算できるので、
「確率密度関数」を積分すれば確率になります。

2回目の試行をします。
1回目の試行と2回目の試行はコインを投げるということでまったく同じことの繰り返しです。

つまり、世界をコインを投げることによってまた

enter image description here

このように分岐させてしまうわけです。
ただし!分岐するのは、すでに分岐してしまった世界の延長で分岐します。すでに分岐してしまった世界がふたたび統合されたり、なかったこと、チャラになることはありません。最初から決定されているであろう多世界の分岐構造をひたすら辿っていく確認作業をやっているだけなので、分岐をたどっていったはずなのに、元の分岐がチャラになったという動的な変更は起こりえない、ということです。

enter image description here

を前提とした上で、

enter image description here

で、さらにまた分岐する。これはすなわち「条件付き確率」のアレをやっているということです。

P(A,B) = P(B)  x P(A|B)

前提となる事象に「条件付き確率」を乗算すれば、「同時確率」すなわち「分岐後の世界の確率」が得られる。

実は最初に、
全領域
y=1
enter image description here

に「条件付き確率」
y = x
enter image description here

y = 1 かける xと乗算した結果、
y = x
enter image description here

になっていたのでした。

すでに世界は、
1回目オモテ世界
1回目ウラ世界
のふたつに分岐されてしまっていますが、全パターンの分岐を辿るのはしんどいので、
当面、1回目オモテ世界の延長の分岐だけを探ることとします。

1回目オモテ世界の延長で、
1回目オモテ世界を前提に、条件付き確率の乗法定理を適用し

P(A,B) = P(B)  x P(A|B)

今回さらにまたxを乗算するので、

で分岐(グラフが分割)されます。

enter image description here

y=x で表される確率密度関数の領域をさらにまた、y=x で表される確率密度関数で表される条件付き確率という「割合」をもって分割したら、乗算して二次関数となって分割されることになります。

1回目オモテ世界の延長で、
オモテ連続2回世界は、一番右下の三角形が凹んだような領域に分類されます。

これは、最初の方で説明した、


さらに連続してオモテが観測されたとき、確率θの分布は、

enter image description here

に変化します。


と同じですね。係数の3がないのは、今回分岐大元のコイン多世界全事象=1のままで考えているからです。これはあとでどうせまた説明することになります。

じゃあ、その世界から可能性が消滅したように見えて実は別の世界に分岐されている、
1回目オモテ世界
2回目ウラ世界
という世界は、グラフ中央の三日月みたいな領域に分類されています。

すでにやったように、単なる引き算でもうちょっと明示的に確率密度関数として表現できますから、

y=x から 二次関数を引き算してみる、

変形すると

これもどっかでみたことありますね?

enter image description here

例のベータ分布になってしまいました。
1回目オモテ
2回目ウラ
というイーブンの観測結果であると、最尤度0.5のベータ分布です。

ここで、念の為に確認ですが、
我々が数学を通じて多世界について語れるのは、せいぜい確率の確率分布でしかありません。
このように多世界の初期設定をして、そこから観測結果に応じて多世界の分岐をたどっていったとしても、その世界自体も、また次なる分岐に備える、確率分布で記述されている多世界でしかありません。

多世界→多世界→多世界→多世界→多世界→

と延々と連なっているので、事象観測後の分岐した世界で語れるのは、
分岐前と同じような確率の確率分布のはなしだけです。

さて、さらに多世界分岐の探求をつづけます。

で分岐(グラフが分割)

enter image description here

されましたが、そのうち、オモテ連続2回世界の延長の分岐を探ります。
グラフでいうと、一番右下の三角形が凹んだ領域のことです。

オモテ連続2回世界の延長を前提とし、
また同じ試行の
「条件付き確率」
y = x
enter image description here

によって世界が分割されるので、

enter image description here

となります。

オモテ連続2回世界の延長で、分岐したもう片方の
3回目ウラ世界は、
グラフの一番細い三日月みたいな領域に分類されています。

オモテ連続2回世界ー 3回目オモテ世界 という引き算で確率密度関数を求めると、

変形すると

enter image description here

これも当然のごとくベータ分布になっていますね。

もうあとは同じことの繰り返しが延々と続きます。
そしてすべての分岐のパターンで限りなく世界が分岐、分割され細分化していきます。

最初の方で確認した


それを打ち消すように、さらにウラが連続して9回出た場合。

enter image description here

というように確率分布は観測結果に応じて変化していきます。

さらに試行を重ね、オモテ30回、ウラ30回と均等に出るという事象が観測された場合。

enter image description here


以上のような確率分布になるような観測結果をもつ世界はこの全事象の分岐(領域の分割)の先のいずれかのひとつとして存在しています。

だいたい世界観のイメージは伝わったと思いますので、観測による多世界の分岐現象がベイズの定理でどう表現されているか確認します。

Evidence(証拠、観測値、データ(の確率分布))
Hypothesis(仮説(の確率分布))

P(H|E) = P(H,E) / P(E)  
       = P(H) x P(E|H) / P(E)

というものでした。

モデルケースとして、以下を再掲します。


で分岐(グラフが分割)

enter image description here

されましたが、そのうち、オモテ連続2回世界の延長の分岐を探ります。
グラフでいうと、一番右下の三角形が凹んだ領域のことです。

オモテ連続2回世界の延長を前提とし、
また同じ試行の
「条件付き確率」
y = x
enter image description here

によって世界が分割されるので、

enter image description here


以上を例にとって考えてみると、

1.事前確率(分布)

 観測によって分岐される前の前提となる世界の分布
 この場合は、オモテ連続2回世界がP(H)という事前確率分布になっている

2.観測(分布) 一般的には「尤度(Likelihood)」という用語になっている

 観測による分岐前を前提とした条件付き確率の分布、
 事前確率(分布)であるP(H)を前提としたときの観測データEvidenceの確率分布
 この場合は、試行データ=オモテ

3.事後確率(分布)


 観測データEvidenceによって分岐した後の世界の確率分布、
 これは、観測データEvidenceを前提とした条件付き確率の分布として表現されている
 この場合は、オモテ連続3回世界の確率分布が得られた

さて、最後に、ベイズの定理

P(H|E) = P(H) x P(E|H) / P(E)

4つ目の確率分布である、 P(E)です。
初見では
「これこそがEvidenceの確率なのだから観測のなにかの分布なんだろう?」
と勘違いしてしまいますが、すでに確認したとおり、観測に該当するのは
世界が分岐する前の、事前確率分布P(H)を前提とした、
条件つき確率分布であるP(E|H)のほうでした。

今回、多世界解釈に基づいて、
あるコインを試行するときの多世界の全部を全事象1として、
それが観測によって分岐、分割されていくという現象を調べました。

その結果、世界が分岐し、確率密度のグラフ領域が分割された先のひとつには、
たとえば、オモテ1回ウラ1回のイーブンな観測が得られた世界の確率分布が、

enter image description here

このようになっていることも確かめられました。

この確率分布は、あくまで、
あるコインを試行するときの多世界の全部を全事象1としたときのグラフのうち

enter image description here

中央の三日月のような領域として分割された割合です。

さあここで、よくわかった、でももう多世界全部の事象のことは関係ないや、この分岐した世界ローカルで考えたい!という立場を取る方針にした場合、
あるいは、
多世界分岐後の新たなる多世界の出発点として、この分布こそが今ここにあるコイン試行世界のすべてであり、原点である、という方針にした場合、
つまり、
多世界の全事象、全領域

enter image description here

ではなく、
多世界の全事象、全領域

enter image description here

という初期設定にリセットしたい場合、
この確率密度関数の積分値が1となるように調整しなおさなければなりません。

これを「正規化(Normalization)」と言い、これは量子力学の波動関数でも同じ操作が必要になります。確率っていうのはしょせん、何かを基準とした割合のことなんで、どこを基準に取るか?っていうので値を調整する必要がでてきます。
ちなみに、ベイズ理論において、この確率密度関数の積分っていうのがめちゃくちゃ面倒くさい場合が多くて、うまい近似の手法でやったり、代数的な計算はあきらめてMCMCというモンテカルロ・シミュレーション(サンプリング)の手法でやったり、いろいろ工夫があってこういう積分の計算方法だけで一大研究課題となっています。

今回のケースでは、世界をベータ分布の連鎖で分割していったので、かなりはっきりとした代数のルールがあり、積分する必要はありません。(自然な共役分布)
しかし、その代わり、その操作の履歴データが必要となります。

というベータ関数にまつわる公式を利用すると、
全多世界事象1のうち、

enter image description here

三日月部分の世界の領域の割合は、1/6である、ということがわかります。
これが、全事象1のうちEvidenceの割合なので、P(E)の値となります。

じゃあ、P(E)が全事象となるようにリセットしたい、正規化したいならば、
全事象1のうちEvidenceの割合であるP(E)で割り算すればリセットできますね。

を正規化すると、


enter image description here

係数が1から6に増えたことによりグラフの領域が拡大されたことが確認できます。

4.全事象のうちの事後確率(分布)の確率

P(E) とは最初設定した全事象にたいする、事後分布P(H|E)の確率
これは多世界分岐(ベイズ更新)のすべての履歴が必要となる。
あるいは履歴なしでは積分して1になるような値を求める必要があるので、計算が一番やっかい。
P(H|E)を全事象としてリセットする正規化のために必要。

ベータ分布で

のモデルケースでは、

となり、

のモデルケースでは、

になる。

以上で、

ベイズの定理

P(H|E) = P(H) x P(E|H) / P(E)

の4つの確率(分布)がすべて出揃いました。

ある確率分布で記述されている多世界があり、データを観測し、それに応じて世界が分岐し、確率(シェア、領域の割合)が分割され、分岐後の多世界がそれぞれ持つ確率分布を得る、ということをベイズ更新(Bayesian Updating)といいます。量子力学の多世界解釈すれば、ということですが。

いずれにせよ、この観測結果を反映するベイズ更新が連鎖構造になっています。
量子力学の確率分布であらわされる多世界が観測結果を反映して分岐している構造と1:1に呼応しています。


さらに試行を重ね、オモテ30回、ウラ30回と均等に出るという事象が観測された場合。

enter image description here


という様に、係数がめちゃくちゃ大きな値となっているのは、そもそもの全事象から世界が分割されまくった確率分布をリセットして正規化したからだ、という自然な解釈ができます。

以上は、コインの試行についてベータ分布になる、というのはどこにでも普通に書かれている知見ですが、量子力学の確率理論、特に多世界解釈で、ベイズ理論を俯瞰してみればどういう意味だろう?というのは筆者のオリジナルです。別にどこか他のどなたが同じ解説をしているかもしれませんが、よくわかりません。
特に、ベイズ理論を確率分布に適用した場合についての尤度(Likelihood)について納得できる解説が見当たらなかったのですが、こう俯瞰したら納得できたということです。また、ベイズ統計学について、「主観確率」であるとか「あいまいな推定ができる」とか、「信念の度合いが表現できる」とか事例を示されたとしても、それが数式のイメージとして腑に落ちることはありませんでした。
また、世紀をまたいで継続している、「ネイマン=ピアソンの頻度主義統計学」とベイズ統計学の論争は、根本的にはこのコペンハーゲン解釈と多世界解釈の問題があると考えています。
そして念の為ですが、今回書いたような多世界解釈の哲学的立場は、素朴実在論では到底受け入れられないために不当な心理的反発を招きやすいのですが、これはもちろん私の独自哲学でもなんでもありません。今回あくまで多世界解釈の哲学的立場をそのまま援用してベイズ統計学を解釈してみた、という論理的帰結にすぎません。量子力学において波動関数(確率密度関数)で量子の存在確率が定まる、それは観測という行為にリンクしているというのは、ベイズ更新の特徴そのものであり、照らし合わせてみると案の定自然に解釈できた、ということにすぎません。

基本的に義務教育あるいは高等教育であっても多世界解釈を教えることは「何かと面倒くさい」ことのようで、理由とすれば素朴実在論的世界観が妨害しているとしか思えないのですが、その一方で素朴実在論と相容れない相対性理論、量子力学は学習する必要はあります。

その際、いずれにせよ「観測の結果、可能性が消えた」と普段発している言葉の意味はいったいどういうことなのか?というのは別段ベイズ統計学に限らず義務教育で習う局面であっても誰でもが一度は考えたことがあるかもしれません。「観測の結果、可能性が消えた」というのは量子力学の波動関数の収束に他ならず、これはコペンハーゲン解釈では理論的に破綻していることは数学的に証明されています。理論内からけして導出できない現象について理論の外に大業な名前をもって原理の追加する、ことがまかり通るのであればあらゆるオカルト現象も同様に、なんか大業な名前をつけてそういう原理の法則であると言ってしまえばすむわけなので、これは科学ではないだろうと訝しく思っています。

この「観測の結果、可能性が消えた」というのは、実際ベイズ更新の解説で多用されていること、あと、ベイズ理論から展開されるベイズ統計学的機械学習が最近主流になりつつありますが、次にどの方向に進めばスムーズに楽しくすすめるのか?過去の自分の経験を踏まえながら少し紹介します。

今回紹介したとおり、ベイズ推定はデータを観測して条件付き確率で確率分布をアップデートする連鎖構造になっています。この簡潔な連鎖構造を応用していくらでも複雑な構造化が可能なのですが、視覚的に表現する体系が確立されていて、グラフィカルモデルといいます。
グラフィカルモデルのノードひとつひとつが条件付き確率からのベイズ推定であり、グラフィカルモデルのネットワーク構造はベイズ推定のネットワークです。
矢印ある有向ならばいわゆるベイジアンネットワークであり、無向ならマルコフ確率場です。
マルコフ確率場とだけ聞くとなんか面倒くさそうだな、と思うんですが、構造としてはこちらのほうがベイジアンネットワークよりもシンプルで、まあベイズで連想記憶とかやる場合はこちらを確実に使うでしょう。あとコンピュータビジョン。

逆にグラフィカルモデルの「ことば」が理解できないと、たいていの本を読むとき必ず挫折してしまうので、ベイズの基本を徹底的に学習したその次はグラフィカルモデルに進むというのがおすすめです。

PRMLはベイズ統計学に基づいたグラフィカルモデルと生成モデルの体系的な説明が以前から評価を得た大きな理由だと思いますが、

著者のビショップ教授もグラフィカルモデルは導入として特別扱いしているようで、

PRMLの8章グラフィカルモデルだけは無償でPDFダウンロードできるようになっていたり、
http://research.microsoft.com/en-us/um/people/cmbishop/prml/
Contents list and sample chapter (Chapter 8: Graphical Models) in PDF format.
http://research.microsoft.com/en-us/um/people/cmbishop/prml/pdf/Bishop-PRML-sample.pdf

サマースクールでもその無償PDFをテクストとして、数学とりのぞいたバージョンの導入レクチャーをやっていてYouTubeで閲覧できます。見なきゃ損のコンテンツ。
講義のスライドもダウンロードできます。
http://mlss.tuebingen.mpg.de/2013/bishop_slides.pdf

非常にいたれりつくせりで、英語も聞き取りやすいのですが、耳障りが良すぎて寝る人が多い気がします。

Graphical Models 1 - Christopher Bishop - MLSS 2013 Tübingen
https://www.youtube.com/watch?v=ju1Grt2hdko

Graphical Models 2 - Christopher Bishop - MLSS 2013 Tübingen
https://www.youtube.com/watch?v=c0AWH5UFyOk

Graphical Models 3 - Christopher Bishop - MLSS 2013 Tübingen
https://www.youtube.com/watch?v=QJSEQeH40hM

このビショップ講義でも、グラフィカルモデルの基本としてのベイズ推定で「可能性が消える」話をたくさんしています。上のスライドみれば多分それはすぐわかるでしょう。

あとYoutubeで
Graphical Modelsで検索すれば、この界隈の著名人によるグラフィカルモデルの講義が沢山あります。Daphne Kollerとか。
https://www.youtube.com/watch?v=WPSQfOkb1M8&list=PL50E6E80E8525B59C
こっちは「長い」膨大な量で自分もまだ全部見れていません。

もちろん、前回紹介したサイモン・プリンスの
「ベイズ推定とグラフィカルモデル:コンピュータビジョン基礎」

もこの流れとなります。これも実質日本語訳の秀逸なオンライン講義が広島大のToru Tamaki 先生のレクチャーで見れるのでした。実際これはオンライン講義のほうがわかりやすくて、本読むのより随分楽です。

最近多いですねこういう優良な無料学習コンテンツが。
こういう秀逸なコンテンツを複数あわせて読む、聞く、見ると、多分最短で結構なところまで進めるんじゃないでしょうか。

本は速読したり、スキャン的な読解が可能で、内容が薄いとオンラインビデオチュートリアルなんかより本のほうが便利なんですが、思ったのはこういう一般にはとっつきにくい内容であるほど、著者は書籍より内容を一般向けに噛み砕いて非常に熱心に親切に教えようとする人が多いってことです。ああこれならもう本文読まなくていいんじゃない?という感じだったり、そう思ってから本文読むと、楽に読めたり、もちろん数式などはさっきのPRML8章みたいに、書籍には書いてあるみたいなことがあるんですが、どっちにせよ先にオンライン見たほうが良いと思います。

2016年3月9日水曜日

ベイズ導入とベイズ統計的機械学習参考書の紹介など

最近の機械学習のあらゆる教科書に必ずといって良いほど、最初のほうの章を割いて解説(紹介)されているのがベイズ統計学です。

ベイズ理論は簡潔な「ベイズの定理」から展開される非常に美しい理論体系で、
それゆえrobust(堅牢)で応用範囲が想像を絶するほど豊かです。
昨今もろに統計学的データサイエンス化してしまった機械学習、人工知能の研究の根幹となる理論であり、実用、応用で道具として使えればそれで良いというノリでさらりと終わらされてしまう(と自分は見てて思う)のはもったいないと思いつつ、巷の説明が非常に難解なので、ベイズ推定の概念の導入の導入として、考えうるかぎり一番かんたんな説明を試みます。

トランプのカードを考える。

カードが黒 ■
カードが赤 □
と表記し、
カードのマーク(スート)の強さは
♠ > ♡ > ♢ > ♣なので、
上位2つを ↑
下位2つを ↓
とグループわけして表記することにする。

|   | ■ | □ |            
+---|---|---+
| ↑ | ♠ | ♡ |
| ↓ | ♣ | ♢ |

ジョーカーを除外した13x4=52枚のデッキからカード1枚引いたとき、
カードが♠である確率を`
(♠)
と表記することにする。
♠♡♢♣のうち♠である確率は
(♠) = 1/4

カードが■である確率は、
(■) = 1/2

カードが↑である確率は、
(↑) = 1/2

♠は、■かつ↑なので、
同時確率(♠) = (■∩↑)

カードが■のとき、それが♠であるという、条件付き確率
(♠|■) = 1/2
カードが↑のとき、それが♠であるという、条件付き確率
(♠|↑) = 1/2

まとめると、  
(♠) = (■∩↑) = (■) x (♠|■)   
            = (↑) x (♠|↑)
(1/4)       = (1/2) x (1/2) 
            = (1/2) x (1/2)

移項すると、
(♠|■) = (♠)  / (■)  
もしくは、
(♠|↑) = (♠)  / (↑) 
という関係が成り立つ。 
(1/2) = (1/4)/ (1/2)

これは、デッキからカード1枚引いたとき、
そのカードが♠である確率
(♠) = 1/4
が、裏向けたまま「カードの色は黒(■)ですよ」と情報を与えられたことにより、
可能性は、♠♣に限定されてしまい、
カードが■のとき、それが♠であるという、条件付き確率
(♠|■) = 1/2
に収束したと解釈できる。

(♠) = 1/4
という「事前確率」が
(♠|■) = 1/2
という「事後確率」へと更新された現象を
「ベイズ更新」と呼ぶ。

同じように、デッキからカード1枚引いたとき、
そのカードが♠である確率
(♠) = 1/4
が、裏向けたまま「カードのマークは上位(↑)ですよ」と情報を与えられたことにより、
可能性は、♠♡に限定されてしまい、
カードが↑のとき、それが♠であるという、条件付き確率
(♠|↑) = 1/2
に収束したと解釈できる。

もう少し複雑なケース。

アウトレットセンターのある店舗で、
顧客の購入動向を統計的に分析することにした。
店舗に立ち寄る顧客が商品購入する確率は10%である。

購入する場合を  $
購入しない場合を ~
と表記すると
($) = (0.1)
(~) = (0.9)
となる。

商品購入する顧客が店員に声掛けする確率は 70%
商品購入しない顧客が店員に声掛けする確率は 20%

顧客が店員に声掛けする事象を ☻
顧客が店員に声掛けしない事象を ☹
と表記すると、
商品購入確率からの声掛けの条件付き確率は、

(☻|$) = (0.7)
(☹|$) = (0.3)

(☻|~) = (0.2)
(☹|~) = (0.8)
となる。

|   |  $  |  ~  |           
+---|-----|-----+
| ☻ | $∩☻ | ~∩☻ |
| ☹ | $∩☹ | ~∩☹ |

という4パターンの組み合わせを考慮しながら、
以下のように、すべての確率を洗い出すことができる。

($∩☻) = ($) x (☻|$) = (0.1)  x (0.7)  = 0.07
      = (☻) x ($|☻) = (0.25) x (0.28) = 0.07

($∩☹) = ($) x (☹|$) = (0.1)  x (0.3)  = 0.03
      = (☹) x ($|☹) = (0.75) x (0.04) = 0.03

(~∩☻) = (~) x (☻|~) = (0.9)  x (0.2)  = 0.18
      = (☻) x (~|☻) = (0.25) x (0.72) = 0.18

(~∩☹) = (~) x (☹|~) = (0.9)  x (0.8)  = 0.72
      = (☹) x (~|☹) = (0.75) x (0.96) = 0.72

このうち、たとえば最初の式、
($∩☻) =
($) x (☻|$) = (☻) x ($|☻)
という条件付き確率の関係性に着目して、
($|☻)  = ($)   x (☻|$) / (☻)
(0.28) = (0.1) x (0.7) / (0.25) 
と整理しなおしてみる。

左辺の($|☻) は、
顧客が店員に声掛けした場合の商品購入確率という条件付き確率である。

ある顧客が入店した際に、
「彼女が商品を購入するかどうか?」という確率は当初
($) = (0.1)
であったのが、
彼女が店員に声掛けした、という事象が確定した途端に、
彼女の商品購入確率($)が、声掛け(☻)の情報獲得によって
($|☻) = (0.28)
つまり、10% → 28% にupdate(更新)された、と解釈できる。
これがBayesian Updating「ベイズ更新」である。

($)→(Hypothesis)仮説
(☻)→(Evidence)証拠・データ
とし、
($|☻) = ($) x (☻|$) / (☻) をそのまま
(H|E) = (H) x (E|H) / (E) と書き換え、さらに
Probability(確率)のことであると明示する記法で
P(H|E) = P(H) x P(E|H) / P(E) 
と定義されていることが多い。(ベイズの定理・ベイズ推定)

P(E|H)は、Likelihood(尤もらしさ)、日本語では「尤度(ゆうど)」と呼ばれている。

P(H|E) = P(H) x P(E|H) / P(E)
で、
P(H)はPrior、日本語では「事前確率」
P(H|E)はPosterior、日本語では「事後確率」

PosteriorPrior x Likelihood
の関係が成り立ち、何度もUpdateできる。

ベイズ更新の繰り返しを利用して、事象の確率を推定することをベイズ推定と呼ぶ。

各パラメータには、確率だけでなく、確率分布、確率の確率分布、
さらに「確率分布」も確率変数と見なして、確率分布の確率分布、
など柔軟に適用でき自由度が無限に高い。

導入記事おわり。

以下、ついでに随想と参考書の紹介。

ではそもそも最初の「事前確率」はどうするのか?というのは、実は一大問題で、ベイズ理論がデータサイエンス、機械学習と結びつく際の根幹となる問題。
おそらく、昨今注目されている深層学習(ディープラーニング)(というバズワード)もこのベイズ更新の事前確率の初期値の問題に還元されてしまいます。

ディープラーニングって何がディープなのか?というと、要するにディープな多層構造のニューラルネットワークであるということで、
畳み込みニューラルネットワーク(Convolutional Neural Networks: CNN)
ディープボルツマンマシン(Boltzmann machine)などで構成されています。
ボルツマンマシンも、ホップフィールド・ネットワークで、大元はアソシアトロンで、ととにかく、まだこの段階では「ニューラルネットワーク」全開。
しかし、ニューラルネットワークという脳のニューロン、シナプスのモデル化は、もうまもなくすべてベイズ理論に還元されてしまって「古典化」するとしか思えないし、多分そうなります。

ニューラルネットワークはどこへ行った?

自分が機械学習というか人工知能に興味を持って勉強し始めたのは、そもそもは小学生のころ「マッチ箱の脳(AI)」をBASICで実装したり、ということからはじまりますが、もうちょっとちゃんとした本を読んだのは、平成元年のころ、さっきのアソシアトロンの発案者のひとり中野馨 先生が監修した『入門と実習 ニューロコンピュータ』

というものでした。当時、日本語では多分この本くらいしか機械学習の本なんて存在しなかったと思います。
この本にはガッツリ脳のニューロン、シナプスのによる学習機構のこと紙面の半分くらいを割いて書かれていました。学習とは、脳のシナプスの可塑性によって成し遂げられる、シナプス可塑性はヘッブの法則がある、ということで、現在までの機械学習の研究の多くはこの系譜にあります。アソシアトロンはもろにこのヘブ則をモデル化して連想記憶を実現したものです。

そもそも最初は、脳のシナプスの可塑性をモデル化した形式ニューロンが神経生理学者によって提唱され、これはチューリング完全の計算能力を持つ、バラ色の未来が予期されるということで、単純パーセプトロンが実装されたわけですが、これは期待に反してチューリング完全ではありませんでした。入力層と出力層のみの2層からなるパーセプロトンはではXORなどの線形非分離な問題は絶対に学習できないことが指摘されます。いわゆる「XOR問題」。いくら形式ニューロンの組み合わせで原理的にチューリング完全でも、学習機構の制限によってできない。パーセプトロンまでは脳のニューラルネットのモデル化でしたが、XOR問題あたりでニューラルネットと線形回帰の等価性の数学的証明など研究が著しく進みます。このあたりが機械学習が統計学に還元される萌芽でしょう。
実は単純パーセプトロンでも人口ニューロンの活性化関数に一次関数ではなくて二次関数以上を採用すればXOR問題は解けるという話もあるんですが、そもそも一次関数にこだわっているのは、シナプスの可塑性の原理にあるっぽいです。自然をリスペクトしているのかどうかはわかりません。しかし単純パーセプトロンさえ。その割には学習機構にヘブ則もへったくれもない、一回数学世界に還元したような学習機構がダブルスタンダードで、当時の自分はこの辺が特に??でした。

パーセプトロンのXOR問題以降その後10年ぐらい人工知能ブームが停滞します。希望って大事ですね。その後、線形分離不可能なXOR問題を解決しチューリング完全にすべく、多層で学習を可能にしたバックプロパゲーション(誤差逆伝播学習法)機能つきの多層パーセプトロンが地道に研究しつづけていた人たちによって発明されます。もうこの頃は、人口ニューロンの活性化関数が連続で微分可能でないといけない、確率的最急降下法だとか、完全に脳のニューロモデル、ヘブ則とかぶっちぎっていました。人間の脳神経細胞が微分とかしているわけがないので、ニューラルネットをモデル化しながら統計的学習手法とかやってるダブスタな潮流を眺めながら「何かが完全におかしい」と感じた当時の自分が機械学習の学習に完全に興味を失ってしまったのでした。まあ今でもディープラーニングと言いながらディープな階層、CNN、ボルツマンマシンだとニューラルネットやっているわけで、Googleネコ概念認識の実験にしてもいまだニューラルネットです。その実装の方向性は違うと思っていますが、要するにニューラルネットのクラスタ化と各クラスタでの特徴抽出(次元削減)がキモのようで、この辺はすべてニューラルネットでなく抽象化したベイズ統計に還元、一元化できるはずです。

特にまるで別分野で発展してきた、自然言語解析方面でのデータサイエンス界隈の知見の集積がものすごくて、そこでの最先端はもちろんベイズ理論で、特にクラスタリング、生成モデルで、ノンパラメトリックベイズ法、階層ディリクレ過程が衝撃的です。(ベイズ推定の最初の「事前確率」はどうするのか?)
ディープラーニングのクラスタ化自体を教師なし学習させるのが課題だと思うのですが、もうすぐ誰かがこの辺全部統合して、そこからさらに研究、実装の進化が加速すると予想します。画像認識でも階層ディリクレ過程とマルコフ確率場を利用した教師なし画像領域分割とか、すでに、どうやるか?ではなく、もう日本人でも優秀な人が誰がすぐやるか?のフェイズのブレイクスルーが山積みだと思います。

参考書の紹介など

以上、ニューラルネットはすでに古典的モデルであり、もれなくすべてベイズ統計に還元できる、ということを強調しました。歴史的な研究として学ぶのは良いと思うのですが、既存のニューラルネットを改善して、、、という研究の方向性はかなり筋が悪いと信じます。ニューラルネットは現在非常にとっちらかっていて、今後100%統計学的なデータサイエンス特にベイズ統計に一元化されるべきですし多分そうなっていくでしょう。
その意味で、非常に良いと思ったのが、結構最近の教科書、Prince本です。

Computer vision:
models, learning and inference
Simon J.D. Prince
July 7, 2012

です。
この本ではもはやニューラルネットやバックプロパゲーションなどそういうものは一切出てきません。100%ベイズです。
しかも、なんと個人使用に限り、無料で公式サイトからダウンロードできます。
http://www.computervisionmodels.com/
紙の本で買いたい人は、Amazonで10000円くらいで買えます。和訳の本はありません。

しかし、更に素晴らしいのは、
公式サイトに、
Japanese Video Lectures by Toru Tamaki
とあるので、見てみると、
https://www.youtube.com/channel/UCirqYKKjRztDywdQXLDYYAg
https://www.youtube.com/playlist?list=PLDVKrmVEl_WtGqMo6OWBiK7P9IsTPmTjO
https://www.udemy.com/computervision/learn/
と、広島大のToru Tamaki先生によるオンライン講義があり、ほぼ実質和訳として視聴できます。通して拝見しましたが、わかりやすいし透明黒板での動画とか教育に熱意を感じます。ものすごい準備と撮影に時間、手間がかかっていることでしょう。この人は素晴らしいです。Prince本もそうですが、正直、なんでこんな良質なものがネットで読めたり、視聴できるのかよくわかりません。Udemyのほうでは、Prince本の前半部分だけで、後半は有料配信なんだろうか、と思っていましたが、上述のとおりYoutubeで後半もあります。

Princeはベイジアンですが、上述のノンパラメトリックベイズモデルについては残念ながら語っていません。
その意味で必読なのが、通称「続パタ」です。

石井健一郎,上田修功:続・わかりやすいパターン認識(教師なし学習入門),pp. 326,オーム社(2014)です。

11章ではノンパラメトリックベイズモデルの基礎となるディリクレ過程やその実現例となる Chinese RestaurantProcess や Pitman-Yor 過程などについて丁寧に解説され、12 章では,ディリクレ過程混合モデルとその学習法について解説し,クラスタ数が未知の場合のクラスタリングの具体的な方法について説明されています。ノンパラメトリックベイズモデルについて国内で詳しく解析された書籍はほとんどないので、この本の評価が高いとすれば、それが理由でしょう。
もちろんこれも、第1章 ベイズ統計学からはじまる全力のベイジアン本です。11 ~ 13 章について主に執筆を担当している上田氏は現在,NTTコミュニケーション科学基礎研究所において「機械学習・データ科学センター」センター長でおられるようです。

最後にパターン認識と機械学習 - ベイズ理論による統計的予測(Pattern Recognition and Machine Learning)=PRML通称Bishop本

これもベイズ本ですが、テクストとして網羅的であろうとして、いろんなことも書いてあります。たとえばサポートベクトルマシン(SVM)とかは一過性のものだと思いますのであんまり興味は出ません。内容もさすがにちょっと古くなってきています。ただ必読書。

ベイズ入門者向け

超最近出た本。通り一辺倒の数式説明ではなく、「考え方」「概念」の解説に情熱がある著者で、シンパシーもあり。多分一番入門者向け。しかしちゃんと最終的にベータ分布あたりまで到達している。

「完全独習」と合わせて読むと相互補完できて良いと思う。

「パターン認識と機械学習」(PRML本)と並ぶ、機械学習定番書。
しかしあくまでタイトル通り、統計的学習の基礎 ―データマイニング・推論・予測の教科書。
最初に紹介した、Computer vision:
models, learning and inference
Simon J.D. Princeがざっと流してしまっている数学要素をよりきちんと解説しているので、Prince本の理解を深めるという意味でも必読。

この日本語訳は15000円ほどと高価だが、原書は
スタンフォード大の公式サイトから、これもPDFの無料ダウンロードあり。
http://statweb.stanford.edu/~tibs/ElemStatLearn/
 

Popular Posts