Gmailのスパムメール判定でも使われているベイズ統計とは何なのか?

皆さんはトーマス・ベイズという人物をご存知でしょうか?「あの統計学の‥」とすでに知っていらっしゃる学生さんも、「何それ、美味しいの?」という学生さんも、はい注目!
この人物が唱えた定理をもとにして生み出された「ベイズ統計」という統計学が、現在IT業界のみならず様々な分野で大活躍なんです。ベイズ統計について、ちょこっとお勉強しちゃいましょう。

ベイズ統計とは?

出典:ja.wikipedia.org

トーマス・ベイズは1702年イギリス生まれ。アマチュアの数学者であり、牧師でした。彼は「神の存在を方程式で説明できる」と主張した人物です。今から250年以上前、ベイズは「ベイズの定理」という方程式を発見しました。これは、確率の計算に「事前確率条件付き確率」という考え方を取り入れる方法です。
日本の学生が教わる一般的な統計学は、「頻度論」と呼ばれるものです。これは、データを取り確率を計算する際、答えは一つで、データは取り方によって確率的に変動するという考え方です。この計算は、対象となる個々のデータに「個性を持たない」ことが望まれます。平均的な確率を求めるのに有効で、工場の品質管理などに使われ大きな成果を上げてきました。
それに対して、ベイズは「事前確率条件付き確率」という考え方を確率の世界に示しました。あることが起こる、という事前に持っている条件のもとでの事後確率を計算する方法です。
この「事前確率条件付き確率」というものを取り入れた「ベイズの定理」は、のちにフランスの数学者ピエール・ラプラスや、イギリスの数学者フランク・ラムゼイ、イタリアの数学者、ブルーノ・デ・フィネッティなどに用いられ、現在のような「ベイズ統計学」に発展していきました。
「ベイズ統計」の考え方は、データを取り確率を計算する際、そのデータ対象は様々な考え方、思考、好みなど「個性を持って」おり、答えは一つではなくデータの変化によって更新していき、どのように動いていくかを論理的に推理する、という確率論です。

なぜ伝統的な確率論ではなく、今ベイズの確率論をベースとしたベイズ統計が注目されているのか?

出典:pixabay.com

現代は多種多様の時代です。流行りものをみんな持っていた一昔前とは違い、ネットの普及などによって少数派の意見も大切にされる時代。
マーケティング分析などに従来の確率論を応用しようとしても、対象データは複雑で多様で膨大!導き出された平均的な確率が、必ずしも現代人に当てはまるとは限りません。
そこで注目されだしたのが「ベイズ統計」です。個性豊かなデータを分析するのにその個性を受け入れてくれる確率論ということで、あのビル・ゲイツも「21世紀のマイクロソフトの基本戦略はベイズテクノロジーだ。」と述べたほど。
また、人工知能とベイズ統計を融合させた「確率伝搬法」という理論を完成させたジューディア・パールの出現など、ベイズ理論はここ10年ほどで新たな発展を遂げますます実用的になってきました。

ベイズ統計の利用例とは?

出典:pixabay.com

皆さん、Gメール、使っていますか?実はここにも、「ベイズ統計」が実際に使われています。
メールボックスには「迷惑メールボックス」というスパムメールを自動的に振り分け保存してくれるボックスがあります。このスパムメールかそうでないかを判断するのに「ベイジアンフィルタ」というものが使われているんです。
「ベイジアンフィルタ」は、あらかじめ機械学習をして、単語に点数をつけておき、対象となるメールに対して、スパムである事後確率と、スパムでない事後確率を計算して、より確率の高い方に振り分けます。
また医療分野では、発作前に歩き方が普段と変化することに着目し、微妙な歩き方の変化をカメラで撮影して発作の兆候をつかむということまで行われているそう。
曖昧な人間の行動までも予測出来るとしたベイズ。生前は異端児扱いされ、ベイズの理論は日の目をみることはなかったようです。一人の数学者の方程式が、現在のIT業界の主要な理論に発展し、また様々な分野で活用されはじめていることを、ベイズ自身は予測していたのか?がとっても気になります。

統計分野のスキルを磨けるインターンシップに挑戦したい方はこちら