マツド・サイエンス研究所

べき乗分布の場合のパラメータ推定

仮説レベル c4
2019.06.30

べき乗分布は、本当か?

『基礎研究や革新的技術開発の成果は、べき乗分布する』のは、本当か?
これが最大の課題であることは疑いない。
そして、それが本当か否かを判断するのは、実際のデータを取得するのが最善であることも間違いないだろう。
問題は「どのくらいのサンプル数が必要か」と「取ったデータを、どう処理するか」である。
一般的に思いつくのは「確率密度関数がべき乗分布になっているのが特徴なら、確率密度関数を求めれば良い」とばかりに、取得したデータを適当に区分することである。
例えば、「100万円の研究資金で、10万円未満の価値しか生み出せなかったのが〇人、10万~20万が□人・・(中略)・・290万~300万が△人、それ以外の300万以上は▽人」と言った具合にだ。
これこそ、まさに『ベル型信仰』の罠にはまった方法だ。 これでは、ごく少数しかない『本当に斬新』な基礎研究や革新的技術開発の成果が見過ごされてしまう。
少数の『本当に斬新』な基礎研究や革新的技術開発の成果が見過ごさないように、確率密度関数ではなく、累積分布関数をもとめて、べき乗分布の是非を判断し、べき乗分布であるなら、重要なパラメータである『α』と『β』を求める方法を以下に示す。

べき乗分布の累積分布関数

べき乗分布の累積分布関数は下のような式とグラフで示される。
F X = 1 - β α - 1 X - α + 1
上のグラフを見れば、「取得したデータを単純に累積分布関数に最小二乗法などでフィッティングしても、誤差が大きそう」だと考えられる・
そこで、対数で表示したのが、下のグラフだ。このようにグラフは直線になり、パラメータは容易に推定できそうだ。ただし、このグラフでは、Y軸は、 1 - F x を対数で表示している
上のグラフでは、前4つと後ろ4つで β α - 1 を一定にするように、βを設定している。
この結果、グラフは「x=1」とところで、それぞれ1点で交差し、この座標が β α - 1 となる。
また、グラフの傾きが、-αを示している

モンテカルロシミュレーションで確認する

べき乗分布の場合 その3の所謂「2 8 の法則」と同じ条件モンテカルロシミュレーションを行い、
すなわち、L = 、M = 、N = α = 1 + log N M = を当てはめてみたのが、下のグラフである
なお、取得したデータから累積分布関数 F(x) を求めるのに、以下のようなテクニックを使っている。
取得したサンプル数を N とする。
取得したデータ X : 『基礎研究や斬新な技術開発が生み出す価値』÷『研究や技術開発に必要な資金』 をソートして、小さい順に並べる。 i番目に小さいものを X i とする。
i番目に小さい X に対応する 累積分布関数 F(x) の値を、次のように計算した。
F i = F X i = i - 0.5 N
次に、直線近似をおこなった。。
p i = ln 1 - F i
q i = ln X i
として、下式のような一次関数に近似した。
p = A q + B
一般的にしられているように A と B は、次のように求められる。
A = n i = 1 n q i p i - i = 1 n q i i = 1 n p i n i = 1 n q i 2 - i = 1 n q i 2
B = i = 1 n p i i = 1 n q i 2 - i = 1 n q i p i i = 1 n q i n i = 1 n q i 2 - i = 1 n q i 2
A と B から、α と β を求める。
α = 1 - A
β = - A e - B
結果を示したのが、下のグラフであり、赤がシミューレションの元になった理想的な累積分布関数、青い折れ線がモンテカルロシミューレションの結果、緑の線が一次近似して求めた α と β から計算した累積分布関数で、概ね推定に成功していることが判る。

サンプル数は、どの程度必要か

下のグラフに、サンプル数と推定誤差の変化を示す。今までのグラフは、横軸が X だったが、以降のグラフは、横軸がサンプル数になっているので、注意。
概ね、サンプル数が1000を超えると、パラメータの推定誤差が少なくなる。
α の値と必要となるサンプル数との関連性を確認したのが、次のグラフ。概ねどんな α でも、サンプル数が1000を超えると、パラメータが推定できることが判る。