日曜日, 6月 08, 2008

前回、ルジャンドルの最小二乗法には、確率的枠組みがなく、彼が誤差とよんだのは、残差でしかないという安藤教授の『最小二乗法の歴史』(現代数学社)の引用をした。
http://yhsvtex.blogspot.com/2008/05/18-1950.html

私も最初の理解はまさにルジャンドル先生と同様なあるいは当然ながらそれ以下の理解しかしていなかった。しかし、自分の解析結果を、発表する段になるとさすがに不安になり、泥縄式にあれこれ試行錯誤し、自分の結果がどの程度信頼がおけるものか大変気になった。

それで、信頼区間とか、推定値そのものの成り立ちの性質とかを自分なりの実験結果でのカンなどもふまえあれこれ考察することになった。そのために線形代数を学び直したり、数式処理ソフトを活用しての、乱数を加えて推定値がの程度変化するかなどの、シミュレーションなどもやってみた。



その結果はここでは割愛する(Mathematicaによる多変量解析、小林道正・小林厚子著、現代数学社、1996に例が示されている)が、誤差の影響がサンプル数によって、偏回帰係数の挙動にどう影響するかを見たものの一例が右図。サンプル数は精度が同じ程度保証されれば多いほうが好ましい一例。サンプル数が限定されてくると、混入している誤差の程度により、推定値に大きく響く傾向が見て取れる。ただ、生物データの場合、サンプル数をむやみに増やせないので、制約が課せられる。

2変数を説明変数とする重回帰分析の場合、通常のモデルは以下のようである。



ここで、eiは各観測に独立に付随する誤差項であり、偶然誤差のほかに系統誤差なども含まれるとする。(時系列データの場合は、誤差項にも系列相関が認められたりする。そうした場合の解析には、MathematicaにはパッケージでTime Seriesが用意されている。)最初の頃は、残差に注目して、モデルタイプを考えていたが、それだけでは不十分らしいと気がついた。

計算手段が発達し、エクセルだけでも、上の式の重回帰などは、数値をセルに入れておくだけで結果は得られるようになったが、それ以前は計算量の少ない単回帰タイプが好んで使われていた。




ここで、モデル(2)、(3)のは、モデル(1)のβ2に相当し、それぞれの推定方法を便宜的にMethodIIIaとMethodIIIbとした。通常の重回帰式の結果はMethodIと
した。


この図は、観測値をソートし、一番目から20番目を第一セット、2番目から21番目を第2セットとして、30回の試行を、各モデルタイプ毎に検討した結果で、データ数が同じであるにも拘わらず、変域の小さいほうで、
ふたつの単回帰モデルにおいて、推定値が大きく変化することが見て取れる。

主たる原因は、変域の小さなグループに含まれる誤差項の影響がまず考えられる。データにどのような誤差が含まれているか考慮せずに、対の一方の変数の値で、目的変数も含め除算を実行したものを解析したために、
見えない誤差項も、それぞれ拡大や縮小を伴い、比較的大きく変化したと考えられる。他方の変数が、1以下であれば、本来の誤差の数倍の誤差を持つ結果になっているデータが組み合わされる結果も考えられるため、
影響は多大である。それゆえ、こうしたモデルで、比較的少ないデータ数によって、解析された値の信頼性は低い場合があるという一例で、一概に従来の結果を否定はできないが、モデリングの際の留意点として取り上げてみた。

なかのひと



Firefox meter

0 件のコメント: