水曜日, 6月 29, 2016

Rで回帰分析へ

今日になって、亘香通商から10.4の納品書とライセンス番号の通知が届いた。しかし、昨夜までの奮闘で、今はMathematica10.4でのプログラミングは、原因不明のエラーが出て使い物にならない。それで、一時かそれいじょうかは不明だが、しばらく遠ざかることに。
小林夫妻の本の例題の8データだけは、data文で入力を受付、正解とは異なる値を出力して動くようにみえるが、同じデータ構造で20組とか36組のデータになると拒否してしまう。どうなっているんでしょうね。9.0に対してプログラムサイズが1.85倍近くおおきくなって、使い易くなったということもあり、相応の期待をしたのだが、これでは話にはならない。すでに10.4.1が発表されたということは、10.0から2年ほどで数回のマイナーチェンジをしているわけで、相対的に細かなバグも多いのかもしれない。いずれ、小生も報告するつもりだ。

で以前からやろう、やろうとしてできなかったRを少しまともにやることに。しかし、初めてのことであり、関門が控えている事ははじめから予想がついていた。すでに、昨日本屋さんに本格的なRの解説書を発注済み。


以前から集めていた解説`PDFを数本見てみるとどうもしっくりこない。それで新たにさがしていると、適当そう!?と思える解説に遭遇。

まず、外部データは適当な表計算データを用意し、しかるべき場所に保存するのは誰でも見当がつくことだが、デフォルトの場所や指定した場所がどこなのか、最初はまるきりわからない。Rの基本的なマニュアルには
2.1.9 作業ディレクトリの変更
ファイルからデータやプログラムを読み込んだり,ファイルにデータを書き出したりする場所を作業ディレクト リという.起動時はホームディレクトリ ( R の実行ファイルがある場所) が作業ディレクトリとなっているが,変
更する場合はメニューの [File] > [Change dir...] で指定するか,以下のような命令を与える. 􏰃􏰀
> setwd("c:\usr") # Windows では \ を指定しては駄目 Error in setwd(dir) : cannot change working directory > setwd("c:/usr") # 作業ディレクトリを指定
> getwd() # 現在の作業ディレクトリを表示
[1] "c:/usr"
􏰂􏰁
これ以後,指定した作業ディレクトリにデータがセーブされたり,プロットした図が保存される.』

とあるが、この解説では具体的にどうするかわからなかった。Mac版のファイルメニューには解説にあるような[File] − [Change dir...] などは見当たらない。

検索に次ぐ検索をくり返して、ようやくディレクトリ変更の手口がわかるのに、半日を要してしまった。

最初のcsvデータの読み込みも簡単に解説しているが、<- header="T)</span" read.csv="" taikei.csv="">
 とタイプしてもエラーが出て、その意味が分からない。

これが分かるようになったのはRStudioというアドインソフトをインストールしてからだった。
左のほうがそれであり、Rとは別にエディタやその他の補助をおこなってくれる。
Imported Datasetという項目で、あらかじめ読み込むデータの中身を参照できる。この機能のおかげで、それまで<91>などという2バイト文字がある、という意味が一目でわかり助かった。ただし、今日参照したcsv形式の解説は、項目に体重、身長などの漢字が使ってあり、日本語化したRならば問題がなかったであろうが、最新版を使ったせいか、日本語化もしていなくてそれで、読み込みでエラーが出てどうしようもなかった。

RStudioのツールメニューでImport Datasetを開きFrom Locale filewp選ぶと、自動的に読み込みたいデータを置いておきフォルダを開いて示してくれる。

この機能のおかげで、Rを開いたとき、最後の行に表示される
[履歴が次のファイルから読み込まれました /Users/macuser/.Rapp.history]の意味がよくわかった。/Users/macuser/の次は?
> getwd()
[1] "/Users/macuser/Documents"と出て、ここで初めて作業用ディレクトリは日本語でユーザの書類フォルダとわかるが、そういう対応関係だということは経験しないとわからない。


本日最初に注目したデータフォルダにいれるファイル形式でcsv形式に注目してしまったが、昔タブ分離とコンマセパレーテッドバリューを初めて知って以来妙に記憶に残り選んでしまったが、読み込みに何度も失敗する原因になってしまった。

原因を探っているとどうやら.txt形式が一番素直で、Rとは相性がいいらしい。

> data=read.table(“demodata.txt”, header=TRUE, sep=”\t”)

などと書いて読み込むらしいが、最初のcsvデータの解説では、ヘッダー
のT(uru)の事など上級向けらしく何もふれられていないので、戸惑ったし、手間がかかった。しかし、書き手を攻める訳にも行かず、あとは分析だけなのだが、ここで飽きてしまい、以前から気になっていたもう一つのエクセルのアドインを思い出し、そちらも手をつけてしまった。


この春、以前のようにエクセルMacで回帰分析をしようとiMac用にわざわざ買ったエクセルでデータ分析をしようとおもったら無かったので慌てた。以前は97ぐらいまでは着いていたように思ったが、現在はついていない。2016にはまた附いているようではある。

しかたなく、薦められるままに
を買っていた(といっても無料)で有料でアップグレードがついていたが、しないで放り投げていた。しかし、今日、気が変わってアップグレードしてしまった。Rの解説書3冊分くらいで一年ごとの更新のようである。カナダの会社である。




0 件のコメント: