くらえ!玉ねぎマシンガン!!ぼんっ!!!
データを集めることにハマってる。CSVフォーマットで集めてるんだけど、もっと良いフォーマットってあるのかな。
集めるために特別な技術は使ってないんだけど。PerlのWebScraperとか、ShellscriptのCurlとかWgetとか使ってGrepとかSedで加工してCSVフォーマットに落とし込んでる。
Googleでfiletype検索で絞るとエクセルファイルやCSVファイルが手に入るので、スクリプトを書いて集めるのがめんどくさい時はそれで手に入れて眺めてるみたいなことをやってる。
集めたデータは、RStudioで眺めることにしている。まあRStudioなので統計処理なども出来るんだけど、今のところは簡単なグラフを書いたり、数字の特徴を見るために代表値を出力してるだけ。回帰分析とかやってみたんだけど中々難しい。
統計学とか分かれば、もっと質の良いデータが手に入りそうな感じはあるんだけど、数学とか分からないといけない。プログラマの数学っていう本を買ってみたんだけど、かなり遠い道のりな気がする。
適当にデータを集めるのが精一杯