データサイエンティスト【その4:ツール】
データサイエンスと統計の違い
データサイエンスは、従来の統計の手法に加えてなんかいろいろすることらしいのだが、正直雲をつかむような話でさっぱり分からん。
この辺の話は正直うんざりなので、もっと実務的なことが知りたい。
データマイニングについて
だんだん実践的な説明になってきたぞ^^
データ収集
情報の正確さや有用さは求めればコストがかかる。問題そのもの以上に、常にコストと利益のバランスを考えることが大事なのだそうな。とにかく正確であればいいというわけではないんだね。さじ加減がむずかしそうだ。
データの前処理
データにはえてして欠損があるものである。その中には、ランダムで欠けているものと、規則性があって欠けているものがある。このうちで、問題になるのは後者、規則的に欠損があるデータである。それを処理すべきなのである。
systematicなデータ欠損
よく分からんが、バイアスが働いてしまうそうで良くないとのこと。これは今後分かるようになるのかな?
具体例を読んだがよく分からんが書いてみる。
とあるデータの中で、特定の集団だけincome(収入)の項目が未開示とする。もし、ある発見があり、それがincomeに由来するものの場合、解析結果に影響を及ぼすことになる。そこで、そういったデータは削除するなどの処理が必要なのだ。
データを変化させる
データの統合
データの中には、似たような項目が多い場合がある。そういったデータが邪魔をすることもあるので、調査内容によってはデータの統合が必要なのである。
データ形式の変更
カテゴリという概念がある。数値ではなく、高低などで表すことで、非線形の概念を取り入れる。なんのこっちゃ。
(気になる単語)なんか、excelでよく出てきたな・・・
aggregate:集計する
consolidate:統合する
データの保存
変化後のデータは、どうぞいじくりまわしてくださいの精神でいよう。
逆に、元データの保存を考慮することが超大事。元データを分かりやすい場所に置くことも大事だし、セキュリティも大事だ。
データマイニング
データを堀り堀りするよ。一番基本的な内容は、可視化することにあるそうで。他にも、様々なマイニングのアルゴリズムがある。今後わかっていくことに期待。
マイニング結果の評価
マイニングしたら、それがどれほど有効かを評価する必要がある。もちろんいろいろ手法があるのだろう。そしてそれを用いてさらに先の改善につなげる。
in-sample forecast
得られた予測を、既知のデータで試すこと。