データサイエンティスト【その4:ツール】

データサイエンスと統計の違い

データサイエンスは、従来の統計の手法に加えてなんかいろいろすることらしいのだが、正直雲をつかむような話でさっぱり分からん。

この辺の話は正直うんざりなので、もっと実務的なことが知りたい。

データマイニングについて

だんだん実践的な説明になってきたぞ^^

データ収集

情報の正確さや有用さは求めればコストがかかる。問題そのもの以上に、常にコストと利益のバランスを考えることが大事なのだそうな。とにかく正確であればいいというわけではないんだね。さじ加減がむずかしそうだ。

データの前処理

データにはえてして欠損があるものである。その中には、ランダムで欠けているものと、規則性があって欠けているものがある。このうちで、問題になるのは後者、規則的に欠損があるデータである。それを処理すべきなのである。

systematicなデータ欠損

よく分からんが、バイアスが働いてしまうそうで良くないとのこと。これは今後分かるようになるのかな?

具体例を読んだがよく分からんが書いてみる。

とあるデータの中で、特定の集団だけincome(収入)の項目が未開示とする。もし、ある発見があり、それがincomeに由来するものの場合、解析結果に影響を及ぼすことになる。そこで、そういったデータは削除するなどの処理が必要なのだ。

データを変化させる

データの統合

データの中には、似たような項目が多い場合がある。そういったデータが邪魔をすることもあるので、調査内容によってはデータの統合が必要なのである。

データ形式の変更

カテゴリという概念がある。数値ではなく、高低などで表すことで、非線形の概念を取り入れる。なんのこっちゃ。

(気になる単語)なんか、excelでよく出てきたな・・・

aggregate:集計する

consolidate:統合する

データの保存

変化後のデータは、どうぞいじくりまわしてくださいの精神でいよう。

逆に、元データの保存を考慮することが超大事。元データを分かりやすい場所に置くことも大事だし、セキュリティも大事だ。

データマイニング

データを堀り堀りするよ。一番基本的な内容は、可視化することにあるそうで。他にも、様々なマイニングのアルゴリズムがある。今後わかっていくことに期待。

マイニング結果の評価

マイニングしたら、それがどれほど有効かを評価する必要がある。もちろんいろいろ手法があるのだろう。そしてそれを用いてさらに先の改善につなげる。

in-sample forecast

得られた予測を、既知のデータで試すこと。