6/16 dots.女子部勉強会 vol.9 「機械学習」をはじめよう!に参加してきました
我らがdots.女子部(現在170〜180人程度!)が主催する機械学習の勉強会に参加したのでその様子をお伝えします。
今回は基調講演、LT×4、懇親会という流れでした。
基調講演 横浜国立大学教授 濱上さん
「機械学習」をはじめよう! 〜基礎から活用事例まで〜
人工知能という言葉はGoogleの検索数から見ると2010年頃から流行っている。2011年はIBM Watson、2012年はGoogle Brain、2013年はDeepMind社の買収、2014年はホーキング博士の「人工知能の進化は人類の終焉を意味する」という言葉で紙上を賑わせてきた。
日本では2014年頃から話題になり、将棋でコンピュータが人間に勝つ度に話題になった。人工知能がすごいね、って言われたのはここ数年くらいの話。
1. 「機械学習」と「人工知能」の関係
人工知能の研究は195,60年くらいから。強いAIと弱いAIはだんだん近づいてきている。
2. なぜ、今ブームに?
上記などの理由により、道具は揃った。でもやっぱりいい素材、下ごしらえの知識、盛り付けの知識が必要。なのでデータを人がある程度加工して、出てきたものをまた人が加工したりしていたが、最近はこの部分もある程度機械学習がやってくれるようになってきた。
層の深さが深くなるほど、最後のほうで、何が間違ったのかわからなくなってしまう。それを解決したのがディープニューラルネットワーク。部分部分で学習が終了するようにする。伝言ゲームで間違いが広がっていくのではなく、深くても学習ができるように。
3. 機械学習をうまく使うポイントは?
どんな目的で、どんな問題をとこうとしているのか。たいてい1つを使っておしまい、ということはない。いつくかをうまく組み合わせていく。
■ポイント1 目的と問題クラスの整合性
■ポイント2 アルゴリズムの3つのタイプ
■ポイント3 データの規模・性質・品質
データがあれば何でもできるわけではない。本来のデータ空間が広すぎてデータが足りないとか。苦労するのはデータの仕様が難解、フォーマットがぐたぐた、Excel形式になっているなど。あとはインフラのログデータは誰も理解できなかったり、1人しかわかっていないとか。 現実のデータに対処するには、
データを綺麗にする(変なデータもデータのうち、という考え方もあるが) / なるべく次元を下げる
ことが大事。次元が多いとその次元分の内積計算をしなければならなくなってしまう。項目の中でも似ているものがあれば射影できるので、本質的に残っているものだけを使っていくべき。
■ポイント4 評価と運用
精度何%だけで終わるのではダメ。誤差評価基準としては適合率、再現率、F値、True Positive / False Positiveなどを使う。
4. 具体的な事例は?
- 救命救急コールトリアージの高精度化
- 回転機器故障予測
- 画像のモチーフ抽出
5. 何から始めたらいい?
世界的に見るとPython一色。これから取り組む場合は右側。
6. これからどうなるんでしょう?
■クラウドAI
スケールできるのが魅力的。ただ、データをクラウドに置くなんて冗談じゃない、という企業さんがいることも事実だし、今のところは基本的な機械学習のパーツがある程度。
機械学習はエンジニアの手を離れてコモディティ化をするかも。タイムリーな話で言うと、日本語が読めないエンジニアが日本語の手書き認識ソフトウェアを作ったという話もあります。
認識率98.66%?!たった2ヶ月で手書き日本語のOCRを開発したノンジャパニーズに話を聞いてきた - BITA デジマラボ
ただ、まだしばらくは訓練、チューニングが必要。
■機械学習がまだまだなところ
不完全情報ゲーム / 過学習 / 次元の呪い / 記号着地 / フレーム問題 / 現実のデータにいかに向き合うか / 人間を排除せず、かつ属人化を防げるか / 相互運用性の確立
囲碁や将棋は完全情報ゲーム。盤面に至るまでの情報を全て持っていて、それを元に予測する。しかし人は騙す、嘘をつくということをするので、ポーカーや麻雀などの不完全情報ゲームは不得意。
現実の世界では高い質のデータを「自動」で得ることに意識を向けるべき。
質疑応答
Q.コールトリアージの項目の選び方は?
A.医師の判断。項目の見直しは適宜必要。
Q.企業によってクラウド化を嫌うと思うが、暗号化の現実的なやり方は?
A.匿名化用のデータの作り方がある。idを2,3重にして、保管場所を別々にするなど。表に出てくる情報は個人情報は絶対ダメ。突合するための標準的なやり方はある。
Q.勉強方法として何をするのがいいのか
A.Dokerのイメージがあるので、それを使うだけでも。チュートリアル詳しいし。中身まで見るとなると数学の勉強から。クラウドAIを使っていれば線で繋ぐだけである程度のことはできる。
Q.実用のためのモデルは?
A.モデルは既に学習済みの出来合いのものを使っている。指針のドキュメントを見ながら過去の事例を参考にしつつ。明確な解はない。
Q.デジタルに取り込みやすいデータ、取り込みにくいデータの区別
A.取り込みやすいのは物理量、取り込みにくいのは非同期のもの。因果関係が理解できないとコンテキストが理解できない。バラバラのデータだと価値がない。
LT
懇親会と同時並行で行っており、私はドリンク配りの職務を全うしていた()ので、メモは取れていません。。。発表者とタイトルは以下の通りでした。
山下 澄枝 さん 「DeepLearningに幸せにしてもらいたい」
関郁子 さん 「これで恥をかかない⁉︎『音楽×機械学習』」
芦田 美保 さん 「これからダイエットしたら、どれくらいやせますか」
矢野桐子 さん 「Twitterのつぶやきで明日の自分のご機嫌を予測してみる」
togetter
2016/06/16 dots.女子部勉強会 vol.9 「機械学習」をはじめよう! #dotsgirls - Togetterまとめ
結構こまめに呟いていた方もいるので読むと参考になります。
このイベントのdots.女子部の記事
[レポート]勉強会 vol.9 「機械学習」をはじめよう!~ 研究機関での活用方法いろいろ聞いちゃいます! ~ - dots.girls blog