MaruLabo x JAWS-UG AI に参加してきました

丸山さんにお声がけいただいて、チューターの雰囲気感を出しつつ、他のコミュニティの様子を覗かせていただきました。 AWSさんでの開催でしたが、利用するフレームワークMXNetではなくTensorFlowでした。ありがたやー

jawsug-ai.connpass.com

基本的な内容はTFUGと共催したものと変わらずで環境が変わるような流れでしたが、JAWS-UG AIさんではTensorFlowがインストール済みのAMIを使うのと、GPUインスタンスも使うのが異なる点でした。

環境構築

qiita.com

  • AWSには公式のDeep Learning用AMIがあってすごい便利かなぁと思います
  • が、このAMIはまだ東京リージョンにはいらっしゃいません
  • あと、CUDAが7.5のため、TensorFlowの最新バージョンのv0.12は動かないという問題もあります
  • というのはありつつも、GPUインスタンス x このAMIが、GPUでDeepLearningやってみる最適解っぽいです
  • nvidia-smiコマンドでGPUのステータス確認した時に「おおっ」と声をあげる参加者がいらっしゃったのが個人的には印象的でした。やっぱりGPUは重要なのかも。

デモアプリの動作

qiita.com

  • TFUGでやったGCPのvCPU16のインスタンスと比較しても、GPUx1のg2.xlargeインスタンスで体感速度が全然違うので、CPUと2つやるとよりGPUのありがたみが分かるのかも。

コミュニティの雰囲気の違い

最近GCP系ばかり顔を出してたのでAWSの雰囲気はオフィスやスタッフや参加する人などがちょっと違う感じでなかなかおもしろかったです。多少はお手伝いする機会があるかと思いましたが、異常なまでにサポートの人が多く、一参加者風にしてひっそりとしておきました。

JAWS-UG AIさんとの共催も再演するとのこと。また、来月にMSさんでAzure上のハンズオンもTensorFlowを使うらしいです。

TFUGについにロゴができました

まずは誕生の瞬間をご覧ください

f:id:rindai87:20161222235507j:plain

パチパチパチパチ

ロゴない問題

コミュニティ活動において、ロゴって重要ですね。シンボルですから。

これまではTensorFlow本体のロゴを使っておりましたが、ユーザーグループであってTensorFlow自体ではないため、権利関係がまあまあグレーな感じでした。

先人たちのロゴ

うまくいっているコミュニティはいい感じのロゴがコミュニティの中心にドーンっといらっしゃいますね。

例えばGCPUG

https://gcpug.jp/images/logo_box.png

Google Cloud Platform User GroupでGCPUGと略されジーシーパグと呼ばれマスコットがパグです。なんて素敵なんでしょう。

例えばJAWS

https://jaws-ug.jp/wp-content/uploads/2013/02/logo.png

AWS User Group JapanでJAWSと略されジョーズと呼ばれマスコットがサメです。なんて素敵なんでしょう。

TFUGは?

f:id:rindai87:20161223000248p:plain

TensorFlow User GroupでTFUGと略されティーフグと呼びマスコットがフグ、ということにします。なんて可愛いロゴなんでしょう。

ロゴに込めた思い

  • 機械学習/深層学習は良い素材(高級魚であるフグ)
  • 機械学習/深層学習はけっこう落とし穴もある(フグの毒)
  • コミュニティで毒に当たらないようにうまい捌き方を学び/共有しあおう(フグを美味しく食べる)
  • 敷居が高そうな機械学習/深層学習に親しみが持てる(可愛いらしさ)

ってことにします。

まあ、実態は、TFUGって文字列と先人たちの流れに乗ってフグって決めて、後から考えたらけっこうコミュニティでやりたいことを表現されているモチーフだったので結果オーライでしょう。

しかしこのロゴ、眺めているとなかなか愛着が湧いてきて、ステッカーとか缶バッチにしたらすごい良いんじゃないかっていうね。また、Tシャツを意識した別バージョンも準備されているとかいないとか、げふんごふん。

ロゴもできましたので、今年の締めくくりとしては最高だったのではないでしょうか。来年はロゴもできたのでますますパワーアップして活動していきたいですね。

ディープラーニング・ハンズオン @ Google を開催しました

今年最後のイベントを実施しました。Marulaboさんと共催でハンズオンです。

tfug-tokyo.connpass.com

なんかとんでもなく集まってしまい、倍率10倍以上となりました。。。抽選外れた方は申し訳ありません。

f:id:rindai87:20161221013550j:plain

またもやいい感じの写真を取っていないというミスです。

実施した内容

Conpassページにも記載しましたが、基本的にはGCP上でGCEを立ち上げTensorFlowをインストールし、CPU版TensorFlowでチュートリアル+αをやりましょう、という内容でした。一応、全部で4パートに分かれていました。

Google佐藤さんより TensorFlowの近況の話

いつも聞いているようで微妙に新しい話があるんですよねぇ。TensorFlowの勢いすごい。

丸山さんより 深層学習の理論面の話

HandsOn.pptx - Google ドライブ

下田よりTensorFlowのインストール

qiita.com

古川さんより チュートリアルコード+デモアプリの話

qiita.com

ハンズオンイベントは難しい

ハンズオンイベントは始めてでしたが、参加者のレベル感も手探りで、かつ学習処理が長時間走る深層学習のハンズオンって塩梅が難しいですね。 プログラムを実行してからが長いし。。。途中グダったようになった部分もあり、諸々反省が多いイベントでした。

CrashAcademyさんによりLive配信されていましたので、雰囲気はそちらからも見て頂けます。

www.youtube.com

再演します

応募者多数なので年明けに第2回をやることになっており、「再演」っていうタイトルがついてますが、上記のたぶん編成含めて構成や内容には手を入れることになるでしょう。

tfug-tokyo.connpass.com

12/27までに申し込まれた方は抽選対象となりますので、興味を持たれた方は是非!

TFUG#2を開催しました

この前にも別のイベントを開催していたりいるのですが、全体的に準備と運営でバタバタ気味ですね。今回は写真も撮れなかった。。。 今回も大入り満員となりました。参加率も高いですし、主催者としてはありがたい限りです。

tfug-tokyo.connpass.com

資料が公開されているものも合わせてご紹介です。ゆっくり見れなかったので後で動画と合わせて復習をしないと。

qiita.com

ライブ配信も行っていますし、録画したものも公開しています。


TensorFlow User Group #2

その他も色々やっています

最近けっこう色々頑張っていますので、合わせてその紹介です。

TensorFlow Advent Calendar

qiita.com

2015年のアドベントカレンダーは参加人数1人と寂しい感じだったので、大躍進ではないでしょうか?

購読数ランキングも14位とそこそこ健闘している気がします。いいね数が少ない辺りが硬派なTensorFlowっぽいですね。

qiita.com

NN論文を肴に飲む会#1

tfug-tokyo.connpass.com

私は論文をゴリゴリ読む人ではないので、読む人に主催していただいてそのお手伝いという感じです。 事前に「ゆる〜く」を連呼していたのにもかかわらず、酒の勢いでガチっぽくなっていた気がします。2回目あるのでしょうか?

TensorFlow User for Biz #1

tfug-tokyo.connpass.com

個人的には盛り上げて行きたいやつです。たぶん普通のTFUGは適当に発表者が集まって適当に盛り上がるはずなので。

今後やるやつ

ハンズオンイベントです。軽い気持ちで企画したらえらいことになりました。TensorFlowの本家にあるのと同じ内容なのですが。。。 tfug-tokyo.connpass.com

あまりに人気なので、1月にもやることにしました、が、これも公開直後に埋まってしまった。。。人気ですね。。。

tfug-tokyo.connpass.com

こうやって見ると結構いろいろやっていますね。年内にロゴ問題に決着をつける!次のTFUG#3は来年2月くらいの開催ですかね。

TensorFlow User Group #1を開催しました

Googleさんのオフィスを借りて10/7に立ち上げたTensorFlow User Group(TFUG)のミートアップを開催させていただきました。

GoogleのGregさん初め、非常に豪華なスピーカーを招いて開催できました。

tfug-tokyo.connpass.com

Googleブレインチームのco-founderのGregさんの参戦によりTVの取材が入るなどしました。AIってすごいんすね。(主催者が言うな) f:id:rindai87:20161013013326j:plain

また、山口さんの発表中にはみんなでラジオ体操も行い、一体感もかなりある会となったのではと思っています!!!

ライブ配信も行いましたので、もし参加できなかった方で興味がある方は御覧ください。なんと濃密な3hだったのか。


TensorFlow User Group #1

Gregさん、山口さん、中原さんの資料は公開されているので合わせてどうぞ。

Gregさんの資料

goo.gl

発表資料自体はこれかな

github.com

全然関係ないですが、Gregさんの発表の半分くらいは私のDevFest Tokyo 2016の発表資料でも似たようなことを言っていたようで、謎の自信を持てました。(( ・´ー・`)どや)

speakerdeck.com

資料中に言及しているtf.learnとかKerasとかの話はもう少し詳しく以下に書いています。

qiita.com

山口さんの資料

www.slideshare.net

中原さんの資料

www.slideshare.net

1回目が異常に濃かっただけに2回目が大変だなぁと思いつつ、年内にはもう一回はやりたいところ。何か話したいと言ってくれた人もちらほらいたのはうれしいですね。

DevFest Tokyo 2016で機械学習とかTensorFlowの話をしました

タイトル通りですが、最近色々あって、TensorFlow user Groupというものを立ち上げることになり、その結果立ち上げの決起会翌々日の10/9に開催されたDevFest Tokyo 2016 で 「TensorFlow User Groupから来ました〜」という謎の形で参加させていただくことになりました。TensorFlow User Group自体は10/7付で立ち上げたばかりなので、ロゴも何もない感じでTensorFlowのロゴを借りていますが、滑り込みで他のコミュニティと並べていただきました。

f:id:rindai87:20161009225910j:plain

DevFestとは

googledevjp.blogspot.jp

DevFest は、Google Developer Group(GDG)コミュニティによって世界各地で開かれるデベロッパー向けイベントです。参加者は Android、Firebase、Google Cloud Platform、TensorFlow による機械学習、Webなどの Googleデベロッパー テクノロジーに関する技術情報、知識やアイデアを共有できます。

と言うGoogle関連の技術コミュニティ主体のデベロッパー向けのイベントですね。これから全国で開かれていくみたいですが、その最初のDevFest Tokyo 2016にて発表させていただいたというわけです。最近Google機械学習人工知能を推しているわけで、そんな中でお話させていただいたのは光栄ですね。

gdg-tokyo.connpass.com

最近妙に広めの会場で話す機会が多くて、今日も一番大きなホール(満員で500名)が割り当てられていました。まあでも人間慣れるもんでだんだん緊張などはしなくなってくるもんですね。

f:id:rindai87:20161009230032j:plain

と、思ってたら、今日は朝から大雨で参加率自体がかなり低かったとのことで比較的空席が目立つ感じでした。

f:id:rindai87:20161009230133j:plain

この後もうちょい人が増えたと記憶していますが、せいぜい2/3も埋まってないくらいだったかなぁ、という感じです。

発表資料は公開してます

軽い気持ちで引き受けたら、TensorFlow User Group立ち上げの準備も色々あったり、業務などが諸々重なって資料作成が一週間前でも完全に未着手で久々に冷や汗ものでした。 今回は奇跡的に資料作成の神が降りてきて、なかなか良いものができた気がしています。タイトルが無駄にキャッチーですが、まあ内容は至って普通の機械学習とTensorFlowの基本の話で、すでに公開済みです。

speakerdeck.com

発表自体も比較的好調だったような気がして、AndroidエンジニアやWeb系のエンジニアが多い場だったため、機械学習やTensroFlowの立ち位置を明確化するように努めたのが勝因かもしれないと思っています。

TensorFlow User Groupについて

元来わっしょいしていくこと自体は得意ではないのでこれからどうしたものか、という感じですが、個人的にはビッグデータブーム、データサイエンティストブームの時のように技術を理解していない方々に蹂躙されて焼き畑にされてしまった感があったのがやや悔しく、日に日に高まる人工知能/機械学習ブームについてはそうならないようにしたいな、と思ってはいます。ので、まあ端っこの方でそういう気持ちを持ちながら楽しんでコミュニティ活動をしていきますよ、と。

tfug-tokyo.connpass.com

まずは第1回のMeetupを10/12(水)に開催です。いきなり濃い目の会になるのですが、2回目以降も継続して開催していけるようにしたい。参加や発表への閾値を下げていくのがポイントですね。

PR記事:データ分析の複雑化/大規模化に伴う環境の変遷と途中にある壁

仕事柄、色んなパターンのデータ分析してる人の環境を見る機会があるのですが、よくあるのは下記のような7つかな、と思います。段々とやりたいことが複雑/高度化する、もしくはデータの規模が大きくなると下の方に進んでいく気がします。

(私見ですが)よくある7つのパターン

1. WindowsGUIアプリやWebサービスの管理画面

いわゆるエンジニアじゃない方がデータ分析を行う時はまずここからではないでしょうか。Excelなども何気に高機能ですし、Tableauなどでも色々できます。Web上でもGoogle DocsのSpreadSheetはExcel並に色々できてしまいます。

2. Windows上でのプログラミング

少し高度な事や複雑な事をしたいなぁ、と思ったらこの領域になるのではないでしょうか? Excel上のVBAから始まり、Rを使ったり、それでも足りない部分はPythonを利用したり、という感じでしょうか。

そこまで高度な事をしない、もしくはそんなにデータ量が多くないかぎりは、この領域でほとんどカバーできてしまうイメージです。

3. Linux上でのコマンド操作

データソースが複数にまたがったり、データの加工処理が必要になってきた場合はWindowsでは段々辛くなってきて、脱Windows化が起きてくる気がします。組み込みのコマンドを駆使したデータ加工を行うイメージです。最近では仮想マシン上で簡単にLinux環境を手に入れられるようになっていますね。

4. Linux上でのプログラミング

コマンドだけではできない加工処理や、加工処理からそのまま統計や機械学習の処理を行う場合をイメージしています。手軽なところではAWKなどから、シェルスクリプトへ、そしてPythonなどに向かっていくイメージです。

5. DBとかKVSとかを自前で用意する

Linux上でもファイルを読み込んで処理するのが辛くなってくる(メモリに全部載り切らず値の突き合わせができない、時間がかかり過ぎる、等)ので、元のデータソースとは別に、処理の中間着地点として、DBやKVSの利用を検討し始めます。段々とミドルウェアの知識が必要になってきます。

6. Hiveとか、最近だとMPP

データが大きすぎて単体のマシンだといつまで時間がかかるか分からない、そもそも上手く処理できない、みたいなケースが出てくると、Hadoopだー、Sparkだー、という世界になります。が、HadoopやSpark上でそのままプログラミングするのはツライので、HiveやPigなどの裏側でいい感じにMapReduceを生成してくれるものに頼り始めます。最近だとImpala, Presto, Drill等もでしょうか。要はクエリをどんと投げていい感じにデータを抜き出したり加工したいという要望でしょうか。AWSのRedshiftやGCPのBigQueryもはいってきますね。

7. Hadoop/Sparkなどの環境下でのプログラミング

Hive等では手がとどかない部分までコントロールしたい、しなければならない、となって直接プログラミングを行います。分散、大規模やで!(意味不明)

問題意識:2と3の壁が大きい

2と3の壁が非常に大きいと思っています。何となく3になると「黒い画面」になって尻込みする人が多くなって、3以上の人が「こっちに来ましょうよ」と言っても「ちょっと・・・」となってしまう方が一定数いるような気がしています。4と5なども壁としてはありますが、今の仕事で関わる範囲だと、2の人が3になることがデータ分析の業界全体にとってメリットが大きいことかなと思っています。

もちろん、データ分析に携わる人がみんなLinuxなどを扱える必要があるかは微妙なところですが、課題意識としてここを越えやすくする何かが必要だなぁと考えていました。そのタイミングで、縁ががありまして、まさにドンピシャな本の監訳に関わらせていただくことができました。

Data Science at the Command Line

Data Science at the Command Line http://datascienceatthecommandline.com/

本書は著者のJeroen Janssensさんがブログで書いた7 command-line tools for data scienceという大反響となったエントリが基になり、ものすごく大幅に加筆されたものとなります。

実際に発売されているのはこっち

コマンドラインではじめるデータサイエンス ―分析プロセスを自在に進めるテクニック

コマンドラインではじめるデータサイエンス ―分析プロセスを自在に進めるテクニック

本書のポイントとしては、データサイエンスを行うプロセスをOSEMN(awesomeと読むらしいです)と定義して、それぞれのプロセスをコマンドラインで行おう、というものになります。curlなどでAPIからデータを取得して、JSONの結果をjqでパースして...のようにデータの取得、加工にもかなり重きをおいているのがポイントかと思います。また、VMが配布されており、本書で扱っている作業は全て再現できるのも、WindowsユーザーでLinuxに二の足を踏んでいる方にとってはとっつきやすいのではないかな、と思っています。

すでに上述の分析環境で3以上は楽勝です、という方には物足りない内容かもしれませんが、私自身も本書の監訳を通じてこれまで知らなかったけど便利そうなコマンドを知ることができました。

あ、そうそう、監訳に参加したメンバーにて、いざ使うにあたって躓きポイントになりそうな日本語に関してや、弊社でよくある分析パターンなどを書きおろしています。

編集後記

発売の前後のタイミングがちょっとバタバタしており、非常にタイミングが悪いのですが、マーケティングに関する企業に勤めているので一度やってみたかったコンテンツマーケティングってやつです。こんなマニアックなブログの記事を見る人なら関連性は多少なりともあるでしょう。みなさん書店で手にとたり、Amazonでポチったりしてみてくださいね。

反省点など

  • キャッチーなタイトルをつけられなかった(難しい)
  • 記事は30分以内に書くと決めたが45分くらいかかった(記事を書くのはそう簡単ではない)
  • 内容が薄っぺら過ぎる(ささっと書くので深掘り感が足りない)
  • うまいこと商品の紹介に繋がらなかった(文章力の問題)
  • この記事に分析っぽい書籍のレコメンドとかしたらどうなるのだろうとか漠然と思った

まあなんでもやってみないと分からないですし、簡単な話はないですね、という。