Strata + Hadoop World参加記録その5 - 元データ分析の会社で働いていた人の四方山話

という感じで念願のStrataに参加でき、無事日本に帰国して落ち着いたので色々振り返ってみています。

今回の個人的な感想

Starata + Hadoop Conferenceと言いつつ、ほぼ誰もHadoopの事は言わず、ほとんどがSparkネタという。いよいよ、という感じですよね。
— norihiro shimoda (@rindai87) 2015, 2月 19

という感じです。これは、Hadoopがオワコンとかそういう訳ではなく、もうすでにHadoopが浸透しきって、MapReduceによるバッチ処理はひと通りやり尽くしたので、次になにを？、という感じで、MapReduceが苦手としていた繰り返しの処理に強いSparkが、特に昨今の機械学習への注目と相まって、まさにブレーク一歩手前、という感じになっていた、というのが正確な表現でしょう。

DatabricksのCTOのMateiさんのトークからもその勢いがうかがわれます。

New directions for Apache Spark in 2015 from Databricks

Sparkの利用実態は？

皆さんまだ検証段階というのが実情のようでした。しかし、これからまさに本番投入していく直前、という感じを受けました。

なので、これからどんどん本番投入しました、という感じの動きが出てくるのでしょう。実際、これまでのSparkの話は機能的な側面の話が多かったですが、今回のStrataでは機能の話以上に、チューニングや内部的な仕組みの話を行って、実運用を始めた時にぶつかる壁の回避策等を伝播しようとしている感じを受けました。

Tuning and Debugging in Apache Spark from Databricks

Everyday I'm Shuffling - Tips for Writing Better Spark Programs, Strata San Jose 2015 from Databricks

Stream処理も熱い

MapReduceを用いたバッチ処理が一巡し、次に注目が集まっているのがデータ処理のPipeline化に伴うStream処理の話のように感じました。この領域は現状だとKafkaを組み込んだアーキテクチャ一択な印象を受けました。Kafkaを中継地点としたPipelineの構築が事例としても多く上がっていました。Kafkaまわりのトピックとしては、SparkとDatabricksの関係のような感じで、Confluentという会社があったり、LinkedInのベンチマーク結果は驚異的であったりという感じでしょうか。アーキテクチャもかなり面白いものになっています。

で、Kafkaとのコンボでは、これまではStorm一択だったところに、SparkStreamngや、SamzaのApacheトッププロジェクト昇格などにより選択肢が多様化している状態です。

正解はないにせよ、Sparkエコシステムに乗っかりやすいSparkStreamingは大きな注目を集めていました。実際に、Strata内でも一つのセッションとして紹介されていました。

Spark streaming State of the Union - Strata San Jose 2015 from Databricks

インメモリの分散DB系の台頭

Sparkよろしく、メモリをうまく使う系のDBも存在感を示していました。

MemSQL、VoltDB、AeroSpike、などなど...

詳細はちゃんと見ていないですが、それぞれACID特製をサポートしており、データのロストも無いと言っていたので、耐障害のところも考えられているのでしょうね。MemSQLなんかは割と舐めていましたが、デモでは恐ろしくパフォーマンスが良いように見えました。

MesosとかYARNとか

大人の事情でBDAS(Berklay Data Analysis Stack)の仲間のMesosの事をDatabricksが言わなくなったもので急激に影が薄くなっていたMesosですが、YARN on Mesosの話が上がってきていました。そんなにぽこぽこYARNクラスタ作らないでしょ、と思うのですが、myriadというまさにYARN on Mesosを体現しているOSSが出てきており、MapRのTedさんがメンターをしているようです。という訳で、何がしかの狙いがあるプロダクトのような気がしますが、真相は分かりません。

その他あれこれ

書き始めるとキリがないのですが、相変わらず機械学習の話題はホットですし、その中でもDeepLearningは注目を浴びているようです（日本と同じですね）。個人的には、アルゴリズム的なブレークスルーはもちろん、GPUの力技合戦に見える部分もある中で、DeepLearningとSpark等がどうか変わっていくのかは注目しています。そんな中で、DeepLearning × Sparkという意味では、H2OやDeepLearning4J等に注目が集まっているように感じます。話を聞くとH2Oは思った以上に評判が良く、開発スピードも非常に早いようでした。

さあどうしよう？

という感じで、個人的にはSpark＋αのビッグウェーブを感じ、「乗るしかない！このビッグウェーブに！！」という感じです。現地でもぽろっとつぶやいたのですが、

Sparkの日本コミュニティって結局無いんでしたっけ？是非なんかやりたいなーと思ったりしているのですが
— norihiro shimoda (@rindai87) 2015, 2月 19

という感じで、何かできるといいな～、という感じです。今のところほぼノーアイデアではありますが、何かできるといいですね！ご意見含め、皆さんの熱い思いが高まれば何か起きるかも？？

こういう感じで海外出張させてくれて今の環境はありがたい限りですね〜