Strata + Hadoop World参加記録 その1
色々ありまして、出張にてStrataに参加できることになり、前日にあるmeetupに参加してきました。会社に深い感謝の念を抱きつつ、記録的な何かを残していきます。Strata自体はまだ始まっていないけど同会場の一部でのmeetupだったため、前夜祭って感じが出ていました。
事前に発表予定だったClouderaの人等が参加できなくなったり、食べ物提供予定がなくなったりということで、400人程度参加表明をしつつ実際は50人もいないくらい?な感じでした。
内容としては、Spark1.3に入ってくるDataFramesの紹介でしたが、これまじでスゴイですね。 ほぼ同内容がブログでも公開されています。
- PandasやRのdataframeにインスパイアされたインターフェースで敷居が低い
- (DataSourceAPIとの関連だと思うけど)多様なデータソースに対応
- pipelineAPIとのコンボ
- Sparkそのものが遅延評価で動くことを活かして、裏側ではSparkSQLで利用するCatalystを利用するのでパフォーマンスが良い
ということで、今のところは良いことずくしに見えます。
※DataBricksが公開している検証結果(ブログ記事より抜粋)
という感じでかなり広く受け入れられそうな機能がどんどん増えていて大変素晴らしいという感じを受けています。
とりあえず触ってみないとですね。Spark進化が早くて追いかけるだけでもすごく大変です。せっかく現地にいるので速報っぽいのをやってみたかったので書いてみました。