AMP Campをひと通りさらってみる:第5回 Data Exploration Using SparkSQL

第5回はSparkSQLです。

Data Exploration Using SparkSQLのメモ

  • SparkContextオブジェクトをラップしたSQLContextを作成する
  • 例ではParquetフォーマットのデータを取り扱う
    • Parquetフォーマット化されたWikipediaのデータからberkeleyという文字列を取り出す
  • Parquestファイルの読み込み結果の戻り値はSchemaRDD
    • SchemaRDDは通常のRDDと同じ関数を全て持っている
    • カラムの名前や型などの情報を保持しているため、テーブル登録を行った後にSQLクエリを投げることができるようになる
  • SQLの結果は常にRowオブジェクトのArray
    • Rowオブジェクトを通じて、各カラムにアクセスできる

SchemaRDDを作ってしまえばSQLが使えるので非常にETL処理が簡単になりますね。結果をまたRDD化して他に処理に渡していけばいいのかな、と。

動画のメモ

  • 第2回のものと同じ

AMP Campをひと通りさらってみる:第4回 Movie Recommendation with MLlib

これ順番が動画順なので、厳密にはAMP CampのWebページのメニュー順番とは異なっていますね。。。第4回目はMLlibで一応自分の中では本丸です。

Movie Recommendation with MLlibのメモ

  • MovieLensのデータを使ったMLlibのサンプル

Data set

Collaborative filtering

  • 協調フィルタリングの説明
    • 色々あるけど、好みにまつわる隠れた要因を見つけ出す手法の一つであるALS(Alternating Least Squares)をMLlibは実装しているのでそれを利用する

Create training examples

  • 自分の評価結果を作成するPythonスクリプトが用意されていてそれを利用する
    • 推薦に使われる

Setup

  • まずはじめにSparkConfを作成
  • ratingを読み込むためにSparkContextを作成
  • ratingを(Int, Ratingオブジェクト)のペアに分解
    • timestampの数値をランダムなキーとして保持
    • Ratingオブジェクトはタプルのラッパー
  • ratingと同じようにmovieのidとタイトルを取得している
    • 読み込んで、splitしたものをcollectして集めて、map化している。

Running the program

  • ratingのレコード数、ユニークユーザー数などの項目を取得するコードを追加
  • sbtでビルドして、spark-submitで動かす

自分のパスだと以下の様な感じで

$ cd machine-learning/scala
$ ../../spark/bin/spark-submit --class MovieLensALS target/scala-2.10/movielens-als-assembly-0.1.jar ../../data/movielens/medium ../personalRatings.txt

Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties
15/01/03 00:39:02 INFO Slf4jLogger: Slf4jLogger started
15/01/03 00:39:02 INFO Remoting: Starting remoting
15/01/03 00:39:03 INFO Remoting: Remoting started; listening on addresses :[akka.tcp://sparkDriver@192.168.0.6:56004]
15/01/03 00:39:03 INFO Remoting: Remoting now listens on addresses: [akka.tcp://sparkDriver@192.168.0.6:56004]
2015-01-03 00:39:03.976 java[32045:1903] Unable to load realm info from SCDynamicStore
15/01/03 00:39:04 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
15/01/03 00:39:04 WARN LoadSnappy: Snappy native library not loaded
15/01/03 00:39:04 INFO FileInputFormat: Total input paths to process : 1
15/01/03 00:39:05 INFO FileInputFormat: Total input paths to process : 1
Got 1000209 ratings from 6040users on 3706 movies.

という感じで準備オッケー

Splitting training data

  • データをtraining, test, validationに分ける
    • そのためにtimestampを使ったランダムなキーを残しておいた

Training using ALS

  • rankとlambdaというパラメータが重要
    • だけど時間の都合上8パターン(rank2パターン、lambda2パターン、繰り返し回数2パターンの組み合わせ23=8パターン)で試す
    • RMSEが最小のものを良いモデルとして選択

Recommending movies for you

  • 事前に作成した自分のレーティングを基にオススメの映画をレコメンド

Comparing to a naive baseline

  • ratingの平均をbaselineとしてどれだけ改善したか

Augmenting matrix factors

  • もし興味をもったらMatrixFactorizationModelの実装を見てみましょうね

ALSの参考

レコメンドも前職の途中までは真面目に勉強していましたが約2年くらいブランクがあるので色々おさらいが必要そうです。。。

動画のメモ


AMP Camp 5: MLlib - Ameet Talwalkar - YouTube

  • MLlibの紹介
    • MLlib自体はともかく、MLbase/MLpipelie/MLoptというもう少し大きな話があった
  • K-meansの話
  • 映画のレコメンドを例に挙げた協調フィルタリングの話
    • 欠損値がある
    • レーティングはより小さな要因から決定されていると仮定
      • user/movie factorに分解
    • ALSはユーザーはuser, movieの双方をアップデートしていく
      • 並列にアップデートできる
    • ALSを使ったレコメンドがハンズオンの内容
  • パフォーマンス(AWS上の16nodeの話)
    • Mahoutよりも速い(もはやこういったベンチには段々意味がないと思うけど。。。)
    • スケーラビリティもMahoutよりもよい
    • 50node, 660M users, 2.4M items, 3.5B ratingsが40minuiteで完了
  • 1.0から1.1になってパフォーマンスが大幅アップ
  • ML pipelineの対応
    • 1.2からの対応
    • workflowの記述が簡単に
    • モデルのチューニングに関する標準的なインターフェースを備える
  • ML Dataset = SchemaRDDという感じでSparkSQLと統合を図る

なんとなくScalaのコードも見慣れつつあるので、ソースコードも読める気はしてきています。MLlibはもっと深堀りしていきたいですね。

AMP Campをひと通りさらってみる:第3回 Explore In-Memory Data Store Tachyon

Explore In-Memory Data Store Tachyonのメモ

  • Tachyonはworking setのファイルをメモリ上に保持し、異なるジョブ、クエリやフレームワークからキャッシュされたファイルにメモリのスピードでアクセスすることを可能にする
    • 頻繁に読まれるデータセットのディスクへのロードを避けることができる
  • TachyonはSparkやMapReduceのプログラムをコード上の変更なしに動作させられる互換性がある
  • オフヒープ領域を使うので、つまりRDDは自動的にTachyon内にデータを保持することができ、Sparkにより強い耐障害性とGCのオーバーヘッドを避ける事ができる

Configurations

  • conf/tachyon-env.shに変更を加える
    • TACHYON_WORKER_MEMORY_SIZEがworkerのメモリサイズ

Format the strage

  • ということで例に従ってやってみるもtachyonが起動せず。。。
    • が、ここでは本論ではないので時間を使いすぎずにさっと眺めてみることに
  • SparkContextにtachyonの設定を追加するだけで普通のSparkと同じように使えます。
    • それなのにGCのコストが低減したり、executorがクラッシュした際にもデータは保たれていて素敵、というシロモノのようです。

動画のメモ


AMP Camp 5: Tachyon - Haoyuan Li - YouTube

  • メモリはthroughputが指数関数的に伸びている
    • 一方で、ディスクにはもう伸びの限界が来ている
    • もっとメモリをうまく使うべし
  • メモリをうまく使うアプローチは色々ある
    • Spark, Impala, HANA, DBM2, etc...
  • 問題1:データ処理をパイプラインで繋げる時、データの受け渡しがボトルネックになる
    • すなわち、処理と処理との間のデータの受け渡し
    • Sparkだと単一のタスクではデータはメモリ上にあるが、別のタスクに渡す際に、一度HDFSやS3を経由するので遅くなる
  • 問題2:プロセスがクラッシュするとキャッシュしていたデータが無駄になる
  • 問題3:異なるSparkのタスクが同一のデータを使おうとしていた場合、データの重複が起こる
  • 問題を解決するために、メモリのスピードでクラスタ上のフレームワーク間でデータを共有するファイルシステムとしてTachyonを作った

余談

oxdataにはH2Oという機械学習ライブラリをオープンソースで公開しています。H2OはSpark対応が行われたSparkling Waterというのがあって、これまでイマイチ理解できていませんでしたが、ここまで学んできたことでようやく全貌を理解出来た気がします。

  • RDDを拡張したH2ORDDを提供
  • 処理自体はH2O本体のものを利用(この例ではH2OのDeepLearningを利用)
  • データ取得部分などはSparkSQL等に任せ、その結果をTachyonに載っけておいて、H2OからはTachyon上のデータを参照する。(Sparkling WaterのスライドのP23-P31)

みたいな感じですね。H2Oはかなり早くからTachyonを利用することを念頭において開発が進められていたということで、なるほどな、と。

余談の参考

  • DataBricks BlogのSparkling Warterに関する記事
  • OxdataによるSparkling Warterのスライド

AMP Campをひと通りさらってみる:第2回 Data Exploration Using Spark

Data Exploration Using Sparkのメモ

  • http://localhost:4040 で管理ツールが確認できる
  • 2列目が言語を表しているのでそれを抽出したいという例でcacheを使う
  • reduceByKeyの第2引数はreducerの数
  • collectメソッドRDDをArrayに変換している

動画のメモ


AMP Camp 5: SparkSQL - Michael Armbrust - YouTube

  • どちらかというとSparkSQL押しな内容
  • schemaRDDの話
  • SparkSQLは1.2からHive/Json/Panquetなどにも対応。これはけっこう良さそう
  • カラム指向でメモリ上にスキーマを保持

Spark Programming Guideのメモ

  • Sparkアプリケーションはdriver programから構成され、ユーザーのmain関数といくつかのparallel operatorを実行する
  • クラスターのノード上で並行処理ができる分割された要素のコレクションであるRDD(Resilient Distributed Dataset)
    • 再利用を目的としてメモリ上にRDDを保持させることができる
  • 並列処理時に利用されるshared variables
    • デフォルトでは、Sparkは異なるノードの一連のタスクとして並列に関数を動かした時、関数内で利用される各変数のコピーを各タスクに送る
  • Sparkがサポートするshared variables
    • broadcast variables:全てのノード上のメモリに値をキャッシュさせるために利用される変数
    • accumulators:カウンターや合計のように単純に"足し合わせる"ための変数

Linking With Spark

  • Mavenの設定が必要
    • HDFSつかうときは追加でMavenの登録が必要

Initializing Spark

  • 初めにすべきことはSparkContextオブジェクトを作成すること
    • SparkContextはクラスターにどのようにデータにアクセスするかを教える
  • SparkContextオブジェクトを作成するに辺り、アプリケーションの情報を含んだSparkConfオブジェクトを作成する
  • JVM毎に1つのSparkContextがアクティブにできる
    • 新しいSparkContextを作りたければstop()を行わなければならない
  • setAppNameにはClusterUI上に表示するアプリケーション名を渡す
  • setMasterにはここの値を色々入れる。とりあえずlocal

Using the Shell

  • 起動時にscという特別なSparkContextオブジェクトが作られている

RDD

  • RDDここでかなり分量を使って書かれているので、また後でしっかり見てみます。

その他

  • standaloneでのプログラムの書き方なども学びましょうということで第一回のAMP Campの資料が参照されている

やっぱりRDDがポイントそうですね。

AMP Campをひと通りさらってみる:第1回 IntroductionとGetting Started

AMP Campとは?

AMP CampはBerkeleyのAMP Labによるオープンソースのデータ解析用テクノロジースタックであるBDAS (the Berkeley Data Analytics Stack)のBoot Campみたいです。年1回開催されるようで、すでに2014年開催で5回目のようです。ハンズオンなんかが充実しているのでひと通りさらってみました。

IntroductionとGetting Started

Camp概要と準備

AMP Campの概要です。ざざっと雰囲気が分かりますが、Sparkのエコシステムがひと通りさらえるようです。で、PrerequisitesのAssumptionに"You have experience using the core Spark APIs"とかあって、BootCampのくせに経験者対象かよ、という感じですが、その下にIntroduction to the Scala Shellがありますので、まずはこちらからやりましょう。

SparkはScala/JavaもしくはPythonのインターフェースを備えていますが、Scalaがわかっていた方が何かと便利なはずです。楽せずScalaを見てみます。 順番は前後しますが直前のエントリにて触ってみた話を載せていますので参考までに。

Scala面白いのでもう少し色々と勉強したくなりますが、ぐっとこらえてそのまま進みます。で、読み進めるとGetting Startedをフォローしておけよ、ということで、見てみると、どうやら参加者には必要なソフトウェアやデータ一式が入ったUSBが渡されるようです。Getting Startedのページから一式を取得できるのでゲットしておきます。

下記はremote参加者用のダウンロードURLです。 * software一式 * データ一式

SimpleAppのビルド

software一式はAMPCAMPとか適当な名前のディレクトリを掘って全てそこに入れるようにします。 そして、sbtでビルドします。

$ ../sbt/sbt package
Getting org.scala-sbt sbt 0.13.5 ...
:: retrieving :: org.scala-sbt#boot-app
    confs: [default]
    44 artifacts copied, 0 already retrieved (13482kB/521ms)
Getting Scala 2.10.4 (for sbt)...
:: retrieving :: org.scala-sbt#boot-scala
    confs: [default]
    5 artifacts copied, 0 already retrieved (24459kB/142ms)
[info] Set current project to Simple Project (in build file:/Users/norihiro_shimoda/Work/study/spark/AMPCAMP/simple-app/)
[info] Updating {file:/Users/norihiro_shimoda/Work/study/spark/AMPCAMP/simple-app/}simple-app...
[info] Resolving org.fusesource.jansi#jansi;1.4 ...
[info] Done updating.
[info] Compiling 1 Scala source to /Users/norihiro_shimoda/Work/study/spark/AMPCAMP/simple-app/target/scala-2.10/classes...
[info] Packaging /Users/norihiro_shimoda/Work/study/spark/AMPCAMP/simple-app/target/scala-2.10/simple-project_2.10-1.0.jar ...
[info] Done packaging.
[success] Total time: 10 s, completed 2014/12/31 23:35:42

successということで成功ですね。ビルドしたものを実行します。

$ ../spark/bin/spark-submit --class "SimpleApp" --master local target/scala-2.10/simple-project_2.10-1.0.jar 
Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties
14/12/31 23:36:35 INFO SecurityManager: Changing view acls to: norihiro_shimoda,
14/12/31 23:36:35 INFO SecurityManager: Changing modify acls to: norihiro_shimoda,
14/12/31 23:36:35 INFO SecurityManager: SecurityManager: authentication disabled; ui acls disabled; users with view permissions: Set(norihiro_shimoda, ); users with modify permissions: Set(norihiro_shimoda, )
14/12/31 23:36:36 INFO Slf4jLogger: Slf4jLogger started
14/12/31 23:36:36 INFO Remoting: Starting remoting
14/12/31 23:36:36 INFO Remoting: Remoting started; listening on addresses :[akka.tcp://sparkDriver@192.168.0.6:60528]
...<中略>...
14/12/31 23:36:38 INFO TaskSetManager: Finished task 1.0 in stage 1.0 (TID 3) in 11 ms on localhost (2/2)
14/12/31 23:36:38 INFO DAGScheduler: Stage 1 (count at SimpleApp.scala:13) finished in 0.023 s
14/12/31 23:36:38 INFO TaskSchedulerImpl: Removed TaskSet 1.0, whose tasks have all completed, from pool 
14/12/31 23:36:38 INFO SparkContext: Job finished: count at SimpleApp.scala:13, took 0.044037 s
Lines with a: 83, Lines with b: 38

という感じで出力されます。何やってるんだろうということでAMPCAMP/simple-app/src/main/scala/SimpleApp.scalaを見てみると、sparkのREADME.mdからaとbを含む行をカウントしているのが分かります。シンプルですね。

という感じでgetting startedは完了です。

動画

  • 初回に流れるAMP Labの活動やSpark ecosystemの最近の同行についての動画
    • 英語苦手な人でも最新のSpark事情が分かり、見ておいて損はない動画だと思います。
    • 自分も得意ではないですが、十分理解できる内容でした。


AMP Camp 5: Intro &amp; Overview - Michael Franklin ...

Scala超入門

SparkのとっかかりとしてたぶんSparkの入門的なものであるAMPCampをさらってみています。

とりあえず、prerequireにあったScalaの超入門的なものをやりました。SparkはPythonでも動かせますが、真面目にやるにあたってはScalaは避けて通れませんので、当面はその辺りの勉強も必要ですね。

例ではScalaShellで動かしていましたが、Scala自体もほぼ初心者なので勉強を兼ねてソースコード化して動かしてみました。 Scalaはまだコップ本を読みつつなので、全然手に馴染んでないし、関数型っぽくうまく書けずまだまだだなぁ、と。2年くらい前にSICPの読書会に参加していた記憶よよみがえれ!

import scala.io.Source

object Intro {
  // 3. cubeというInt型の値の3乗を計算する関数を定義
  def cube(n: Int): Int = n * n * n

  // 6. 階乗を計算する関数を定義する。ループも再帰も使えるが、ここでは再帰を使う
  def factorial(n: Int): Int = {
    if (n == 0) 1 else n * factorial(n-1)
  } 
  
  // ボーナス:ワードカウントの実装
  // まだ良くわかっていないので答えをみた
  // mutableなHashMap使っているのでScalaらしくはない
  def wordcount(source: String): collection.mutable.Map[String, Int] = {
    val lines = Source.fromFile(source).getLines.toArray
    val counts = new collection.mutable.HashMap[String, Int].withDefaultValue(0)
    lines.flatMap(line => line.split(" ")).foreach(word => counts(word) += 1)
    return counts
  } 

  def main(args: Array[String]) {
    // 2. myNumberというInt型のリストを定義
    val myNumbers = List(1, 2, 3, 4, 5)
    
    // 4. 定義した関数をmyNumbersに提供する
    myNumbers.map(x => cube(x))
    // myNumbers.map(cube) こっちのほうがscalaっぽい?
    
    // 5. 関数リテラル使って3,4と同じことを実現
    myNumbers.map(x => x * x * x)

    // 6. 階乗を計算する関数を定義する。ループも再帰も使えるが、ここでは再帰を使う
    // factorialの定義は上部にて
    println(myNumbers.map(factorial))
    
    // ボーナス:wordcountの実装
    // sparkのREADME.mdをカレントディレクトリに持ってきた
    println(wordcount("README.md"))
  }
}

Sparkへの貢献コトハジメ

2015年はSparkだ、と勝手に思っています。で、社内で自分の関わるサービスの裏側で利用する箇所をどんどん増やしていくのももちろんですが、これまでまともにOSSに貢献していなかったので、これを気にOSSへの貢献にもチャレンジしてみようかと思ったりしたので、色々調べてみた備忘録です。

基本情報

何かできないかな、ということで Contributing to Spark を読んで適当に要約してみます。

Reporting Issues

バグとか質問する時はJIRAでissueをopenするかMLにて。

Contributing Code

githubのPull Requestで受け付けている。JIRAでissueをopenにした上でgithubsparkリポジトリでのPRでレビューを行う。

という感じでしょうか。

Criteria for Inclusion or Rejection of Patches

Sparkの正しさ(バグフィックスとか?)に関するパッチであり、小さく、多くのユーザーにとって有益であるものは即座にレビューされ、マージされる。そうでないもの(以下のもの)は時間がかかったり、場合によっては拒絶される。

  • 変更が多いコードや正しさの確認が難しいもの
  • Sparkそのものよりもサードパーティに手を入れているようなケース
  • 複雑過ぎるもの
  • 明示的にせよ、暗黙的にせよユーザーに依存するような振る舞いをするもの(退化と表現されている)
  • 新しいAPIを追加しようとするもの
  • 依存関係を追加するもの

小さなパッチはほぼリジェクトされない。

Contributing New Algorithms to MLLib

MLLibの重要なゴールはアルゴリズムをたくさん揃えていることである一方で、プロジェクトのメンテナンス性や一貫性、品質が第一の要求のため、実装されるアルゴリズム

  • よく知られている
  • 利用され、受け入れられている
  • 高いスケーラビリティがある
  • よくドキュメント化されている
  • 他のアルゴリズムAPIの一貫性を保たせる
  • 開発者のサポートが得られる

であるべき。

Automated Testing

全てのパッチには自動テストが行われる。

Starter Tasks

Sparkコントリビュータになりたいならまずはここからなチケット集

Documentation

2つの方法がある

  • 外部でチュートリアルを書いてそれを加えたい場合は、開発者MLに投げる
  • ビルトインのドキュメントに変更を加える場合は、MarkDown記法で編集を行い、githubリポジトリにパッチを送る

Development Discussions

開発社MLにての議論

IDE Setup

IntelliJ

SBTやMavenコマンドをよく使うので一番よく使わえれているIDEIntelliJなので早速コミュニティエディションをゲットする。

Eclipse

Eclipseも使われているよ〜という話だけどもういいや。。。

という感じです。さらに調べたり勉強したりしないといけないものが色々増えました。