AMP Campをひと通りさらってみる:第5回 Data Exploration Using SparkSQL
- 第1回 IntroductionとGetting Started
- 第2回 Data Exploration Using Spark
- 第3回 Explore In-Memory Data Store Tachyon
- 第4回 Movie Recommendation with MLlib
第5回はSparkSQLです。
Data Exploration Using SparkSQLのメモ
- SparkContextオブジェクトをラップしたSQLContextを作成する
- 例ではParquetフォーマットのデータを取り扱う
- Parquetフォーマット化されたWikipediaのデータからberkeleyという文字列を取り出す
- Parquestファイルの読み込み結果の戻り値はSchemaRDD
- SQLの結果は常にRowオブジェクトのArray
- Rowオブジェクトを通じて、各カラムにアクセスできる
SchemaRDDを作ってしまえばSQLが使えるので非常にETL処理が簡単になりますね。結果をまたRDD化して他に処理に渡していけばいいのかな、と。
動画のメモ
- 第2回のものと同じ