元データ分析の会社で働いていた人の四方山話

AMP Campをひと通りさらってみる：第5回 Data Exploration Using SparkSQL

第5回はSparkSQLです。

Data Exploration Using SparkSQLのメモ

SparkContextオブジェクトをラップしたSQLContextを作成する
例ではParquetフォーマットのデータを取り扱う
- Parquetフォーマット化されたWikipediaのデータからberkeleyという文字列を取り出す
Parquestファイルの読み込み結果の戻り値はSchemaRDD
- SchemaRDDは通常のRDDと同じ関数を全て持っている
- カラムの名前や型などの情報を保持しているため、テーブル登録を行った後にSQLクエリを投げることができるようになる
SQLの結果は常にRowオブジェクトのArray
- Rowオブジェクトを通じて、各カラムにアクセスできる

SchemaRDDを作ってしまえばSQLが使えるので非常にETL処理が簡単になりますね。結果をまたRDD化して他に処理に渡していけばいいのかな、と。

動画のメモ

第2回のものと同じ