AMP Campをひと通りさらってみる:第5回 Data Exploration Using SparkSQL

第5回はSparkSQLです。

Data Exploration Using SparkSQLのメモ

  • SparkContextオブジェクトをラップしたSQLContextを作成する
  • 例ではParquetフォーマットのデータを取り扱う
    • Parquetフォーマット化されたWikipediaのデータからberkeleyという文字列を取り出す
  • Parquestファイルの読み込み結果の戻り値はSchemaRDD
    • SchemaRDDは通常のRDDと同じ関数を全て持っている
    • カラムの名前や型などの情報を保持しているため、テーブル登録を行った後にSQLクエリを投げることができるようになる
  • SQLの結果は常にRowオブジェクトのArray
    • Rowオブジェクトを通じて、各カラムにアクセスできる

SchemaRDDを作ってしまえばSQLが使えるので非常にETL処理が簡単になりますね。結果をまたRDD化して他に処理に渡していけばいいのかな、と。

動画のメモ

  • 第2回のものと同じ