Tachyonはworking setのファイルをメモリ上に保持し、異なるジョブ、クエリやフレームワークからキャッシュされたファイルにメモリのスピードでアクセスすることを可能にする
- 頻繁に読まれるデータセットのディスクへのロードを避けることができる
TachyonはSparkやMapReduceのプログラムをコード上の変更なしに動作させられる互換性がある
オフヒープ領域を使うので、つまりRDDは自動的にTachyon内にデータを保持することができ、Sparkにより強い耐障害性とGCのオーバーヘッドを避ける事ができる

Configurations

conf/tachyon-env.shに変更を加える
- TACHYON_WORKER_MEMORY_SIZEがworkerのメモリサイズ

Format the strage

ということで例に従ってやってみるもtachyonが起動せず。。。
- が、ここでは本論ではないので時間を使いすぎずにさっと眺めてみることに
SparkContextにtachyonの設定を追加するだけで普通のSparkと同じように使えます。
- それなのにGCのコストが低減したり、executorがクラッシュした際にもデータは保たれていて素敵、というシロモノのようです。

動画のメモ

AMP Camp 5: Tachyon - Haoyuan Li - YouTube

メモリはthroughputが指数関数的に伸びている
- 一方で、ディスクにはもう伸びの限界が来ている
- もっとメモリをうまく使うべし
メモリをうまく使うアプローチは色々ある
- Spark, Impala, HANA, DBM2, etc...
問題1：データ処理をパイプラインで繋げる時、データの受け渡しがボトルネックになる
- すなわち、処理と処理との間のデータの受け渡し
- Sparkだと単一のタスクではデータはメモリ上にあるが、別のタスクに渡す際に、一度HDFSやS3を経由するので遅くなる
問題2：プロセスがクラッシュするとキャッシュしていたデータが無駄になる
問題3：異なるSparkのタスクが同一のデータを使おうとしていた場合、データの重複が起こる
問題を解決するために、メモリのスピードでクラスタ上のフレームワーク間でデータを共有するファイルシステムとしてTachyonを作った

余談

oxdataにはH2Oという機械学習ライブラリをオープンソースで公開しています。H2OはSpark対応が行われたSparkling Waterというのがあって、これまでイマイチ理解できていませんでしたが、ここまで学んできたことでようやく全貌を理解出来た気がします。

RDDを拡張したH2ORDDを提供
処理自体はH2O本体のものを利用（この例ではH2OのDeepLearningを利用）
データ取得部分などはSparkSQL等に任せ、その結果をTachyonに載っけておいて、H2OからはTachyon上のデータを参照する。（Sparkling WaterのスライドのP23-P31）

みたいな感じですね。H2Oはかなり早くからTachyonを利用することを念頭において開発が進められていたということで、なるほどな、と。

余談の参考

DataBricks BlogのSparkling Warterに関する記事
OxdataによるSparkling Warterのスライド

2015-01-01

AMP Campをひと通りさらってみる：第2回 Data Exploration Using Spark

第1回 IntroductionとGetting Started

Data Exploration Using Sparkのメモ

http://localhost:4040 で管理ツールが確認できる
2列目が言語を表しているのでそれを抽出したいという例でcacheを使う
reduceByKeyの第2引数はreducerの数
collectメソッドはRDDをArrayに変換している

動画のメモ

AMP Camp 5: SparkSQL - Michael Armbrust - YouTube

どちらかというとSparkSQL押しな内容
schemaRDDの話
SparkSQLは1.2からHive/Json/Panquetなどにも対応。これはけっこう良さそう
カラム指向でメモリ上にスキーマを保持

Spark Programming Guideのメモ

Sparkアプリケーションはdriver programから構成され、ユーザーのmain関数といくつかのparallel operatorを実行する
クラスターのノード上で並行処理ができる分割された要素のコレクションであるRDD(Resilient Distributed Dataset)
- 再利用を目的としてメモリ上にRDDを保持させることができる
並列処理時に利用されるshared variables
- デフォルトでは、Sparkは異なるノードの一連のタスクとして並列に関数を動かした時、関数内で利用される各変数のコピーを各タスクに送る
Sparkがサポートするshared variables
- broadcast variables：全てのノード上のメモリに値をキャッシュさせるために利用される変数
- accumulators：カウンターや合計のように単純に"足し合わせる"ための変数

Linking With Spark

Mavenの設定が必要
- HDFSつかうときは追加でMavenの登録が必要

Initializing Spark

初めにすべきことはSparkContextオブジェクトを作成すること
- SparkContextはクラスターにどのようにデータにアクセスするかを教える
SparkContextオブジェクトを作成するに辺り、アプリケーションの情報を含んだSparkConfオブジェクトを作成する
JVM毎に1つのSparkContextがアクティブにできる
- 新しいSparkContextを作りたければstop()を行わなければならない
setAppNameにはClusterUI上に表示するアプリケーション名を渡す
setMasterにはここの値を色々入れる。とりあえずlocal

Using the Shell

起動時にscという特別なSparkContextオブジェクトが作られている

その他

standaloneでのプログラムの書き方なども学びましょうということで第一回のAMP Campの資料が参照されている
- スライド
- 動画

やっぱりRDDがポイントそうですね。

2014-12-31

AMP Campをひと通りさらってみる：第１回 IntroductionとGetting Started

AMP Campとは？

AMP CampはBerkeleyのAMP Labによるオープンソースのデータ解析用テクノロジースタックであるBDAS (the Berkeley Data Analytics Stack)のBoot Campみたいです。年1回開催されるようで、すでに2014年開催で5回目のようです。ハンズオンなんかが充実しているのでひと通りさらってみました。

IntroductionとGetting Started

Camp概要と準備

AMP Campの概要です。ざざっと雰囲気が分かりますが、Sparkのエコシステムがひと通りさらえるようです。で、PrerequisitesのAssumptionに"You have experience using the core Spark APIs"とかあって、BootCampのくせに経験者対象かよ、という感じですが、その下にIntroduction to the Scala Shellがありますので、まずはこちらからやりましょう。

SparkはScala/JavaもしくはPythonのインターフェースを備えていますが、Scalaがわかっていた方が何かと便利なはずです。楽せずScalaを見てみます。順番は前後しますが直前のエントリにて触ってみた話を載せていますので参考までに。

Scala面白いのでもう少し色々と勉強したくなりますが、ぐっとこらえてそのまま進みます。で、読み進めるとGetting Startedをフォローしておけよ、ということで、見てみると、どうやら参加者には必要なソフトウェアやデータ一式が入ったUSBが渡されるようです。Getting Startedのページから一式を取得できるのでゲットしておきます。

下記はremote参加者用のダウンロードURLです。 * software一式 * データ一式

SimpleAppのビルド

software一式はAMPCAMPとか適当な名前のディレクトリを掘って全てそこに入れるようにします。そして、sbtでビルドします。

$ ../sbt/sbt package
Getting org.scala-sbt sbt 0.13.5 ...
:: retrieving :: org.scala-sbt#boot-app
    confs: [default]
    44 artifacts copied, 0 already retrieved (13482kB/521ms)
Getting Scala 2.10.4 (for sbt)...
:: retrieving :: org.scala-sbt#boot-scala
    confs: [default]
    5 artifacts copied, 0 already retrieved (24459kB/142ms)
[info] Set current project to Simple Project (in build file:/Users/norihiro_shimoda/Work/study/spark/AMPCAMP/simple-app/)
[info] Updating {file:/Users/norihiro_shimoda/Work/study/spark/AMPCAMP/simple-app/}simple-app...
[info] Resolving org.fusesource.jansi#jansi;1.4 ...
[info] Done updating.
[info] Compiling 1 Scala source to /Users/norihiro_shimoda/Work/study/spark/AMPCAMP/simple-app/target/scala-2.10/classes...
[info] Packaging /Users/norihiro_shimoda/Work/study/spark/AMPCAMP/simple-app/target/scala-2.10/simple-project_2.10-1.0.jar ...
[info] Done packaging.
[success] Total time: 10 s, completed 2014/12/31 23:35:42

successということで成功ですね。ビルドしたものを実行します。

$ ../spark/bin/spark-submit --class "SimpleApp" --master local target/scala-2.10/simple-project_2.10-1.0.jar 
Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties
14/12/31 23:36:35 INFO SecurityManager: Changing view acls to: norihiro_shimoda,
14/12/31 23:36:35 INFO SecurityManager: Changing modify acls to: norihiro_shimoda,
14/12/31 23:36:35 INFO SecurityManager: SecurityManager: authentication disabled; ui acls disabled; users with view permissions: Set(norihiro_shimoda, ); users with modify permissions: Set(norihiro_shimoda, )
14/12/31 23:36:36 INFO Slf4jLogger: Slf4jLogger started
14/12/31 23:36:36 INFO Remoting: Starting remoting
14/12/31 23:36:36 INFO Remoting: Remoting started; listening on addresses :[akka.tcp://sparkDriver@192.168.0.6:60528]
...<中略>...
14/12/31 23:36:38 INFO TaskSetManager: Finished task 1.0 in stage 1.0 (TID 3) in 11 ms on localhost (2/2)
14/12/31 23:36:38 INFO DAGScheduler: Stage 1 (count at SimpleApp.scala:13) finished in 0.023 s
14/12/31 23:36:38 INFO TaskSchedulerImpl: Removed TaskSet 1.0, whose tasks have all completed, from pool 
14/12/31 23:36:38 INFO SparkContext: Job finished: count at SimpleApp.scala:13, took 0.044037 s
Lines with a: 83, Lines with b: 38

という感じで出力されます。何やってるんだろうということでAMPCAMP/simple-app/src/main/scala/SimpleApp.scalaを見てみると、sparkのREADME.mdからaとbを含む行をカウントしているのが分かります。シンプルですね。

という感じでgetting startedは完了です。

動画

初回に流れるAMP Labの活動やSpark ecosystemの最近の同行についての動画
- 英語苦手な人でも最新のSpark事情が分かり、見ておいて損はない動画だと思います。
- 自分も得意ではないですが、十分理解できる内容でした。

AMP Camp 5: Intro & Overview - Michael Franklin ...

2014-12-31

Scala超入門

SparkのとっかかりとしてたぶんSparkの入門的なものであるAMPCampをさらってみています。

とりあえず、prerequireにあったScalaの超入門的なものをやりました。SparkはPythonでも動かせますが、真面目にやるにあたってはScalaは避けて通れませんので、当面はその辺りの勉強も必要ですね。

例ではScalaShellで動かしていましたが、Scala自体もほぼ初心者なので勉強を兼ねてソースコード化して動かしてみました。 Scalaはまだコップ本を読みつつなので、全然手に馴染んでないし、関数型っぽくうまく書けずまだまだだなぁ、と。2年くらい前にSICPの読書会に参加していた記憶よよみがえれ！

import scala.io.Source

object Intro {
  // 3. cubeというInt型の値の3乗を計算する関数を定義
  def cube(n: Int): Int = n * n * n

  // 6. 階乗を計算する関数を定義する。ループも再帰も使えるが、ここでは再帰を使う
  def factorial(n: Int): Int = {
    if (n == 0) 1 else n * factorial(n-1)
  } 
  
  // ボーナス：ワードカウントの実装
  // まだ良くわかっていないので答えをみた
  // mutableなHashMap使っているのでScalaらしくはない
  def wordcount(source: String): collection.mutable.Map[String, Int] = {
    val lines = Source.fromFile(source).getLines.toArray
    val counts = new collection.mutable.HashMap[String, Int].withDefaultValue(0)
    lines.flatMap(line => line.split(" ")).foreach(word => counts(word) += 1)
    return counts
  } 

  def main(args: Array[String]) {
    // 2. myNumberというInt型のリストを定義
    val myNumbers = List(1, 2, 3, 4, 5)
    
    // 4. 定義した関数をmyNumbersに提供する
    myNumbers.map(x => cube(x))
    // myNumbers.map(cube) こっちのほうがscalaっぽい？
    
    // 5. 関数リテラル使って3,4と同じことを実現
    myNumbers.map(x => x * x * x)

    // 6. 階乗を計算する関数を定義する。ループも再帰も使えるが、ここでは再帰を使う
    // factorialの定義は上部にて
    println(myNumbers.map(factorial))
    
    // ボーナス：wordcountの実装
    // sparkのREADME.mdをカレントディレクトリに持ってきた
    println(wordcount("README.md"))
  }
}

2014-12-29

Sparkへの貢献コトハジメ

2015年はSparkだ、と勝手に思っています。で、社内で自分の関わるサービスの裏側で利用する箇所をどんどん増やしていくのももちろんですが、これまでまともにOSSに貢献していなかったので、これを気にOSSへの貢献にもチャレンジしてみようかと思ったりしたので、色々調べてみた備忘録です。

基本情報

何かできないかな、ということで Contributing to Spark を読んで適当に要約してみます。

Reporting Issues

バグとか質問する時はJIRAでissueをopenするかMLにて。

Contributing Code

githubのPull Requestで受け付けている。JIRAでissueをopenにした上でgithubのsparkリポジトリでのPRでレビューを行う。

タスクは小さく分解し、出来るなら目的は1つに
パッチの取り込み、拒絶の指針を確認して
JIRAでpatch用のissueを作成
大きな変更を提案しようとしているなら、設計のドキュメントをJIRAに添付して、dev用のMLで議論をして
githubのPRでpatchを提出。forkのチュートリアルとPRのチュートリアル
Sparkのコード規約を守って（ScalaとPythonのチェッカーが付属しているのでかける）
自動テストに通って
追加のコード用のテストを加え、ScalaTestでテストを行って
もし必要ならドキュメントを更新する

という感じでしょうか。

Criteria for Inclusion or Rejection of Patches

Sparkの正しさ(バグフィックスとか？)に関するパッチであり、小さく、多くのユーザーにとって有益であるものは即座にレビューされ、マージされる。そうでないもの(以下のもの)は時間がかかったり、場合によっては拒絶される。

変更が多いコードや正しさの確認が難しいもの
Sparkそのものよりもサードパーティに手を入れているようなケース
複雑過ぎるもの
明示的にせよ、暗黙的にせよユーザーに依存するような振る舞いをするもの(退化と表現されている)
新しいAPIを追加しようとするもの
依存関係を追加するもの

小さなパッチはほぼリジェクトされない。

Contributing New Algorithms to MLLib

MLLibの重要なゴールはアルゴリズムをたくさん揃えていることである一方で、プロジェクトのメンテナンス性や一貫性、品質が第一の要求のため、実装されるアルゴリズムは

よく知られている
利用され、受け入れられている
高いスケーラビリティがある
よくドキュメント化されている
他のアルゴリズムとAPIの一貫性を保たせる
開発者のサポートが得られる

であるべき。

Automated Testing

全てのパッチには自動テストが行われる。

Starter Tasks

Sparkコントリビュータになりたいならまずはここからなチケット集

Documentation

2つの方法がある

外部でチュートリアルを書いてそれを加えたい場合は、開発者MLに投げる
ビルトインのドキュメントに変更を加える場合は、MarkDown記法で編集を行い、githubのリポジトリにパッチを送る

Development Discussions

開発社MLにての議論

IDE Setup

IntelliJ

SBTやMavenコマンドをよく使うので一番よく使わえれているIDEはIntelliJなので早速コミュニティエディションをゲットする。

Eclipse

Eclipseも使われているよ〜という話だけどもういいや。。。

という感じです。さらに調べたり勉強したりしないといけないものが色々増えました。

2014-12-28

インドのビザ事情その他色々

インドへ向かう際に、色々と肝を冷やして必至に調べた話です。調べた情報が2013年くらいまでのものがほとんどでしたが大変助かりましたので、最新の2014年度版、ということで。

あらまし

12/22-12/24の超ド短期出張というか、現地の人に会う予定がが12月冒頭に決まり、航空券と宿を押さえて後は出発を待つのみ、と油断していたら出張前々日の12/20に、「ビザ取ってない！」という事実に気づきました。そう、インドは短期の滞在でもビザが必要なんです。

インドのビザの事情

短期だろうがなんだろうが入国の際にビザは必要、なので、事前に申請しましょう。以上。

以下は、正規ルートに乗っかりそこねた人の体験談となります。

正規ルートの場合、上記のインド大使館のオンラインフォームで申請を行った上で、大使館に赴いて申請が必要です。申請から発給まで時間もかかるし、大使館に行くのもめんどくさいですね。。。

正規ルートで無理だった人はどうすれば良いのか？

結論から言うと、短期滞在目的の場合、Tourist Visa On Arraival(TVOA)という制度がありなんとかなります。現地でビザを発給しますよー、という制度です。一見便利なので、これで救われたー、と考えるのは甘いです。自分も最初はこの制度で救われた、と思ったのですが、よくよく考えると、入国が保証されない状態で現地に向かい、現地で入国許可を受ける、というパターンなので、ほぼないとは思いますが、入国が許可されず帰還させられる可能性も。。。

TVOAについて

自分の旅程は、成田(NRT) - バンコク空港(BKK) - バンガロール空港(BLR)という旅程でしたので、バンガロール空港の話になります。ここを見る限り、

Delhi
Mumbai
Chennai
Kolkata
Hyderabad
Thiruvanthapuram
Kochi

等の空港も対応していそうです。日本人であれば、30日以内の滞在で、観光やカジュアルビジネスなら問題ないようです。

で、ここからが重要な話です。TVOAは今まさに制度の移行期らしく、実は上述した正規ルートとはまた別にオンラインでのTVOAの発給が可能なようです。米国のESTAのようなノリで申請できるものですね。こちらを利用できれば一番楽だったのですが、こちらはインドへの到着4日前までしか入力すらできません。。。ということで今回は使えず、現地に乗り込んでからパターンとなります。さらにさらに、現地乗り込みパターンはどうやら2014年12月26日までの制度らしいので要注意です。とか書いていると最新ではどうやらさらに延長が決まったようです。インド、難しい国ですね。。。

事前の準備

下記のモノを用意していきました。必ず必要というわけではありませんが、そもそも入国できないリスクを負っているという認識を持って、しっかり目に用意しておいて損はないと思います。

eチケットの控え（帰りの航空券が必須という噂です）
宿の予約の控え（こちらも必須という噂です）
USドルにて70ドル以上の現金（ビザ発給時に必要となります）
インドでのインド人のreference（今回は人と会う予定だったので、その人の名前、携帯番号等を書きました。特に人と会わない場合はホテル等で大丈夫な気がしますが。。。）
TVOA用の書類（必ず使えるかは分かりませんが、事前に埋めておくと楽ができました）
TVOA用の書類に使う写真2枚（パスポート用サイズです）

出発空港での対応

最初の難関はチェックイン時です。通常であればビザが必要な国にいくため、チェックイン時にビザを持っているか聞かれます。TVOAという制度があってそれで行く、と言い張ります。自分の場合は、観光で人と会う、と言い張ったほうが良いと聞いていたので、それで押し通せば問題ありませんでした。

トランジットの空港

今回はトランジット時に出国しなかったので分かりませんが、もしかしたら再入国時にビザチェックがあると少々めんどくさいかもしれません。

入国時の対応

イミグレーションのカウンターの端っこにTourist Visa On Arrivalのカウンターがありますので、通常通り、入国と税関用の書類を埋めてカウンターに向かいます。実はTVOA用にも書類を埋める必要があり、それは現地で行うものなのですが、自分の場合はここを参考にした際に書類を事前に入手できていたので、トランジットの際に練習がてらに埋めていました。見せるとそれでもOKだということだったので、それを利用します。顔写真と今回は60ドル(事前の調べでは70ドル以上80ドル未満ということでしたが。。。)を払ってしばらく待ちます。ダブル、トリプルチェックをしているようで、けっこう待たされた後に、ハンコをペタっと押されてビザ発給完了で、そのまま入国できます。トータルで30分くらいかかったでしょうか。噂では1時間2時間は当たり前にかかるとのことでしたのでちょっと早かったかな、という感じです。

という感じで、思ったより簡単に入国できました。

その他どうでもいい注意事項

そこそこちゃんとした建物に入る時には必ず荷物検査及び金属探知機を通過させられる等があります。また、インドは入国よりむしろ出国の方が大変でしたので、書いておきますと、

空港に入る時にパスポート、航空券（eチケットの控え）のチェック、ビザの確認
出国時にも滞在目的とか色々聞かれる（しかもインド人の英語聞き取り難しい。。。）
身体検査は相当厳重なチェック（自分も２回リュックをチェックされました）
- で、ここで一個罠なんですが、チェックインとかのタイミングで手荷物にも荷物タグを付けていないと怒られます。というか、チェックインの時にはオススメくらいのノリだったので、いらない、って無視しちゃったのですが。。。

f:id:rindai87:20141228223423j:plain

飛行機に乗る時に再度、ビザと航空券と荷物タグのチェックがあります。
- 同行者は身体検査時に何故か荷物タグのツッコミはなかったのに、この飛行機に乗る前にタグがないことを咎められて搭乗が遅れたそうです。。。なぞ。。。

というわけで何とか無事に帰国することができましたが、中々大変な旅でしたよ、と。

D28 地球の歩き方インド 2014~2015
	地球の歩き方編集室ダイヤモンド社 2014-06-28 売り上げランキング : 8966 Amazonで詳しく見る by G-Tools

2014-07-28

2014年最もイケてるBigData領域でのスタートアップ10社

Top 10 Coolest Big Data Startups Of 2014という記事がありまして、はじめて名前を聞く企業が多くありましたので簡単に調べてみました。ホントに簡単に調べただけです。正確には記事の説明＋HPのトップをざっと見ただけですので、そんなものがあるのかー、くらいのノリです。

1. SumAll

SumAll

FacebookやTwitter, eBayやInstagramなど、42種類のソーシャルとEコマースサイトのデータからデータを可視化することができるオンラインのプラットフォームを提供してくれる、とのこと。今年に入っていくつかの機能追加を行い、例えば、リツイートやメンションの数によってアラートを発してくれるようなシステムが追加されたとのこと。

2. Luminoso

Luminoso

テキスト分析に強みがある会社ぽいです。MITメディア・ラボからのスピンアウトみたいですね。

3. Flatiron Health

Flatiron Health

2012年に元Googleの2人によって創設されたみたいです。医療データに特化したプラットフォームOncology Cloudを開発しているみたいです。ガンを含む腫瘍に特化したデータを取り扱うプラットフォームみたいですね。

4. Domo

Domo

クラウドベースのプラットフォームみたいです。強みは正直読み取れませんでした。。。

5. Alpine Data Labs

Alpine Data Labs

ドラッグアンドドロップベースの分析クエリ作成というのが特徴なんですかね。Hadopベースのデータソースでも、RDBでも大丈夫で、モデルを共用しながらチームでの共同作業も得意だよ、とのことです。

6. Altiscale

Altiscale

元Yahoo CTOによる、Apache Hadoopを動かすクラウドサービスということです。Apache Hadoopをクラウドで動かせることの利点はよくわかっていません。

7. Tamr

Tamr

Tamrは割と注目しています。DB界の大物のストーンブレイカーさんが関わっているということでPublickeyでもとりあげられていました。 Tamrは少し真面目に調査していて、大変おもしろいので、また別エントリでまとめたいと思います。取り扱うデータ規模が大きくなりつつある昨今のETLに関わる課題の一つで、バラバラに散らばったデータを良い感じに取り扱うというのは、Apache DrillやPrestoが切り開きつつある領域かと思います。Tamrも同じ課題感を解決しようとしているETLではありますが、「目的に合わせて何のデータを集めるべきか」をTamr自身が考える、というのが最大のポイントとなります。(DrillやPrestoだとクエリ自体は人間が作成/発行する必要がありますので、そこが違いかなぁと)。取得すべきデータの選別は、地味なようで、データの規模や種類が増えつつある最近では、ETLの課題における最大の問題の一つかと思います。

8. Cloudera

Cloudera

Clouderaは有名なので割愛、直近で大きな資金調達もありましたね。

9. DataGravity

DataGravity

こちらもDomoと同じく強みがよくわかっていません。。。

10. Elasticsearch

Elasticsearch

@johtaniさんにTwitterでメンション飛ばせば全てが理解できます（違

ちなみに2013年度版っぽいのはこちらです。

2013年度版に関しては、今や空前のSparkブーム(自分の観測範囲に限る)で飛ぶ鳥落とす勢いのDatabricksや、今の会社の関係で少し繋がりがある、Skytree なんかが目を引く所でしょうか？(他を知らなすぎるだけですが。。。反省。。。）

2013年度版をざざっと見た感じではMachine Learningという用語がちらほら出てるように思えますが、2014年度版ではそういう記述が見当たらなくなっていますので、Machine Learningが徐々に一般的になり、サービス内に組み込まれるようになってきたからかなー、などと色々と想像が膨らみますね。

BigData, Machine Learningなど、日本でその用語を使ってる企業/サービスへの胡散臭さがまだまだ消えきれない2014年現在ですが、米国では間違いなく、そういったキーワードを中心に人/モノ/金が動いているようですので、ソーシャルやアドテクといったこれまでの流れと同じく1,2年後のビッグウェーブはやってくるのではないでしょうか。

Explore In-Memory Data Store Tachyonのメモ

Configurations

Format the strage

動画のメモ

余談

余談の参考

Data Exploration Using Sparkのメモ

動画のメモ

Spark Programming Guideのメモ

Linking With Spark

Initializing Spark

Using the Shell

その他

AMP Campとは？

IntroductionとGetting Started

Camp概要と準備

SimpleAppのビルド

動画

基本情報

Reporting Issues

Contributing Code

Criteria for Inclusion or Rejection of Patches

Contributing New Algorithms to MLLib

Automated Testing

Starter Tasks

Documentation

Development Discussions

IDE Setup

あらまし

インドのビザの事情

正規ルートで無理だった人はどうすれば良いのか？

TVOAについて

事前の準備

出発空港での対応

トランジットの空港

入国時の対応

その他どうでもいい注意事項

1. SumAll

2. Luminoso

3. Flatiron Health

4. Domo

5. Alpine Data Labs

6. Altiscale

7. Tamr

8. Cloudera

9. DataGravity

10. Elasticsearch