Strata + Hadoop World参加記録 その3

Strata + Hadoop World参加記録 その1 Strata + Hadoop World参加記録 その2 今日からはセッションに参加できます。なにげに参加していなかったのですが、キーノートセッションにオバマのビデオが流れたとのこと! President Barack Obama's Big Data Ke…

Strata + Hadoop World参加記録 その2

Strata + Hadoop World参加記録 その1 2daysのチケットしか持っていませんので、本日はexpo hallをうろうろしました。 けっこう広い!あと、日本のイベントと違って会場内でアルコールが飲める!(その分参加費が異常に高い!!) http://strataconf.com/big…

Strata + Hadoop World参加記録 その1

色々ありまして、出張にてStrataに参加できることになり、前日にあるmeetupに参加してきました。会社に深い感謝の念を抱きつつ、記録的な何かを残していきます。Strata自体はまだ始まっていないけど同会場の一部でのmeetupだったため、前夜祭って感じが出て…

Sparkの2015年の展望

こんな動画がありました。 What's coming for Spark in 2015 - Bay Area Spark ... ざっくり言うとSparkの2015年はSparkSQL(SchemaRDD)と機械学習部分に力を入れていきそうな感じでしょうか。 ざっくり動画を見た感じだと SaprkSQLが使い物になるのであ…

Kafkaをとりあえず動かす

最近TL等ではKafkaという単語をよく目にするようになってきましたが、kafkaとググっても日本語の情報がほとんどないのが悲しいですね。というわけで本家ドキュメントのQuick Start的なモノを動かしてみた話です。 本当に動かすだけです。が、以外にこのレベ…

AMP Campをひと通りさらってみる:第6回 RDD

第1回 IntroductionとGetting Started 第2回 Data Exploration Using Spark 第3回 Explore In-Memory Data Store Tachyon 第4回 Movie Recommendation with MLlib 第5回 Data Exploration Using SparkSQL Exerciseにはないですが、Spark Programming Guideか…

AMP Campをひと通りさらってみる:第5回 Data Exploration Using SparkSQL

第1回 IntroductionとGetting Started 第2回 Data Exploration Using Spark 第3回 Explore In-Memory Data Store Tachyon 第4回 Movie Recommendation with MLlib 第5回はSparkSQLです。 Data Exploration Using SparkSQLのメモ SparkContextオブジェクトを…

AMP Campをひと通りさらってみる:第4回 Movie Recommendation with MLlib

第1回 IntroductionとGetting Started 第2回 Data Exploration Using Spark 第3回 Explore In-Memory Data Store Tachyon これ順番が動画順なので、厳密にはAMP CampのWebページのメニュー順番とは異なっていますね。。。第4回目はMLlibで一応自分の中では本…

AMP Campをひと通りさらってみる:第3回 Explore In-Memory Data Store Tachyon

第1回 IntroductionとGetting Started 第2回 Data Exploration Using Spark Explore In-Memory Data Store Tachyonのメモ Tachyonはworking setのファイルをメモリ上に保持し、異なるジョブ、クエリやフレームワークからキャッシュされたファイルにメモリの…

AMP Campをひと通りさらってみる:第2回 Data Exploration Using Spark

第1回 IntroductionとGetting Started Data Exploration Using Sparkのメモ http://localhost:4040 で管理ツールが確認できる 2列目が言語を表しているのでそれを抽出したいという例でcacheを使う reduceByKeyの第2引数はreducerの数 collectメソッドはRDDを…

AMP Campをひと通りさらってみる:第1回 IntroductionとGetting Started

AMP Campとは? AMP CampはBerkeleyのAMP Labによるオープンソースのデータ解析用テクノロジースタックであるBDAS (the Berkeley Data Analytics Stack)のBoot Campみたいです。年1回開催されるようで、すでに2014年開催で5回目のようです。ハンズオンなんか…

Scala超入門

SparkのとっかかりとしてたぶんSparkの入門的なものであるAMPCampをさらってみています。 とりあえず、prerequireにあったScalaの超入門的なものをやりました。SparkはPythonでも動かせますが、真面目にやるにあたってはScalaは避けて通れませんので、当面は…

Sparkへの貢献コトハジメ

2015年はSparkだ、と勝手に思っています。で、社内で自分の関わるサービスの裏側で利用する箇所をどんどん増やしていくのももちろんですが、これまでまともにOSSに貢献していなかったので、これを気にOSSへの貢献にもチャレンジしてみようかと思ったりしたの…

インドのビザ事情その他色々

インドへ向かう際に、色々と肝を冷やして必至に調べた話です。調べた情報が2013年くらいまでのものがほとんどでしたが大変助かりましたので、最新の2014年度版、ということで。 あらまし 12/22-12/24の超ド短期出張というか、現地の人に会う予定がが12月冒頭…

2014年最もイケてるBigData領域でのスタートアップ10社

Top 10 Coolest Big Data Startups Of 2014という記事がありまして、はじめて名前を聞く企業が多くありましたので簡単に調べてみました。ホントに簡単に調べただけです。正確には記事の説明+HPのトップをざっと見ただけですので、そんなものがあるのかー、…

AdFraudについて調べてみた話

これは? なんとなく最近金融のFraudの話に触れる機会が多く、その中でAdFraudという単語が引っかかったので調べてみた話です。参照記事を適当に繋げて意訳しているので、大意としてそもそも違うことになっていたらご指摘ください。 メルセデスベンツ問題 メ…

Ad Engineering Summitというイベントで登壇してきました

5/15にAESというイベントにて「デジタルマーケティングを支える技術とその未来」というタイトルで発表してきました。当日のスライドの公開などは特に予定していません。 エンジニアの人も参加しやすいように、と、イベント自体が始まりも終わりも遅い、とい…

情報知財研究会に行ってきた話

何をきっかけに存在を知ったか記憶は定かではないですが、最近の興味関心とばっちりあっている情報通信学会主催の2012年度 第6回情報知財研究会に参加してきました。 大変勉強になったんですが、すんごい眠いし書くのやめようかと思ったけれど、今日書かない…

DMPはどのようにCookieデータを収集しているか(オフラインデータ編)

ここまで これまで2回に渡って、DMPの情報収集のコアであるCookieSyncの紹介と、CookieSyncを使っていかにオンラインデータを収集するかについて見てきました。 DMPはどのようにCookieデータを収集しているか(CookieSync編) DMPはどのようにCookieデータを…

DMPはどのようにCookieデータを収集しているか(オンラインデータ編)

CookieSyncとDMP 前回、CookieSyncの技術について簡単に解説しました。CookieSyncを使えば2つの異なるシステム(ドメイン)で発行されるCookie情報を交換することができます。 DMPはこの技術を駆使してCookie情報を収集し、オンラインのデータを次々に紐付けて…

DMPはどのようにCookieデータを収集しているか(CookieSync編)

DMPがどのようにCookieデータを収集しているかについて、ある程度知識が固まってきたのでまとめようと思います。まずはDMPのデータ収集の肝であるCookieSyncについて数回に分けて書いていこうと思います。 DMPの役割とは こちらにも書いた通り、DMP自体には…

DMPについて調べたまとめ(概要編)

個人的にDMPがあってダラダラと調べていて、そろそろまとめておかないと色々と忘れていきそうな危機感を感じたのでまとめます。 3行で語るDMPのお仕事 データを収集することで、パブリッシャーの収入源となる データを解析することで、広告主の投資の最適化…

the future of the cookieという記事を読んだ

the future of the cookieという興味深いタイトルの記事がFacebookで流れてきて、個人的に気になったので概要のメモ 概要 Cookieを利用したオーディエンスデータの活用が主流だけど、その流れがこのまま加速していくと皆が疲弊する状態になるよね。なので、…

第14回SICP勉強会

内容 2.2.3 公認インターフェースとしての並び 並びの演算 問題 問題2.33 ;; 問題2.33 (define (accumulate op initial sequence) (if (null? sequence) initial (op (car sequence) (accumulate op initial (cdr sequence))))) (define nil '()) ;; map (de…

第13回SICP勉強会

先週UPを忘れていた 内容 階層構造 再帰は木構造を扱う自然な道具である 木の写像 問題 問題2.24 ;; 問題2.24 ;; これは絵を書けばいいのかな (list 1 (list 2 (list 3 4))) ;; gosh> (1 (2 (3 4))) ;; 箱の絵 ;; http://f.hatena.ne.jp/rindai87/2012032423…

第12回SICP勉強会

内容 consの閉包性 一般に、データオブジェクトを組み合わせる演算は、その演算を使って何かを組み合わせた結果がまた同じ演算を使って組み合わせられるという時、閉包性を満足する 2.2.1 並びの表現 対を使って出来る有用な構造は並び(sequence)である。 並…

第11回SICP勉強会

内容 今回は問題ばっかり 問題 問題2.10 ;; 問題2.10 ;; 0をまたがる区間で割った時、どうなるか分からないことを調べる (define R1 (make-interval 5 10)) (define R2 (make-interval 1 5)) (define R3 (make-interval -10 -5)) (define R4 (make-interval …

生命保険について話を聞く機会があった

前職の同僚の紹介で、外資系生命保険会社の営業の方と話をする機会があり、その方から色々と教えてもらった事が大変勉強になったのでメモとして残しておく。 話の流れとしては、生命保険に入る目的を教えてもらい、その後、生命保険の商品の種類について教え…

第10回SICP勉強会

内容 church数 例だけ読んでいてもよくわからなかったけど、下の記事を眺めてたらなんとなく分かった気がしたかも selflearn @ ウィキ - SICP (問題2.1 -) 404 Blog Not Found:TuringとChurchの狭間で ex2.6 Church数 - tszの日記 データ抽象の続き こちらは…

第9回SICP勉強会

今日から2章。勉強会中に軽くメモって、終了と同時に投下するというパターン 2.1 データ抽象入門 合成データの要素としてのcons, car, cdr 2.1.1 有理数の算術演算 print-ratで#が表示されるのは最後のdisplayの返り値として#が返ってくるから 2.1.2 抽象の…