Sparkへの貢献コトハジメ - 元データ分析の会社で働いていた人の四方山話

2015年はSparkだ、と勝手に思っています。で、社内で自分の関わるサービスの裏側で利用する箇所をどんどん増やしていくのももちろんですが、これまでまともにOSSに貢献していなかったので、これを気にOSSへの貢献にもチャレンジしてみようかと思ったりしたので、色々調べてみた備忘録です。

基本情報

何かできないかな、ということで Contributing to Spark を読んで適当に要約してみます。

バグとか質問する時はJIRAでissueをopenするかMLにて。

githubのPull Requestで受け付けている。JIRAでissueをopenにした上でgithubのsparkリポジトリでのPRでレビューを行う。

という感じでしょうか。

Sparkの正しさ(バグフィックスとか？)に関するパッチであり、小さく、多くのユーザーにとって有益であるものは即座にレビューされ、マージされる。そうでないもの(以下のもの)は時間がかかったり、場合によっては拒絶される。

小さなパッチはほぼリジェクトされない。

MLLibの重要なゴールはアルゴリズムをたくさん揃えていることである一方で、プロジェクトのメンテナンス性や一貫性、品質が第一の要求のため、実装されるアルゴリズムは

であるべき。

全てのパッチには自動テストが行われる。

Sparkコントリビュータになりたいならまずはここからなチケット集

2つの方法がある

開発社MLにての議論

SBTやMavenコマンドをよく使うので一番よく使わえれているIDEはIntelliJなので早速コミュニティエディションをゲットする。

Eclipseも使われているよ〜という話だけどもういいや。。。

という感じです。さらに調べたり勉強したりしないといけないものが色々増えました。