Apache Sparkの導入検証を行いました－基礎編－ - Platinum Data Blog by BrainPad ブレインパッド

本記事は、当社オウンドメディア「Doors」に移転しました。

約5秒後に自動的にリダイレクトします。

皆さん、こんにちは。マーケティングプラットフォーム本部で広告系製品の開発を担当している渥美です。

現在、弊社では、新たな分析処理基盤である「Apache Spark（アパッチスパーク）」の導入を検討しており、その一環として以下の検証作業を行いましたので、今回、皆さんにご紹介したいと思います。

SparkおよびSpark Streaming (with Kafka) のパフォーマンス検証
SparkおよびSpark Streamingを使ったサンプルアプリケーション開発

今回は、これらの検証に関する記事の前に、Apache Sparkとはそもそも何なのか？というところを、まずは「基礎編」としてスライドで簡単に解説したいと思います。

1.Sparkとは
2.RDD
3.実行モデルとスケジューリング
4.その他の主要なSparkコンポーネント
5.まとめ

Sparkは、ここ数年多くの注目を集めており、今年２月に米国で行われた、データ産業に関する世界最大のイベント「Strata + Hadoop World」でも、Spark関連のトピックが多くあったと聞いています。（Sparkとは何ぞや？といったトピックよりは、実践的な内容が多かったようです。）

また、Sparkは、MapRをはじめ、Hortonworks、ClouderaといったHadoopディストリビューションでもサポートされています。

Sparkの周辺には、Tachyonなどこれからが楽しみなプロダクトもあり、Spark自体の発展と周囲のエコシステムの充実に期待しています。

次回は、パフォーマンス検証についての記事をアップしますので、よろしくお願いします！