Apache Sparkの導入検証を行いました -アプリ検証編-

本記事は、当社オウンドメディア「Doors」に移転しました。

約5秒後に自動的にリダイレクトします。

皆さん、こんにちは。マーケティングプラットフォーム本部で広告系製品の開発を担当している、田崎と白井です。

今まで2回にわたり、新たな分散基盤である「Apache Spark(アパッチ スパーク)」に関して、概要や弊社で実施したパフォーマンス検証について説明させていただきました。

・第1回「Apache Sparkの導入検証を行いました -基礎編-
・第2回「Apache Sparkの導入検証を行いました -パフォーマンス検証編-

最終回である今回は、Spark Streamingを使ったサンプルアプリケーション開発とその検証について、皆さんにスライドでご紹介したいと思います。

今回行った検証では、「Apache Kafka(アパッチ カフカ)」経由でアクセスログを取得し、そのログを用いてユーザーがコンバージョンするかどうかを予測する、というアプリケーションを作成しました。

スライドの内容

1.目的
2.アプリケーションのイメージ
3.特徴量作成
 (1)特徴量の作成
 (2)アクセスログについて
 (3)アクセスログからの特徴量作成
4.モデル作成
 (1)モデル構築手順
 (2)学習モデルについて
 (3)モデル実装
 (4)MLibを利用したロジスティック回帰
5.モデル適用
 (1)ストリーミング処理での特徴量作成
 (2)ストリーミング処理でのモデル適用
 (3)モデルの保存と読み込み
 (4)結果
 (5)まとめ


今回を含め3回にわたり、Apache Sparkの導入検証について説明させていただきました。システムパフォーマンスやアプリケーション作成の“はまりどころ”については、実際に触ってみないと気がつくのが難しいとは思いますが、本検証が、皆さんのApache Spark導入の際の参考になれば幸いです。