Platinum Data Blog by BrainPad

株式会社ブレインパッドのデータ活用に関する取り組みや製品・サービス開発の裏側、社員の日常などをご紹介します。

AWS認定ビッグデータ専門知識の試験に合格しました

Amazon Web ServicesGoogle Cloud をはじめとして様々なクラウドサービスが提供されています。クラウドサービスは、その目的や用途に合わせて、適切に設計・管理できてこそ価値を発揮します。というわけで今回は、ビッグデータに関する技術を問う AWS 認定ビッグデータ専門知識の試験に合格した当社社員が、合格までの道のりについてご紹介します。
f:id:bp-writer:20190702114159j:plain
AWS Summit でインタビューに答えてもらった T シャツ


こんにちは、アナリティクスサービス部の家入です。Google Cloud Next '19AWS Summit 2019 と毎年クラウド周りは賑やかですね。弊社ブログに掲載したイベントレポートはもうお読みいただけましたでしょうか?さて、世の中はそんなイベントや新サービスで盛り上がっていますが、例えば AWS のストレージや分析のサービスだけでも、S3、DynamoDB、ElastiCache、RDS、Athena、Elasticsearch Service、EMR、Redshift など多種多様です。クラウドサービスは正しく使わないとその真価を発揮できません。ということで今回は、AWS についての技術や経験を認定する AWS 認定ビッグデータ専門知識の資格に (1度失敗して) 合格したお話をします。

資格の概要

AWS の認定資格は 11 個あり、このうち AWS 認定ビッグデータ専門知識はビッグデータ領域での技術と経験を検証する専門資格です。私がこの資格を選んだ理由は、データサイエンティストとしてクラウドでのビッグデータの取り扱いに関して、体系的な知識と証明を得たかった (ことと、いずれにせよAWS Summit でお土産がもらえる) からです。また、他に機械学習の資格がありますが、私が勉強を開始した時はベータ版でした。

f:id:bp-writer:20190702115020p:plain
AWS の資格

AWS 認定ビッグデータ専門知識では、170 分で 65 問の問題を解きます。内容は難しいので試験時間は結構ギリギリになります。また、受験料として、30,000 円(税抜)がかかりますが、弊社ではスキルアップエイドという社員の学習を支援する仕組みがあるため、金銭的負担はかかりませんでした。素敵です。

f:id:bp-writer:20181108140549p:plain

こちらの試験ガイドの通り、ビッグデータの取り扱いに関する 6 分野(収集・格納・処理・分析・可視化・セキュリティ)から問題が出題され、全体の正解率で合否が判定されます。AWS のデジタルトレーニングでは、次のようなスライドが出てきますので、対応するサービスを把握しましょう。

項目 比率
収集 17
格納 17
処理 17
分析 17
可視化 12
セキュリティ 20

f:id:bp-writer:20190702120101p:plain

勉強方法

目的や目標が定まったからといって、すぐに取り掛かるのは悪手です。データ分析・機械学習プロジェクト同様に、きちんと情報を集め、課題を具体化し、取り組むべき優先順位を定める必要があります。というわけで、過去に受験されている方の情報を集めました(nakazaxさんtmtkさんyohei-aさんぼぶろぐさんcloudfishさん)。調べたところ、収集・格納・分析などが難しいようです。また、セキュリティは比率が高いので、きちんと勉強する必要がありそうです。次に取り組み方ですが、だいたい下記のコンテンツを利用しています。

私も同じように取り組みました (が、最初は落ちました)

まずはビッグデータ関連のサービスについて、大まかに理解するのが良いと思います。個人ブログでも紹介していますが、ビッグデータのホワイトペーパーre:Invent 2017re:Invent 2018 がちょうどいいです。また、ビッグデータ専門知識は他と違って模擬試験がないので、問題のレベルを把握するためにも、サンプル問題と試験対策トレーニングは重要です。後者はアーキテクチャの考え方やサービスの特性を踏まえた解答を説明してくれるので、Black Belt を一通り読んだ後など、3 回はやりました。とはいえ、Black Belt、ホワイトペーパー、re:Invent 動画は全て目を通すには多すぎるので、必要と考えられるサービスを扱っているものに取り組みました。優先度の高いサービスは次の通りです。

  • Kinesis
  • EMR
  • Redshift
  • DynamoDB
  • S3
  • Lambda
  • QuickSight
  • Elasticsearch Service
  • Data Pipeline
  • RDS
  • KMS

なお LinuxAcademy は私にとってはあまり役立ちませんでした。

勉強の観点としては、各サービスの特性を理解して比較できることが重要です。例えば、

  • Kinesis も SQS もリアルタイムでデータを保存・処理できますが、それぞれの違いは何でしょう?
    • Kinesis はシャードレベルで到着の順番が担保され、複数のコンシューマーで同じデータを利用できます。(参考
    • SQSのFIFOキューでは厳密にデータの順番が保証され、配信の成否をSQS側で確認します。(参考
  • EMR と Redshift はどちらもクラスター上でデータを処理しますが、そのメリット・デメリットは?(参考
    • RedshiftはDWHとして構造化データを扱いますが、EMRはHadoop基盤であり、非構造化データも扱います
    • Redshift は SQL による分析を行いますが、EMRは使用するアプリケーション(Hive, Presto, Sparkなど)により、機械学習からストリーミング処理まで可能です
  • オンプレとクラウドでデータを転送する際に、Direct ConnectとSnowballのどちらが効率的?

こういった形で、自分なりに説明できるとよいでしょう。実は、この辺りのことはよくある質問に書いてあります。

試験本番

試験は長丁場なので、余裕を持って会場に行き、お手洗いなどもちゃんとすませておきましょう。試験自体は、英語で受けたこともあり、やはり問題が難解だったり長文だったりして、時間いっぱいまで問題を解いていました。見直しにかけた時間は 15 分くらいです。個人的には、本当に見直しが必要なものを除いて、一つ一つ丁寧に読みこんで解答する方がいいと思います。最初に受験したときは、予想以上に難しく、見直しに時間を当てたいのもあり、焦って解答してしまいました。解答の際には、求めらていることが何なのかを捉えた方がいいです。だいたい、(1) 可用性の向上、(2) 運用の低減、(3) コスト削減、(4) セキュリティの確保、です。この点は試験対策トレーニングでもよく言っていました。

感想

年始のあたりから5ヶ月に渡って勉強してきたので、長く苦しい戦いだった、無事合格できて良かったです。試験後のモニターに You are successful! の文字を見たときは、本当に達成感がありました。しかしながら、プロジェクトと並行して勉強するのはなかなか大変なので、弊社の Kaggler をはじめとするみなさまは一体どうやって時間を作っているのだろうかと思います。

f:id:bp-writer:20190702121209p:plain
合格証

合格者特典

合格者は AWS re:Invent や AWS Summit で認定者ブースを利用することができたり、記念品をもらえたりできます。(そのために5月中に試験合格を目指していました(笑)。)AWS Summit 2019 Tokyo に参加した際は、しっかり記念品をもらってきました。初日に行くとボトルがもらえたようです。また、合格者は他にも模擬試験を受けられたり、認定の更新試験を割安で受験することができます。

f:id:bp-writer:20190702121322j:plain
認定者ラウンジの様子

f:id:bp-writer:20190702121402p:plain
オマケ、ボトル欲しかったです

まとめ

今回の試験を通して、もともと使っているサービスの効果的な使い方だけでなく、普段あつかわないサービスの仕様やユースケースについても学ぶことができました。新しい知識を得ると、俄然使いたくなってしまいますね。今回は AWS 認定ビッグデータ専門知識についてお書きしましたが、いかがだったでしょうか。本記事がみなさんの参考になれば幸いです。

ブレインパッドでは、クラウドサービスを活用してビッグデータ分析を行う仲間を募集しています。興味のある方はぜひ応募してください!
www.brainpad.co.jp