こんにちは、アナリティクスサービス部の家入です。Google Cloud Next '19 や AWS Summit 2019 と毎年クラウド周りは賑やかですね。弊社ブログに掲載したイベントレポートはもうお読みいただけましたでしょうか?さて、世の中はそんなイベントや新サービスで盛り上がっていますが、例えば AWS のストレージや分析のサービスだけでも、S3、DynamoDB、ElastiCache、RDS、Athena、Elasticsearch Service、EMR、Redshift など多種多様です。クラウドサービスは正しく使わないとその真価を発揮できません。ということで今回は、AWS についての技術や経験を認定する AWS 認定ビッグデータ専門知識の資格に (1度失敗して) 合格したお話をします。
資格の概要
AWS の認定資格は 11 個あり、このうち AWS 認定ビッグデータ専門知識はビッグデータ領域での技術と経験を検証する専門資格です。私がこの資格を選んだ理由は、データサイエンティストとしてクラウドでのビッグデータの取り扱いに関して、体系的な知識と証明を得たかった (ことと、いずれにせよAWS Summit でお土産がもらえる) からです。また、他に機械学習の資格がありますが、私が勉強を開始した時はベータ版でした。
AWS 認定ビッグデータ専門知識では、170 分で 65 問の問題を解きます。内容は難しいので試験時間は結構ギリギリになります。また、受験料として、30,000 円(税抜)がかかりますが、弊社ではスキルアップエイドという社員の学習を支援する仕組みがあるため、金銭的負担はかかりませんでした。素敵です。
こちらの試験ガイドの通り、ビッグデータの取り扱いに関する 6 分野(収集・格納・処理・分析・可視化・セキュリティ)から問題が出題され、全体の正解率で合否が判定されます。AWS のデジタルトレーニングでは、次のようなスライドが出てきますので、対応するサービスを把握しましょう。
項目 | 比率 |
---|---|
収集 | 17 |
格納 | 17 |
処理 | 17 |
分析 | 17 |
可視化 | 12 |
セキュリティ | 20 |
勉強方法
目的や目標が定まったからといって、すぐに取り掛かるのは悪手です。データ分析・機械学習プロジェクト同様に、きちんと情報を集め、課題を具体化し、取り組むべき優先順位を定める必要があります。というわけで、過去に受験されている方の情報を集めました(nakazaxさん、tmtkさん、yohei-aさん、ぼぶろぐさん、cloudfishさん)。調べたところ、収集・格納・分析などが難しいようです。また、セキュリティは比率が高いので、きちんと勉強する必要がありそうです。次に取り組み方ですが、だいたい下記のコンテンツを利用しています。
私も同じように取り組みました (が、最初は落ちました) 。
まずはビッグデータ関連のサービスについて、大まかに理解するのが良いと思います。個人ブログでも紹介していますが、ビッグデータのホワイトペーパー・re:Invent 2017・re:Invent 2018 がちょうどいいです。また、ビッグデータ専門知識は他と違って模擬試験がないので、問題のレベルを把握するためにも、サンプル問題と試験対策トレーニングは重要です。後者はアーキテクチャの考え方やサービスの特性を踏まえた解答を説明してくれるので、Black Belt を一通り読んだ後など、3 回はやりました。とはいえ、Black Belt、ホワイトペーパー、re:Invent 動画は全て目を通すには多すぎるので、必要と考えられるサービスを扱っているものに取り組みました。優先度の高いサービスは次の通りです。
- Kinesis
- EMR
- Redshift
- DynamoDB
- S3
- Lambda
- QuickSight
- Elasticsearch Service
- Data Pipeline
- RDS
- KMS
なお LinuxAcademy は私にとってはあまり役立ちませんでした。
勉強の観点としては、各サービスの特性を理解して比較できることが重要です。例えば、
- Kinesis も SQS もリアルタイムでデータを保存・処理できますが、それぞれの違いは何でしょう?
- EMR と Redshift はどちらもクラスター上でデータを処理しますが、そのメリット・デメリットは?(参考)
- RedshiftはDWHとして構造化データを扱いますが、EMRはHadoop基盤であり、非構造化データも扱います
- Redshift は SQL による分析を行いますが、EMRは使用するアプリケーション(Hive, Presto, Sparkなど)により、機械学習からストリーミング処理まで可能です
- オンプレとクラウドでデータを転送する際に、Direct ConnectとSnowballのどちらが効率的?
- こちらは問題が少し曖昧ですが、Direct ConnectはAWSと専用回線を繋ぐとはいえ、大規模データを転送するためのソリューションではなく、数十テラバイトあるいはペタバイトクラスのデータではSnowballを使う方が速くなります
こういった形で、自分なりに説明できるとよいでしょう。実は、この辺りのことはよくある質問に書いてあります。
試験本番
試験は長丁場なので、余裕を持って会場に行き、お手洗いなどもちゃんとすませておきましょう。試験自体は、英語で受けたこともあり、やはり問題が難解だったり長文だったりして、時間いっぱいまで問題を解いていました。見直しにかけた時間は 15 分くらいです。個人的には、本当に見直しが必要なものを除いて、一つ一つ丁寧に読みこんで解答する方がいいと思います。最初に受験したときは、予想以上に難しく、見直しに時間を当てたいのもあり、焦って解答してしまいました。解答の際には、求めらていることが何なのかを捉えた方がいいです。だいたい、(1) 可用性の向上、(2) 運用の低減、(3) コスト削減、(4) セキュリティの確保、です。この点は試験対策トレーニングでもよく言っていました。
感想
年始のあたりから5ヶ月に渡って勉強してきたので、長く苦しい戦いだった、無事合格できて良かったです。試験後のモニターに You are successful! の文字を見たときは、本当に達成感がありました。しかしながら、プロジェクトと並行して勉強するのはなかなか大変なので、弊社の Kaggler をはじめとするみなさまは一体どうやって時間を作っているのだろうかと思います。
合格者特典
合格者は AWS re:Invent や AWS Summit で認定者ブースを利用することができたり、記念品をもらえたりできます。(そのために5月中に試験合格を目指していました(笑)。)AWS Summit 2019 Tokyo に参加した際は、しっかり記念品をもらってきました。初日に行くとボトルがもらえたようです。また、合格者は他にも模擬試験を受けられたり、認定の更新試験を割安で受験することができます。
まとめ
今回の試験を通して、もともと使っているサービスの効果的な使い方だけでなく、普段あつかわないサービスの仕様やユースケースについても学ぶことができました。新しい知識を得ると、俄然使いたくなってしまいますね。今回は AWS 認定ビッグデータ専門知識についてお書きしましたが、いかがだったでしょうか。本記事がみなさんの参考になれば幸いです。
ブレインパッドでは、クラウドサービスを活用してビッグデータ分析を行う仲間を募集しています。興味のある方はぜひ応募してください!
www.brainpad.co.jp