プロダクトの信頼性を支える技術集団!SREチームの仕事に迫る

ブレインパッドのSRE(Site Reliability Engineering)チームは、パーソナライズ・プラットフォーム「Rtoaster(アールトースター)」などのデータ活用プロダクトをお客様が安心して利用できるよう、サービスの安定稼働と信頼性の確保に取り組んでいます。普段は明かされないプロダクト運用の舞台裏、SREチームが大切にしている視点など、同チームで活躍する井上さん、内山さん、吉田さんにお話を伺いました。


内山 佐和子 吉田 史也 井上 剛志
XaaSユニット
サービスオペレーション

XaaSユニット
サービスオペレーション

XaaSユニット
サービスオペレーション
リード

多彩なキャリアをもつメンバーが集うチーム

──まず、皆さんの自己紹介をお願いします。

井上
2005年に中途社員として入社しました。入社後は自社プロダクトの開発チームに所属しRtoasterの立ち上げやインターネット広告の運用ツール開発などに携わりましたが、長年エンジニアとして活動するなかで、複数のプロダクトを横断的に安定運用することの必要性を感じるようになりました。そこでGoogleが提唱するSRE(システムを安定的に運用し、サービスやインフラの信頼性を支えるための方法論)の考え方に基づいたチームを5年ほど前に立ち上げ、現在にいたります。現在はプロダクト事業を担うXaaSユニットで、サービスオペレーション(運用・保守)全体の活動を統括しつつ、6名が所属するSREチームのリードを務めています。

内山
井上さんと同じく中途社員として、2022年に入社しました。SREチームでサービス運用・保守を担当しています。入社以前は個人事業主として働いており、クライアント先に常駐してコンテナ管理基盤の導入支援やプロダクトの保守開発などを経験しました。

吉田
ブレインパッドには2018年に新卒で入社しました。大学では人の学習システム構築に関する研究に取り組み、個人に合わせた学習機会を提供したり、到達度を評価する仕組みを作っていました。入社後は開発チームを経て、2023年からSREチームに所属しています。現在はプロダクトに関わるあらゆる作業の自動化や、サービス品質の評価指標を策定する業務を担当しています。

「お客様視点」でプロダクトの信頼性を守る

── SREチームの役割やミッションを教えてください。

井上
一言で表すと、「お客様が安心してサービスを利用いただけるようにプロダクトを安定的に稼働させ、信頼性を維持すること」です。具体的には、サービスの稼働状況をモニタリングするための環境を整備したり、インフラを安定させるための改善活動などを行っています。また、当社のサービスはお客様から大切なデータをお預かりしたうえで提供していますので、情報漏洩や不正アクセスが起きないようなセキュリティ対策も重要な業務です。

── 一般的なインフラエンジニアとSREの違いはどのような点にありますか。

井上
SREの特徴はアプリケーションやサービス全体を理解して「お客様視点で考える」ことです。いわゆるインフラエンジニアはインフラ自体を技術的な視点で捉える傾向がありますが、私たちはお客様の立場から見てサービスがきちんと提供できているか、安定的に動いているか、信頼性が維持できているかという点を常に意識しています。

吉田
SREとして重要なのは、SLO(Service Level Objective / サービス品質を数値で示す社内の目標値)やSLA(Service Level Agreement / サービス提供者と利用者の間で取り交わすサービス品質に関する合意)といった品質指標の設定や、オブザーバビリティによるデータ評価、クリティカルユーザージャーニー(ユーザー体験の一連の流れ)の評価などです。これらをプロダクトマネジャーと相談しながら評価し、サービスの品質向上に取り組んでいます。

── 他社とブレインパッドのSREチームを比較した際に、何か違いはありますか。

井上
SREの基本的な役割や取り組みはどの企業でもおおむね同じですが、組織体制には違いがあると思います。ブレインパッドでは、開発チームがアプリケーションの実行環境(主にGoogle Cloudが提供するマネージドサービスを利用しています)やCI/CDパイプラインなどのインフラ設計も担当しますが、他社ではSREが共通基盤を用意し、開発エンジニアはアプリ開発のみ担当する場合もあると思います。また、ブレインパッドではSREが複数のプロダクトを横断的に運用していますが、他社ではプロダクトごとに専任のSREを配置するケースがあります。

互いの専門性を活かし合うチーム

──井上さんがマネジメントされているSREチームですが、その中で吉田さん・内山さんが担当されている業務内容を教えてください。

吉田
主に取り組んでいるのはタスクの自動化です。人が介在する作業を自動化し、トイル(自動化可能だが、これまで手作業で繰り返し行われていたタスク)を削減する活動をしています。サービスを安定的に提供するために、オペレーションの品質の向上、運用に関わる負荷の低下や(長期的に見て)作業者の工数を削減できるトイルの削減は重要な業務となっています。また、SLO やSLA といったサービス品質の評価指標に関する業務や、オンコール(インシデント・障害対応)業務も担当しています。

内山
直近ではRtoaster に使用するシステムのリアーキテクト(基盤を作り直す作業)に取り組んでいました。具体的には、これまでGoogle Cloud上のVM(仮想サーバー)上で動いていた既存プロダクトをGoogle Kubernetes Engine(以降GKEと称します)というGoogleによって運用・管理等がされる、コンテナオーケストレーション(アプリケーションの協調動作)環境に移行し、それを運用しています。GKEの構築も行いました。現在は運用に必要な対応手順のドキュメント作成を進めています。また、サーバーの基盤部分の整備、アプリケーションの動作環境の設定・最適化といったプロダクトが安定して動き続けるための環境整備を進める仕事や、コンテナ化されたアプリケーションのインフラ面の整備や管理、運用業務も担当しています。また、吉田さんと同じくオンコール対応も行います。

── 仕事のやりがいや醍醐味を教えてください。

吉田
大きくは2つあります。1つ目は、作業の自動化による開発効率の向上です。無駄な作業を減らしてチーム全体の開発力を支えられる、人の役に立てることは大きなモチベーションに繋がっています。2つ目は、仕事を通じてプロダクトチーム全体と関わりがもてることです。SREはさまざまなプロダクトに触れる機会が多く、開発エンジニアだけでなく、サポートチームやプロダクトマネジャーとも連携します。より良いサービス提供のためにプロダクトチーム全体で連携しながら取り組めることにやりがいを感じています。

内山
ブレインパッドの良い点は、メンバーひとりひとりの「こうしたほうが良いのでは」という提案に耳を傾け、実際に改善策まで実行できる環境があることです。自分が起点となって、チーム全体の効率を高める環境づくりに貢献できることが、SRE業務の一番の醍醐味だと思います。

──各自の力が発揮されることで、相乗効果が生まれていることが伝わりました。業務を進める中で、ご自身の強みはどのような点にあると感じますか。

吉田
入社当初に所属していた開発チームでの経験が、現在の仕事に活きていると感じます。ツール作成や自動化を進めるには、コーディング力や環境理解といった開発エンジニアとしての知見が不可欠ですし、SREとして働くうえでは開発エンジニアの立場も理解しながら一緒に課題解決まで導いていくことが重要です。いずれの部署も経験してきた自分だからこそ、両者の視点を持ちながら業務に携われているのだと感じています。

内山
散らばった事項を整理して汎用的に使えるように交通整理をしていくことを得意としています。毎月行っている定期的な作業のうち、自動化には時間がかかるタスクを一時的に業務委託の方に依頼してメンバーの負担を軽減したり、単発でプロダクトのパフォーマンステストをしたい場合に私が間に入って調整することもあったりします。


求めているのはユーザー視点で考え、実行できる仲間

── チームを成長させるために、これから仲間として一緒に働きたいのはどのような方でしょうか。

井上
理想をいえば「インフラ構築と開発の両方の経験がある方」となりますが、どちらか一方でもしっかりと取り組んできた経験があれば、入社後に必要なスキルは十分に学ぶことができますし、チーム内でも補い合うことができます。何より大事なのは「お客様視点で物事を考えられること」だと考えています。技術だけに興味があるのではなく、実際にサービスを利用するユーザーのために行動する姿勢をもっていることが大切です。サービスの信頼性を高めるためには何が必要なのかを私たちと一緒に考え、実行できる仲間を求めています。

吉田
SREの業務においては、チームメンバーの多様性を尊重し、お互いに強みを活かしていくことがとても重要だと感じています。例えば、内山さんは人と協働して問題解決まで導くことが得意ですが、私はコードを書いて自動化して解決まで導く方が力を発揮できます。問題解決の手段にはさまざまな選択肢があってよいのですが、問題の根本原因を正確に理解し、それを解決したいという志向性を持った方がSREに向いていると思います。積極的に知識を吸収し、プロダクトに関わるさまざまな部署のメンバーと連携しながら問題を解決したいと考える方と一緒に働きたいです。

内山
地道な作業に向き合わないといけない場面も多いので、トライアンドエラーに根気強く取り組める方は活躍いただけると思います。また、わからないことは素直に「わからない」と言えることも大切です。複数あるプロダクトのすべてを把握しきれないこともありますが、技術的好奇心をもちながら自分ができることを最大限やる姿勢があれば、力を発揮できると思います。


今後の展望

吉田
当面はSLOとクリティカルユーザージャーニーの定義を進めることが最優先です。プロダクトマネジャーと連携しながら、ユーザー視点での評価指標を確立していきたいと考えています。まだ十分にできていませんが、ユーザーの実際の体験を追跡して評価できる仕組みづくりに取り組んでいきたいです。また、長年運用してきたプロダクトが抱える技術的な課題の解消と並行して、作業の自動化・効率化も進めていきたいと考えています。

将来に向けた挑戦としては、新しいプロダクトに対して安定稼働の仕組みを構築することです。これまでは既存システムの改善が中心でしたが、これからは新サービスの品質や価値を高めるための取り組みにも注力していきたいと考えています。

内山
私は自分のスキルの幅を広げていきたいと考えています。現在はコンテナやVM(仮想マシン)が得意ですが、吉田さんのようにコーディングスキルを身につけて作業の自動化にも取り組みたいと思っています。SLOについても、基本概念だけではなく、その裏側の技術的な仕組みをもっと深く学びたいという想いがあります。もちろん得意分野もさらに伸ばしていきたいと考えていて、コンテナセキュリティやクラウドセキュリティといった安全面にも関心を持っています。

また、ゆくゆくはマネジメントにもチャレンジしていきたいです。最近はマネジメントに関する研修を受けたり、社外のテックカンファレンスで会場Wi-Fiの提供に挑戦する機会がありました。そこで得た学びを実践に活かしたり、新しい領域へチャレンジすることで自身のスキルを拡大したいと考えています。

井上
リードの立場からお話すると、SREチームはまだ成熟途上だと考えています。インフラ面の改善やサービスの稼働状況の把握には、まだ発展の余地があります。特に課題と感じているのは、お客様が複数のプロダクトを組み合わせて使用する際の連携状況を横断的にモニタリングする部分です。またセキュリティ面では基本的な対策はできていますが、クラウド利用において発生するセキュリティリスクに対して、利便性や製品開発のスピード感は損なわずに統制をとることは不可欠です。そのためにセキュリティガードレールを構築したり、WAF運用やデータアクセス監査の自動化など、セキュリティ対策の強化を図っていきたいです。

今後の方向性としては、これまで自己管理していたインフラをクラウドベンダーが提供するマネージドサービスへ移行することで、私たちはインフラ管理よりも「お客様視点でのモニタリング強化」や「運用自動化」に注力していきたいと考えています。お客様が不便と感じる場面を一つでも減らせるように、SREチームとしても成長していきたいです。

さらに長期的にはSLOをより明確に定義し、「エラーバジェット(システムのエラー許容度をあらかじめ決めておくこと) 」という考え方を取り入れた戦略的な運用を目指していきたいです。例えば、稼働率99.8%を目標とすると0.2%の余裕がありますが、この余裕を戦略的に活用することで、開発エンジニアがリリース頻度を上げるなど、より柔軟な運用や改善が可能になると考えています。

── 本日はありがとうございました。


ブレインパッドでは新卒採用・中途採用共にまだまだ仲間を募集しています。
ご興味のある方は、是非採用サイトをご覧ください!

www.brainpad.co.jp
www.brainpad.co.jp