データサイエンティストが活躍するリアルなビジネスの現場とは? - 東京工業大学学生向け職業紹介セミナーレポート -

 こんにちは。アナリティクスサービス本部の多根です。

 企業などのデータ活用を促進し、売上向上・業務効率の改善などを実現するための重要な役割を担う「データサイエンティスト」という職業。データサイエンティストの人材不足や教育の必要性が世界的規模で喚起されており、日本においても未来のデータサイエンティストを育成するために国内初の「データサイエンス学部」が、来春、滋賀大学に設立されるなど、学校教育に対しても大きな影響を与えています。

 ブレインパッドは、長年にわたりデータによるビジネスの創造と経営改善に向き合ってきたデータ活用の実績が評価され、これまで多くの大学において講演・セミナーでの登壇や講師を務めさせていただいています。

東京工業大学の学生を対象にしたセミナーに登壇

 11月25日(金)、東京工業大学大岡山キャンパス(東京都目黒区)において、同大学の情報理工学院・情報生命博士教育院の合同開催により、学生を対象とした「データサイエンティストという職業」というテーマのセミナーが開催され、当社、一般社団法人データサイエンティスト協会、ヤフー株式会社による講演が実施されました。当日は、データサイエンティストに興味を持つ同大学の学部・修士課程・博士課程の学生が大勢集まり、活発な質疑応答も繰り広げられました。

 当社からは、金融機関にてクオンツのモデル開発(*1)やデータマイニングなど豊富な経験を持ち、静岡大学での教壇経験(「マーケティング論(データ分析、数理モデリング担当)」)もある、当社アナリティクスサービス本部 副本部長の角谷 督が講演を行いました。今回は、角谷の講演を中心に本セミナーの様子をご紹介いたします。

「データ分析業務の実際 - 角谷の講演内容より - 」


講師:角谷 督(当社アナリティクスサービス本部副本部長・シニアデータサイエンティスト)
東京理科大学大学院博士課程修了。工学(博士)。日興証券投資信託委託(現:日興アセットマネジメント)、金融エンジニアリング・グループ、ラッセル・インベストメント、ブラックロック・ジャパンにて主にクオンツに従事。2012年ブレインパッドに入社。2016年7月より現職。専門分野は、データマイニング、統計分析、リスク管理、投資意思決定などに関わるシミュレーション、数理モデル開発。
■教歴
 静岡大学「マーケティング論」非常勤講師(2015年)
■受賞歴
 SASユーザー学術総会 SUGI-J '99 最優秀論文賞

 データサイエンティストの活躍の場は大きく分けて、クライアント企業からデータ分析に関するさまざまな仕事の依頼を受ける会社(サービサー)で働く場合と、事業会社にて働き自社のサービスなどのデータを分析する場合の2つに分けられます。ブレインパッドは前者の立場から、国内随一の数を誇るデータサイエンティストが、幅広い業界・分野のクライアント企業から依頼されたデータ分析業務に従事しています。サービサーで働くデータサイエンティストには、担当するクライアント企業の業種やプロジェクトの分野などに応じて幅広い知識が求められるため、さまざまなデータサイエンティストが協力しあう組織力と蓄積された実績やノウハウも重要と言えるでしょう。

 なぜ、データ分析業務がビジネスになるのでしょうか? それは、クライアント企業から依頼されたデータ分析業務を目的別で分類するとわかります。例えば、「解析(構造可視化/ABテストの評価/要因分析)」「予測(予測/判別/シミュレーション)」「最適化(利益の最大化/コスト・リスクの最小化)」などの目的がありますが、多くの企業では何を目的とし、そのためにどのようなデータを用意し、どのような手法で分析するのか、つまり正しく分析を設計できる人材が少ないため、当社のような会社にデータ分析を依頼します。

 なぜ正しく分析設計することが難しいのか?という疑問が沸く方がいるかもしれませんが、それはデータサイエンティストに求められる業務領域が非常に広いという点が挙げられます。具体的には、ビジネス理解、データの理解/準備、データ加工/データマート設計、データマート作成、モデリング、評価、展開など幅広い業務の領域があり、それぞれのフェーズによって、データハンドリング・モデリング・統計学/OR(*2)・数的推理力、そして、ビジネスドメインに関する知識など多岐に渡るスキルが求められます。

 加えて、幅広いデータ分析手法を求められるということも分析設計が難しい理由の一つと言えるでしょう。事業会社の経営企画部門やマーケティング部門では、機械学習(テキスト解析、画像解析、強化学習)、統計分析(時系列分析、検定)、OR分野(最適化、DEA(*3))などの広範囲なデータ分析手法を全てカバーすることは難しく、さまざまな専門分野を持つデータサイエンティストが所属する当社のようなプロフェッショナルに依頼を行うのです。

▲データサイエンティストに求められる業務領域(講演資料より)

製造業でのデータ分析プロジェクトの一例をご紹介

 最近、当社が実施したデータ分析のプロジェクトである、製造業向けに行った「不良品生産を少なくする製造条件の特定する」事例について、ご紹介したいと思います。

1.ビジネス理解
目的 : 工場の製造工程においてセンサーから収集される不良品検査データを用いて、不良品を少なくする製造条件の組み合わせを探索し、理想的な製造条件を特定すること。
分析モデルの要件 : 観測される不良品の多寡から、観測ノイズを考慮して理想状態を定義すること。センサーの種類毎に代表値を決めること、不良品が少ない理想状態を判別すること。

2.データの理解・準備
基本統計量・外れ値・欠損値の確認 : サンプルから除外すればいいというわけではなく、何かしらの情報を含んでいるかどうかの精査が必要。特にモデルが検知するための情報を消し去ってしまうこともあるため注意が必要。また、不良品数の分布から理想状態を定義しデータを分類・クラス分けをした。
データのサンプリング : 理想状態と考えられるクラスに属するデータを正例、それ以外を負例とし、サンプリングしてクラス比率が50%:50%となるよう、バランスを調整した。

3.データ加工・データマート設計
目的変数の定義 :理想的な製造条件を抽出することが目的であるため、クラス分類の結果から正例・負例に分け、目的変数を作成した。

4.モデリング
不良品確率の推定モデル構築 :目的変数に対して、センサーデータを説明変数とする2値分類モデルを推定する。理想状態となる製造条件をセンサー値の組み合わせから算出。
理想的な製造条件の抽出 :理想状態であるとの推定確率が高くなったオブザベーションに関する説明変数を集め、中心からの外れ値を検出する。外れ値を除き、さらにその中から外れ値を検出して、その外れ値を除外する。この作業を繰り返し、除去されずに残ったデータが全体の一定割合になったところで、外れ値の検出・除外をストップし、残ったセンサーデータの代表値を最適なデータの組み合わせとする。

 本プロジェクトでは、欠損値の種類に応じた統計処理や対数変換後の期待値、機械学習などの知識と、SQLコーディング、R・Pythonなどのスクリプト言語の記述スキル、そして業務内容・分析対象の理解や資料作成・プレゼンテーションスキルなど、さまざまな知識・スキルが必要でした。本プロジェクトにより、クライアント企業では、不良品率が有意に低下し、大きな利益がもたらされました。正しく、効果のある成果にはそれなりの報酬が支払われます。データサイエンティストは、データ分析を行うだけでなく、分析結果をビジネスに活用することでどのようなビジネスインパクトがあるのかを明示し、経営層や意思決定者を支援することができる職業として期待されています。
 大学や大学院での研究は、先行研究の論文を表面的なものに捉われずに批判的に読んだり、仮説を立て、現象をうまく捉えるための分析の工夫など、データサイエンティストの業務に非常に近いと思われます。今回の講演を通じて、学生の皆さんがデータサイエンティストという職業に興味をもっていただければ幸いです。

質疑応答

 角谷の講演後には、参加者の皆さんからたくさんの質問がありました。その一部をご紹介します。

Q:先ほどご紹介いただいた、「製造業でのデータ分析プロジェクト事例」では、何名ぐらいのデータサイエンティストが携わったのですか?
A:3名です。プロジェクトとしては小さめの部類に入ります。

Q:データサイエンティスト以外のメンバーもプロジェクトに携わることはありますか?
A:データサイエンティスト以外にも、クライアント企業のニーズを確実に把握し提案活動を行う営業、社内外の関係者をコーディネートしながらプロジェクトの推進を行うプロジェクトマネージャーなどさまざまなプロフェッショナルがプロジェクトに参加しています。

Q:事例では外れ値、欠損値を気にして丁寧にデータを扱っていると感じました。大学院などの授業や研究においては綺麗なデータを使うことが多いですが、ブレインパッドでは外れ値、欠損値などについても学ぶ機会があるのでいるのでしょうか?
A:新入社員には、半年くらいかけて、リアルなデータ分析の場として、データクレンジングや機械学習などの分析手法など、基礎的な知識を学ぶプログラムを用意しています。

 さらに、当社が開催している、学生の皆さんからも関心が強いデータ分析に関するコンペティションや企業インターンシップの話題が続き、セミナー終了後も学生たちは講師のまわりに集まり熱心に質問をしていました。本セミナーを機に、東京工業大学から多くの優秀なデータサイエンティストが輩出されることを期待しています。


                                         
 最後に、データサイエンティストの採用に興味を持った皆さん、当社採用サイトでは、データサイエンティストの仕事内容や当社社員によるインタビューを掲載しております。ご興味がある方は、ぜひ、覗いてみてください!
www.brainpad.co.jp

(*1)クオンツのモデル開発とは、金融業界においては、高度な数学的手法や数理モデルを使って、マーケットを分析したり、投資戦略や金融商品を考案・開発したりすること、もしくはその専門家のこと。
(*2)OR(Operations Research、オペレーションズ・リサーチ)とは、数学的・統計的モデル、アルゴリズムの利用などによって、さまざまな計画を行う際に最も効率的になるよう決定する分析手法のこと。
(*3)DEA(Data Envelopment Analysis、包絡分析法)とは、効率性を評価するための分析手法の一つ。民間企業や公共機関などのプロジェクトを評価するために利用されている。