Platinum Data Blog by BrainPad

株式会社ブレインパッドのデータ活用に関する取り組みや製品・サービス開発の裏側、社員の日常などをご紹介します。

電気通信大学「データアントレプレナープログラム」にて講義を実施しました

こんにちは。広報の辻田です。

データ活用が今後の企業経営を左右する重要な要素であるという流れは、教育の現場でも顕著になってきています。「ビッグデータ活用」、「データサイエンティストの育成」といったテーマの授業・講義が大学をはじめとする、さまざまな教育機関で実施されるようになってきました。

ブレインパッドは、データ分析のパイオニア企業として、バラエティに富んだ分析実績を有するという点で、ありがたいことに、よく講師のご依頼をいただきます。過去にも、東京工業大学、慶應義塾大学、早稲田大学、立教大学、法政大学などで講師を担当させていただいています。

今回は、国立大学法人電気通信大学(東京都調布市)が開講する「データアントレプレナープログラム」にて講師を務めさせていただきました。電気通信大学は、1912年創立の理工学系の国立大学です。100年近くにわたり、常に時代の要請にこたえるべく、電気・通信や情報分野に限らず、光化学や脳科学、ロボティクスなど、幅広い分野でユニークな教育・研究活動を推進しています。

ユニークな「データアントレプレナープログラム」

データアントレプレナープログラムは、データサイエンティストとしての素養を持ち、新たな価値を生むビジネスを創出できる「データアントレプレナー」の育成を目的としたユニークなものです。プログラムの目玉は、国内外のデータサイエンスおよびビッグデータ関連企業、ユーザー企業(計12社)から派遣された講師が、全12回の講義(90分)をそれぞれ1コマずつ持ちまわりで担当し、理論と実践の両面から解説を行う点です。

プログラムの受講対象は、大学生だけではなく企業に所属する方にも広く門戸が開かれています。当日は、60名近い方が参加し、教室は熱気に包まれていました。本プログラムを推進する、電気通信大学 研究推進機構 産学官連携センター 副センター長の田村 元紀教授にお話を伺ったところ、「本プログラムに参加している受講生の皆さんは、とても熱心。60名のうち4割が学生(学部・修士・博士)、6割が企業に所属されている方です。電気通信大学に所属していなくとも参加できるので、講師からだけではなく、受講生同士の交流からもさまざまなことが学べるスタイルとなっています」とおっしゃっており、実践的なプログラムであることがわかります。

f:id:brainpad-inc:20151217135020j:plain
↑会場は、土曜日にも関わらず、熱心な受講者の方々でいっぱいでした

ReceRecoのデータから見えるもの、その裏で活躍するデータサイエンティスト

当社が担当した講義では、「レシートデータを活用したビジネス解決例と受託型ビジネスにおけるデータサイエンティストの役割」というテーマで、国内外の先進的な技術の研究・開発を行う当社A.I.開発部の三浦 航が講師を務めました。当社が提供する無料家計簿アプリ「ReceReco(レシレコ)」を題材に、ReceRecoのアプリから収集されたデータの分析結果を、どのようにビジネスに活用できるのか、その裏側で当社のデータサイエンティストがどのような活躍をしているのかを説明しました。

ReceRecoは、買い物の際などに店舗で受け取ったレシートをスマートフォンのカメラで撮影することで、レシートに記載された商品名、各商品の購入金額といった詳細情報が取り込まれ、簡単に家計簿が作れるアプリです。商品ごとに食事、交際費といった費目を登録することができます。ReceRecoに蓄積されたレシートデータを分析することにより、商品購買動向などの新商品開発や販売戦略立案のための情報を得ることが可能です。ReceRecoのデータの特徴は、一般的なPOSデータなどとは異なり、特定の店舗だけではなく企業を横断して商品購買動向を分析できる点です。(登録されたレシートデータを個人が特定されない範囲で二次利用することは全ユーザーに事前許諾済み。)

ReceRecoのデータ分析結果については、ITmediaニュースの連載「データサイエンティストの視点」という記事にもなっていますので、ご興味があればあわせてご覧ください。

分析の現場で活用されるさまざまな技術やアルゴリズム

今回の講義では、「競合を含めた商品購買動向を知りたい」という流通業の課題に対して、当社のデータサイエンティストがどのような手法や技術を使用して分析を行ったのかを説明しました。受講生の方々からは、データ分析により価値のある結果を生み出すには、さまざまな工程を経る必要があるという点に興味が集まりました。

よく、当社のデータサイエンティストは、口をすっぱくして「良い分析をするためには、適切な前処理(データ加工)が重要」といっています。

今回の分析の対象となるレシートは、購入された店舗によって、同じ商品であっても表記の方法がバラバラなため、分析しやすいように商品名をきれいに(クレンジング)することや商品登録マスタに寄せる(名寄せ)する必要があります。ReceRecoにおいても、裏では、自然言語処理などの技術を利用した当社独自開発の「名寄せアルゴリズム」が使用されています。

f:id:brainpad-inc:20151217155111j:plain
↑ReceRecoにおける商品名のクレンジング・名寄せの流れ

登録件数が多い商品名にデータを寄せる際には、その名寄せが本当に正しいのかを判断する必要があり、商品名同士の「類似度」というものを計算します。何も考えずに全商品に対して類似度を計算すると相当な時間がかかるそうで(例えば、1チェーンあたりの商品件数は数十万件程度なので、全て計算すると1週間近くかかる…)、そこには、データサイエンティストとしての工夫により、必要な計算だけを行うなどの、テクニックがあります。

f:id:brainpad-inc:20151217135348j:plain
↑ここでは、「みかん」と「ぽんかん」を同じカテゴリにするため、類似度を計算

講師の三浦からは、「分析を行う際には、自然言語処理をはじめとして、さまざまな技術を利用して、処理を行っています。利用する技術は、最先端のものから、一般的によく知られている技術までさまざまです。最先端の技術が必ずしも良いというわけではなく、お客様のビジネス上の課題を解決するために、どのような技術を選択するのか、メリット・デメリットをそれぞれ理解し組み合わせで利用するなど、ビジネスの現場ならではのさまざまな工夫が行われています。」という説明がありました。

データサイエンティストとしてビジネスに関わるやりがいとは?

本講座の締めくくりとして、三浦より、「ブレインパッドでは、ユーザー企業とは違い、さまざまな分野の案件を担当できる。毎回扱うデータもユースケースも異なるので、その都度学びが大きい。とてもやりがいのある仕事です。」と、当社のデータサイエンティストならではのコメントがありました。

最後になりましたが、今回、このような貴重な機会を与えてくださった、電気通信大学の田村 元紀教授、ならびに関係者の方々に、この場をお借りしてお礼申し上げます。ありがとうございました。


なお、当社では、データサイエンティスト職の採用(新卒・中途)を行っておりますので、ご興味がある方は、ぜひ、当社採用サイトを覗いてみてください!