読者です 読者をやめる 読者になる 読者になる

Platinum Data Blog by BrainPad

株式会社ブレインパッドのデータ活用に関する取り組みや製品・サービス開発の裏側、社員の日常などをご紹介します。

テクニカルナレッジ共有会(社内勉強会)を実施しました(2014/7/24)

広告ソリューション開発部の津田です。

本ブログの最初の記事として、7月24日(木)に実施された、社内の技術者向けの勉強会についてご紹介します。ブレインパッドでは、「テクニカルナレッジ共有会」と称して勉強会を行っており、回ごとにさまざまなテーマで社員同士が発表を行っています。当社では、データサイエンティストもさることながら、システム開発・運用者も多く在籍しており、定期的に技術共有の場を設けています。終わった後に懇親会も実施しており、さまざまなバックグラウンドの技術者がそこでコミュニケーションを取っています。

この取り組みは、昨年から全社的に行われており、今回で10回目となります。今回は、2014年4月に新卒としてブレインパッドに入社したメンバーが、自己紹介を兼ねて、学生時代に行った過去の研究や興味のある技術分野について発表を行った様子をお届けします。

f:id:brainpad-inc:20140804011753j:plain

ブートストラップ法による自然言語処理

広告ソリューション開発部の白井さんは、「ブートストラップ法による自然言語処理」というテーマで、大学院時代に研究していた自然言語処理の内容を発表しました。ここでのブートストラップ法は、統計学におけるブートストラップ法とは異なり、半教師あり学習の1つで、タグ付け作業を軽減するための一般的なフレームワークを指します。

このブートストラップ法は、大量のテキストの中から、タグ付けをしたい単語を大量に抽出するのに役立ちます。例えば、国名を取得したい(タグ付けしたい)場合に、"Japan"などの具体的な単語をシードとして少数入力することで、同じような文脈で出現する単語を、国名だと判断してタグ付けを行います。

この手法により、タグ付けをする際、一つひとつ人手で付けるのではなく、大量の候補をある程度の精度で集めることができるなど、タグ付け作業が効率化されます。詳しくは、以下のスライドをご覧ください。

ネットワーク上のクラスタリング

研究開発室の三浦さんは、「複雑ネットワークにおけるクラスタリング」について、大学院での研究を紹介しました。

複雑ネットワークの例としては、Webページのリンク構造や、論文の共著関係、たんぱく質の相互作用などさまざまなものが挙げられます。これらの共通点として、複雑ネットワークは、スケールフリー性やスモールワールド性をもつと言われています。スケールフリー性は、ネットワークの一部のノードが多くのリンクを持ち、ほとんどのノードは、リンクを数本しかもたない性質を指します。スモールワールド性とは、どのような2つのノードでもわずかなノードを経ることで、たどり着ける性質を指します。「六次の隔たり」という言葉に代表されるように、人間の知り合い同士の関係を複雑ネットワークにした場合、6人程度を介すと世界中のどんな人とも繋がることができると言われています。

三浦さんの発表では、モジュラリティという指標を用いて、複雑ネットワークのクラスタリングが紹介されました。大規模なネットワークのクラスタリングでは、クラスタリング結果の解釈が難しいなど、研究してきた課程での経験談も話してくれました。具体的な計算方法や研究結果は、以下のスライドをご覧ください。

生き物をはかる

アナリティクスビジネス部の渡邉さんは、「スギ人工林の荒廃に伴う鳥類の個体数変動」についてと、「材食性昆虫群集の多様性に影響を及ぼす要因」についての2つの研究を発表しました。フィールドワークの最中に撮影した、さまざまな動植物の写真も交えながらの発表でしたので、見ているだけでも楽しい発表でした。

渡邉さんの話では、スギ人工林の荒廃に伴う鳥類の個体数変動について、人工林は日本の森林面積の4割を占めるそうですが、間伐などの管理が行えずに荒廃が進む人工林が増えているとのことです。渡邉さんが所属していた研究室では、人工林の衰退とそこに生息する鳥類の個体数を調べるために、ラインセンサス法という、特定ルートを歩いて鳥類の種別と個体数を計数する調査を行い、季節要因なども交えながら個体数変動をモデル化しました。もう1つの研究は、材木と材木を食べる昆虫の関係を調べる研究でした。実際に割材から昆虫捕集を行い、植物の遺伝的距離と、同じ種類の材木から捕集された昆虫の関係を線形回帰で表しています。

実験デザインからデータ収集の苦労は、容易には推し量ることはできませんが、発表内容からは渡邉さんの動植物への愛情を感じることができます。ご興味ありましたら、ぜひスライドもご覧ください。

Introducing Julia / Parsing The Web with Deep Learning

アナリティクスサービス部の久本さんは、過去に社外で発表した資料を共有してくれました。

Introducing Julia

1つ目は、"Introducing Julia"と題されたスライド。Julia 2012年に登場した新しいプログラミング言語ですが、2014年9月に発刊される"Seven Languages in Seven Weeks"(7つの言語 7つの世界)の続編である"Seven More Languages in Seven Weeks: Languages That Are Shaping the Future"にも掲載予定であることから、その注目の高さが伺えます。久本さんは、Julia TokyoというJulia言語の勉強会も主催しており、社内でもひそかに注目をされています。

多重ディスパッチや高速なJITコンパイラを備え、LL言語のように書きやすく、RやMATLABで行うような数値計算をC言語のように高速に計算する…といえば、その人気の高さが伝わるでしょうか。Juliaの面白さを、ぜひ、久本さんのスライドでご覧ください。

Parsing The Web with Deep Learning

もう1つは、"Parsing The Web with Deep Learning"と題されたスライドで、その名の通り、Deep Learningについて紹介してくれました。その中でも、特に自然言語処理について触れられており、教師なし学習で単語の意味を推測し、ベクトル化をするword2vecというライブラリについての紹介があったり、単語間の依存関係を解析する手法や、その難しさについてのスライドがあります。残念ながら、すべてを紹介していただける時間はありませんでしたが、自然言語処理やDeep Learningについてご興味ありましたら、ぜひ次のスライドもご覧ください。