【GTC2018 現地レポート】現地到着&1日目 ― 世界最大級の深層学習・GPUカンファレンス@シリコンバレー ―

アメリカカリフォルニア州サンノゼで、3月26日から29日の4日間開催されているNVIDIA（エヌビディア）のイベント「GTC2018」の現地レポートをお送りします！現地レポートは、複数回お届けする予定です。今回は、その第1回です！

こんにちは。アナリティクスサービス本部・AI開発部の仲田です。

今回から数回にわたって、「GTC2018」の現地レポートをお届けします！
今日はイベント1日目、現地時間 3/26 (月) です。

■GTC2018?

GTC (GPU Technology Conference) とは、GPU 最大手・NVIDIAが開催する GPU の技術イベントです。
シリコンバレー、サンノゼで開催されています！

www.nvidia.com

皆さんもご存知の通り、GPU は深層学習に必須のデバイスということで、GTC のセッションの大部分を占めるのは深層学習に関するものとなっています。
セッションは大量にありすべてを紹介することは不可能なのですが、いくつか現地にて講演を聞いたものをピックアップしてお届けします！

■会場の雰囲気

現地・サンノゼと会場の様子を簡単にご紹介します。

セントジョセフ大聖堂。サンノゼ中心地にあります。

会場ホールエントランス。
かなり広く、セッション会場内は結構迷います。

昼食会場です。真ん中あたりから撮ったので、この写真から見える範囲のさらに倍ほどの広さがありました。参加者の多さがよくわかります。

■セッション

一番最初に聞いたセッションは「Playing FPS Games with Deep Reinforcement Learning」です。
スライドもアップロードされています：
http://www.cs.cmu.edu/~dchaplot/talks/NvidiaGTC18_DeepRL.pdf

強化学習のベンチマークとしてよく使われる、Doom という昔ながらの3Dアクションゲームをプレイすることが主題です。
AAAI2017, AAAI2018, ICLR2018 でそれぞれ発表された研究の紹介でした。
それぞれ、

deathmatch モードのプレイ

- 特に、未知のマップでもちゃんと動くか？

自然言語によるタスクの指示

- ゲーム画面と自然言語の指示が両方与えられるため、マルチモーダルな状況になる
- gated attention を利用して画像と言語情報を組み合わせた

自分が今マップ上でどこにいるのかを当てる

- 自分自身で能動的に自分の場所に関する情報を手に入れようと行動できる active localization という設定
- 自分が今どこにいそうなのか？を表現した belief を活用してネットワークを構成

といった内容でした。
3D環境を扱った強化学習は今後さらに増えてくることが予想されるため、継続的なウォッチングがこれからも必要そうです。

次は、「Low-latency RNN inference using Cellular Batching」です。
これは EuroSys2018 に採択された研究のようです：
http://www.news.cs.nyu.edu/~jinyang/pub/batchmaker-eurosys18.pdf

このセッションはスライドがまだアップロードされていないのですが、
スライド中のアニメーションを使った説明が、まさに百聞は一見にしかずといった具合でした。
ここでは文字による説明に留めますが、スライドがアップロードされたらぜひ一度ご覧になることをおすすめします。

LSTM を含む、RNN を利用するようなタスクでは、サンプルの長さがサンプルごとに異なることがよくあります。*1
そういう場合、普通は bucketing と呼ばれる方法を使って、似た長さのサンプルを集めてきてゼロパディングを入れることで少し無理やりバッチ処理をおこないます。
この研究では Cellular Batching という新手法を用いて、長さが揃っていない場合でも各サンプルの処理が終わり次第キューに溜まっているサンプルを次々詰めていくことで計算の無駄をなくし、スループットとレイテンシを両立したという内容でした。

詳細まで追いきれていないため詳しい説明ができず申し訳ありませんが、
個人的にはとても興味深い研究内容でしたので、今後もっと深掘ってみたいと思っています。

続いて、「Dense Connection Networks for Conversational Speech Recognition」を紹介します。
こちらの発表の元論文はおそらくこれかと思われます：
https://arxiv.org/pdf/1801.00059.pdf

CNN による物体認識タスクでは DenseNet が高い精度を出していますが、
この発表の研究はそれにインスパイアされて、LSTM にもレイヤ間のスキップコネクションを導入した Densely Connected LSTM を提案する、という内容が主題のようです。
音声認識のタスクにおいて提案手法が state-of-the-art を達成したと主張しています。

鍵となる要素は、CNN にも言えたことですが、「レイヤを多く重ねても skip-connection のおかげで勾配消失が起こりにくくなる」という点だと述べられています。
実際に、「skip-connection のないもの」、「residual (≒次のレイヤとのみ skip-connection あり) のもの」、「提案法のもの (≒任意のレイヤとの skip-connection あり)」で LSTM レイヤを積む数をいろいろ変えて実験してみたところ、やはり提案法はレイヤ数が多くなってもちゃんと学習ができるため、表現力を高くすることができるということでした。

聞くことの出来たセッションは他にもあるのですが、速報ということで特に気になったセッションの簡単な説明をお送りしました。
明日からも現地レポートをお届けします。よろしくお願いします！

ブレインパッドは、イベントへの参加や最先端の情報収集など、さまざまな取り組みを積極的に実施しています。実際のビジネスで自分の知識・技術を活用してみたいという方、ぜひエントリーください！
www.brainpad.co.jp

*1:自然言語処理では文章の長さ、音声認識では音声の長さに相当しますので、これがサンプルごとに異なるのはもっともです