2018年度人工知能学会全国大会参加レポートその③〜技術的観点による論文ピックアップ〜

鹿児島県で、6月5日～6月8日の4日間開催された「2018年度人工知能学会全国大会」の現地レポートをお送りします！現地レポートは、複数回お届けする予定です。今回は、その第3回です！

こんにちは、AI開発部の須藤です。今日はJSAI参加レポートの第3回目ということで、いくつか技術的に気になった発表内容を紹介していきます。

投稿予定	テーマ（予定）
第1回	さまざまな業界で応用されているAI
第2回	工業における機械学習の最近
第3回（本記事）	技術的観点による論文ピックアップ
第4回	これからの人工知能。これからの人工知能社会。

第1回目の記事でもご紹介しましたが、全体の要素技術としてはやはり深層学習が多い傾向が見られました。個人的には、深層学習の適用例だけでなく、深層強化学習の応用の話も増えてきている、という点が印象的でした。また、機械学習系の国際会議と違う点として、日本におけるさまざまな分野での応用事例が豊富なことが挙げられます。農業、工業、建築業などの分野に限らず、面白い分野だと、コミック工学、人狼知能のセッションがありました。

第1回目, 第2回目のブログでは人工知能の応用先の話をメインに紹介しましたが、本記事では、もう少し基礎寄りの技術的な観点で、気になった発表についていくつか概要を紹介していきます。

■[1N2-03]スタイルの類似性を捉えた単語ベクトルの教師なし学習

〇赤間怜奈1、渡邉研斗1、横井祥1,2、小林颯介3、乾健太郎1,2（. 東北大学、2. 理研AIP、3. 株式会社Preferred Networks）

自然言語処理の分野において、何を伝えるか（意味）ではなく、どう表現するか（スタイル）をモデル化する、教師なし学習を提案しています。

ここで言うスタイルとは、「俺」、「あいつ」、「親父」、「だぜ」などのような表現方法のことです。

スタイルの学習も行うことができるように、CBOW（Continuous-Bag-of-Words）を拡張した手法を提案しており、スタイルの類似性を捉えた単語ベクトル空間で教師なし学習を行っています。CBOWでは、ある単語（ターゲット単語）の前後の単語数個からターゲット単語を推定するモデルを学習することで、単語間の関係性を学習し、単語の意味的表現を獲得します。提案手法では、「属性や人物情報に関わらず、ある１つの発話内の全単語のスタイルは一貫している」という仮定の元、同じ発話内でターゲット単語から少し離れた単語群も含めて、ターゲット単語を推定するモデルを学習することで、意味的表現を除いたスタイルとしての表現を学習できる手法を提案しています。（上記、図2）

単語から意味以外の特徴も捉えることで、書き手がある程度自由に表現できるWeb文書などで有用そうですね！例えば、記事の著者推定や、スパム分類への応用といったことが考えられそうです。

■[3L2-05] 確率分布を用いた画像テキストデータの埋め込みと検索

〇濱健太1、松原崇1、上原邦昭1（1. 神戸大学　大学院システム情報学研究科計算科学専攻）

こちらの発表では、マルチモーダルデータ間で適切な類似度を保つように、共通の空間に埋め込む手法を提案しています。適切な類似度に保った埋め込みを行うことで、画像とテキスト間の検索精度を向上させることに成功しています。

共通の空間に点として埋め込みを行うと、マルチモーダルデータ間の概念の包含関係や曖昧性の獲得が難しいとして、各データを点ではなく、確率分布として埋め込むことを提案しています。具体的には、従来手法のVSE(Visual Semantic Embeddings)を拡張し、VAE（Variational Autoencoder）のように正規分布のパラメータを出力するニューラルネットを導入しています。ただし、特徴量が確率分布になってしまうため、コサイン類似度ではなく、JSダイバージェンスを類似度指標として用いています。（上記、図1）

シンプルな手法にもかかわらず、精度が良く、発展性がありそうなので、個人的には最も興味を惹かれました。テキストと画像を活用することで、レコメンドにも用いることができるため、ビジネス面でも活かすことができそうですね！当社でもインターンの方が画像とテキストを用いた応用事例に取り組んでいました。

■[4A1-04]深層混合モデルによるクラスタリング

〇林楓1、岩田具治2、谷口忠大1（1. 立命館大学、2. NTTコミュニケーション科学基礎研究所）

VAEとGMM(Gaussian Mixture Model)を同時に学習することで、GMMのみだとうまくクラスタリングできないデータに対しても、クラスタリングが可能な手法を提案しています。従来手法だと、クラスタ割り当ての真の分布と近似分布のKLダイバージェンスを0にしていますが、提案手法では、Jensenの不等式を用いて、GMMの下限とVAEの下限を含んだ変分下限を導出して、近似を行っています。

実験として、pinwheel dataに対してGMMと提案手法での比較を行っています。

■[1Z3-03]時系列データに対するdisentangleされた表現学習

〇山田真徳1、Kim Heecheol3、三好康祐3、山川宏2,3（1. NTT セキュアプラットフォーム研究所、2. 全脳アーキテクチャ・イニシアティブ、3. ドワンゴ人工知能研究所）

強化学習におけるactionのDisentangleな表現の獲得を目指すために、β-VAEと呼ばれるモデルを系列データに拡張できる手法を提案しています。 beta-VAEとは、解釈が可能な潜在変数zを扱えるように制約をつけたVAEの事で、disentangleというのは、他の要素に影響を与えないように潜在変数間を分解していく（もつれをほどく）というような意味です。