LLMのハルシネーション制御や強化学習自動化等に関する技術調査 【技術動向調査】

本記事は、当社オウンドメディア「Doors」に移転しました。

約5秒後に自動的にリダイレクトします。


ブレインパッドは、LLM/Generative AIに関する研究プロジェクトを立ち上げ、この「Platinum Data Blog」を通じてLLM/Generative AIに関するさまざまな情報を発信をしています。今回は、性能改善をテーマとした論文を新たに4つ紹介します。

目次

こんにちは、アナリティクスコンサルティングユニット所属の鈴木です。
ここ数カ月ご紹介してきたように、現在ブレインパッドでは、LLM関連の論文の調査を行っています。

今回のテーマ

以前にLLMの性能改善にテーマを絞って論文をご紹介しましたが(LLMの出力制御や新モデルについて【技術動向調査】)、今回も性能改善に絞り、新たに4つの論文を簡単に解説していきたいと思います。


論文1: Chain-of-Verification Reduces Hallucination in Large Language Models

Figure 1より

選定理由

最近はRAGや出力の検証のように、いかにハルシネーションを抑えるかという論文が多い印象です。その内の一つとして話題になっていた論文で、RAGのような外部ツールを使わずに1つのLLMのみで完結する点が面白かったため、取り上げました。

論文概要

Point

  • ハルシネーション問題を軽減するために提案されたChain-of-Verification (CoVe)についての論文です。
  • この手法により各タスクの精度の一定の向上(=ハルシネーションの制御)が達成できました。
  • 一方まだまだ完璧とはいえず、課題も残ります。

手法の具体的な流れ

冒頭のFigure1にもある通り、以下のようなステップで構成されます。
まず初期質問(Query)がLLMに与えられている事が前提となっています。
(例) ニューヨーク生まれの政治家を数人列挙してください。

  1. 初期回答生成(Generate Baseline Response)...初期質問に対して初期回答(Baseline Response)を生成
    • (例) ヒラリー・クリントン、ドナルド・トランプ、マイケル ・ブルームバーグ。
  2. 検証質問生成(Plan Verifications)...初期質問と初期回答がpromptとして与えられ、それを検証する検証質問を生成
    • (例) ヒラリー・クリントンはどこで生まれましたか?
  3. 検証質問回答生成(Execute Verifications)...検証質問に対しての回答を生成
    • (例) ヒラリー・クリントンはシカゴで生まれました。
  4. 最終回答生成(Generate Final Verified Response)...最終的な検証済みの回答(Final Verified Reponses)を生成
    • (例) ニューヨーク生まれの政治家は、1. ドナルド・トランプ 2. アレクサンドリア・オカシオ=コルテス...

上記は基本の流れですが、その中でも以下の3種類の検証ステップが比較されています。

Joint 2.検証質問生成と3.検証質問回答生成を同時に行います。
2-Step 2.検証質問生成と3.検証質問回答生成を別々で行います。3.の時には初期回答が切り離されるため、その影響が減ります。
Factored 2-stepに加えて、3.において検証質問をまとめてでは無く一つ一つ別で入力して回答を生成します。これにより、初期回答だけでなく他の回答からの影響も減ります。

ちなみに"Factor"は"因数分解"という意味のため、各プロセスを別々に分解して処理している事からきているようです。

結果

以下のようなタスクにおいてCoVeの検証が行われました。
結論から言うと、全てのタスクで精度改善(ハルシネーションの制御)が達成されました。

1. WIKIDATA / WIKI-CATEGORY LIST

  • タスク概要

=WIKIDATA=
Wikidata APIを使用して生成される質問群で、以下のように型が決まってます。

[ボストン]で生まれた[政治家]は誰ですか?
(括弧内は変数)

=WIKI-CATEGORY LIST=
QUESTというWikipedia のCategoryを元に作成されたデータセットを元に、以下のような型に基づいて質問が生成されます。WIKIDATAに比べて難易度が高いです。

[メキシコのホラーアニメ]を複数答えて下さい。
(括弧内は変数)

  • 結果
Table 1より

図の"Prec."は適合率(Precision)を表します。ご覧のように、CoVeはWIKIDATA, WIKI-CATEGORY LISTのいずれにおいても他モデルよりも高い性能を発揮しています。

2. MultiSpanQA

  • タスク概要

MultiSpanQAという文章読解データセットから質問だけを抽出し、LLMに回答させます。
以下例題です。

質問: 印刷機は誰により、何年に発明されましたか?

  • 結果
Table 2より

こちらでも、F1スコアが他モデルに比べて上がっている事が確認できます。

3. バイオグラフィー生成(LONGFORM GENERATION)

  • タスク概要

以下のようにしてバイオグラフィーを生成させ、FACTSCORE指標により精度を測ります。

"[ヒラリークリントン]のバイオグラフィーを教えて下さい。"
(括弧内は変数)

ちなみにFACTSCOREは以下の論文で紹介されており、生成されたバイオグラフィーにどれだけ事実が含まれているかを適合率ベースで算出します。
FACTSCORE: Fine-grained Atomic Evaluation of Factual Precision in Long Form Text Generation

  • 結果

以下の図は、バイオグラフィー生成タスクにおけるFACTSCOREのスコアを各モデルで比較したものです。ご覧のように、CoVeモデルが全体的に良いスコアとなっているのがわかります。

Figure 2より
課題

CoVeには以下のような課題が挙げられています。

  • 各タスクの精度は向上するものの、完璧にハルシネーションを制御できているとは言えない。
  • 今回検証した事実ベースの回答だけでなく、例えば論理的に破綻しているといったタイプのハルシネーションも考えられる。
  • より多くのToken生成が必要になるためコストが増す。
  • モデルが持つ知識によりCoVeそのものの限界が決まる。

関連論文

タイトル 概要
Survey of Hallucination in Natural Language Generation ハルシネーションの問題に焦点を当て、その研究進展と課題についての包括的な概要を提供している論文です。

論文2: RAIN: Your Language Models Can Align Themselves without Finetuning

Figure 1より

選定理由

こちらも出力制御の一種ですが、出力tokenを巻き戻してやり直すという手法が非常にユニークだと感じ、選定しました。

論文概要

Point

  • RAIN(Rewindable Auto-regressive INference )は、自己評価と巻き戻し機能を統合した新しい推論手法です。モデルは自身の生成テキストを評価し、一定の閾値を下回る場合は生成されたトークンを巻き戻し、再出力します。
  • RAINはLLMにプラグインとして実装でき、勾配計算やパラメータ更新の必要がありません。データフリーで資源効率が良いのが特徴です。
  • 実験では、無害率を改善させながら有用率を維持しました。また、敵対的な攻撃に対しての高いロバスト性も発揮しています。

手法概要
  1. モデルが1つのテキストを生成するたびに、RAINはそのテキストを評価する。
  2. スコアがしきい値を下回った場合、RAINは生成をトークン単位で巻き戻す。
  3. 巻き戻された点から再生成が行われ、より高いスコアのテキストが得られるまで1-3のプロセスが繰り返される。
結果

以下はVanillaモデルとの比較で、左がLLaMA、右がLLaMA-2です。全体的に、RAIN手法ベースは高い無害率を発揮しつつ、有用率を保っているのがわかります。

Figure 2より

こちらは敵対的な攻撃に対しての成功率を測った実験で、手法のロバスト性が測られています。こちらでも、RAINモデルが高い性能を発揮しています。

Table 1より
利点
  • 自己回帰をベースとした様々なLLMに容易に適用させる事ができます。
  • 強化学習のようにパラメータの更新をする必要が無く、メモリ効率が良く実装が簡単です。
課題

通常に比べて、RAINを使用した場合推論により時間がかかります。解決策として、ファインチューニング用のデータセット作成にRAINを使用する事が挙げられています。これによりRAINが適用されたデータセットの学習により出力が間接的に制御されつつ、推論時間が長くなる事がありません。

関連論文

タイトル 概要
RRHF: Rank Responses to Align Language Models with Human Feedback without tears アラインメント達成のためのRRHG(Rank Responses to align Human Feedback)という手法を提案している論文。

論文3: RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback

選定理由

少しとっつきにくい印象のある強化学習(Reinforcement Learning)関連の中でもわかりやすい論文だったため、選定させてもらいました。

論文概要

Point

  • RLAIF(Reinforcement Learning from AI Feedback)は、RLHF(Reinforcement Learning from Human Feedback)とは違い、LLMが強化学習用の評価ラベルを生成する手法です。
  • 要約タスクにおいてRLAIFとRLHFのパフォーマンスを比較したところ、両者間に有意な差は見られませんでした。これは、RLAIFがRLHFの代替となり得る事を示唆しています。

先行研究との差分

RLAIFは、Constitutional AI: Harmlessness from AI Feedbackで初めて研究発表されました。今回ご紹介する論文はこの手法に則ったものですが、RLHFとRLAIFの性能をダイレクトに比較した点が新しく、RLAIFがRLHFの代替となり得るか、という疑問に答える形となっています。

手法概要

以前に投稿されたRLHFに関するブログ記事にもありますが、3つあるRLHF強化学習のステップ中、2つめのReward Modelの学習の部分をLLMに代用させる、というのが今回の提案手法です。
(正確には、今回はProximal Policy Optimization Algorithmsでは無くAdvantage Actor Criticを使用しています。)

Figure 2より

LLMにはOff-the-shelf LLM(SFTやRLを行っていないLLM)としてPaLM 2を使用しています。

以下は、LLMでのラベリングに具体的に使用されたプロンプト例とその日本語訳です。

Table 1より

(前書き)
良い要約とは、文章の要点を短くまとめたものです。... 与えられた原文とその要約2つの中で、どちらの要約が一貫性、正確性、網羅性、およびそれらに全体的に最も準拠しているかを判断し、1または2として出力してください。

(1ショット例)
≫≫≫≫ 例 ≫≫≫≫
- 4年間最高の友達だった...
要約1 - 友達と別れた、彼女の誕生日を祝うべきか... 連絡を取らない選択肢についてどう思いますか?
要約2 - 元カノの誕生日を祝うべきか、連絡を取らない約束を破った、もっと忍耐強くなろうとしている、私は依存しすぎている、彼女に私がそのような男であり続けると思われたくない。

好ましい要約=1

≫≫≫≫ 上記の指示と例に従って下さい。 ≫≫≫≫

(注釈のサンプル)
テキスト - {text}
要約1 - {summary1}
要約2 - {summary2}

好ましい要約=

結果

どちらの解答が良いか人間に判断させた所、SFT(Supervised Fine Tuning)との比較実験で、RLAIFはRLHFとほぼ同じくらいのWin Rate(= より好ましいと選ばれた確率)でした(下図棒グラフ左)。また、RLAIFとRLHFで直接比較させても50%の確率でRLAIFが選ばれており(棒グラフ右)、RLHFと同等の出力が出せていると言えます。

Figure 1より
課題

この論文では、以下のような課題が挙げられています。

  • 要約以外のタスクへの適用には更なる検証が必要。
  • RLHFとRLAIFでのコスト面での比較はできていない。

また、今後の検証可能性として以下のようなものが挙げられています。

  • RLHFとRLAIFを組み合わせたらどうなるのか?
  • ラベラーLLMそのもののアラインメントを強化したら結果は良くなるのか?

レビュー会フィードバック

Q : 要約タスクなら原文が存在するのでAIのfeedbackでも良さそうだが、他のタスクでも効果のある手法なのか?

  • 今回は要約タスクのみに焦点を絞っており、他のタスクにおいて効果があるかは要検証。

関連論文

タイトル 概要
Constitutional AI: Harmlessness from AI Feedback RLAIFを最初に研究発表した論文です。

論文4: Struc-Bench: Are Large Language Models Really Good at Generating Complex Structured Data?

選定理由

GPT4の出力の精度を過信してしまいがちですが、まだまだ不得意な分野があるという事に気づかされる良い論文だと思い、選定しました。

論文概要

Point

  • LLMの表形式出力の正確性や、そこに特化して学習させたモデルについての論文です。
  • Struc-Benchという独自に作成されたデータセット・評価方法を使用し、raw textやHTML、LaTeX形式でのテーブル情報出力データの精度を評価しています。
  • LLMの表形式出力に対しての弱さや、モデル学習によりそこが強化できる点について述べられています。

手法概要

全体の流れ
ざっくりと、以下のような手順でモデルが作成・評価されています。

  1. GPT3.5による学習データの作成
  2. LLaMA-7Bを使用した学習
  3. 学習させたモデルの評価

出力形式と評価方法について
LLMの出力としては以下3種類の形式があり、それぞれテーブルを表現しています。

raw text
HTML
LaTeX

以下、raw textの例です。
与えられたバスケットボールの各チームやプレイヤーに関してのstats文をテーブルデータに変換する、というタスクです。
上の手書きの文が入力文で、下記がReference(正解)と、それぞれのLLMの出力をテーブル可視化したものです。

Figure 4 より

これらの出力の評価方法としては、BLEUやROUGEといった一般的な計算方法の他に、独自の計算方法も採用されています。表形式の出力の評価は複雑なものになるため、今回は割愛しています。気になる方は現論文をご参照下さい。

結果

以下の太字が示す通り、提案されているモデルはいずれの形式・指標においても高い性能を発揮しています。特に、多くの指標でGPT-4よりも上回っているのが印象的です。

Table 2

また、下記の各モデルがどの分野に秀でているかをマッピングした図によると、今回の提案手法がFormatting(列や行の数、テーブルのタイトルといった形式関連)に強い事が伺えます。

Figure 3より
課題・展望

論文では以下の課題や展望も挙げられています。

  • ドメインに特化したモデルの方がより実務では有用な可能性がある
  • raw text, HTML, LaTeXに限らず様々なデータ形式での検証が可能
  • LLMのマルチモーダル化

特に3点目は現在進行形で研究やモデルの進化が急速に進んでいる印象がありますね。

関連論文

タイトル 概要
Large Language Model Is Not a Good Few-shot Information Extractor, but a Good Reranker for Hard Samples! Named Entity Recognition (NER)やRelation Extraction (RE)といったInformation Extraction(IE)タスクに対するLLMの性能を検証した論文。

まとめ

ここまでお読み頂きありがとうございました。
今回は、2つのハルシネーション制御関連と、AIによる強化学習自動化、表形式出力に特化したモデルについてご紹介しました。
前回の投稿から数カ月しか経っていませんが、毎日のように新しい手法やモデルが公開されています。弊社としては今後も同様の技術動向調査を発信していく予定ですので、よければまたお読み頂けると幸いです。