本記事は、当社オウンドメディア「Doors」に移転しました。
約5秒後に自動的にリダイレクトします。
この記事では、「copilotとしての生成AI」という視点で概況を捉え、LLM/Generative AIの可能性と実用段階における諸問題について考察していきます。
- 本稿の内容は筆者の調査内容、および筆者独自の見解に基づきます。内容の正確さや主張の妥当性は必ずしも保証されないことをご了承ください。
- 本稿の内容は、追加の調査等により予告なく変更する場合があります。
- 本稿の内容は2023年6月時点のものです。生成AIの技術は日進月歩ですので、時間の経過と共に記載内容や筆者の見解が陳腐化することにご注意ください。
はじめに
こんにちは、アナリティクスサービス部の内池です。
2023年6月現在、生成AI (Generative AI) がかつてないほど熱い注目を浴びています。中でもLLM (Large Language Model) はChatGPTのリリースをきっかけに瞬く間に認知が広がり、これらを当たり前に活用する時代がいよいよ到来しました。今後、ベースとなる技術の進歩や、機能拡張、ファインチューニングなどにより、人々にとってより便利なツールが雨後の筍のように生まれ、それと共に働き方も変容していくことが予想されます。
一方で、それらの生成AIを信頼しきっていいのかといえば、必ずしもそうではありません。使用許諾条件や個人情報保護などの諸問題をクリアできたとしても、それらしい話をでっち上げてしまうハルシネーションや、無意識の偏見*1、責任の所在が不明確といった問題が残ります。生成AIを当たり前に活用する時代が到来したといっても、生成AIはすべてを任せられる存在ではありませんし、人間にはそれなりのスキルや倫理観が変わらず求められます。諸問題の具体的な内容や注意点についてはこちらの記事をご覧ください。
【参考】責任の所在を敢えて不明確にしたアート作品
紙幣の画像と所定のプロンプトからstable diffusionにて偽造通貨を生成し、生成した画像をその場で印刷する作品。 鑑賞者を共犯関係に巻き込み、AI開発者,作者,鑑賞者 間の責任の所在を曖昧にする。
https://twitter.com/RazonaDesign/status/1605148505194078209
このような状況下において、「copilot」*2と銘打つサービスを展開する企業がみられるようになりました。もちろんこれは偶然ではなく、「あくまでも人間が主で、生成AIはアシストに回る」という活用の姿が現実的だという理解が広く理解され始めているからだと筆者は考えます。改めて元の表現で言い換えると、生成AIに丸投げする形を目指すのではなく、パイロットたる人間の良きパートナーであるcopilotと位置づけることで人々の生活への浸透を図っているということです。
本稿では、「copilotとしての生成AI」という視点で生成AIを取り巻く現状を捉え、それらの分類例を提示した上で、いくつかの分類の概況について考察していきます。
生成AIを活用したサービス/プロダクトの分類
分類方針
さて、このように大きな可能性を秘めた生成AIですから、自身/自社でも活用してみようと考えるのは自然な流れです。しかし、いざ課題に適したサービスに見当をつけようとしても、意外に難しく時間もかかります。実際、弊社への生成AI/LLMに関するお問い合わせの中にも「どのサービスを利用すればいいのか」と悩まれているケースや、課題解決に繋がらないサービスを想定してしまっているケースが散見されました。
そこで、本稿では比較的容易に利用できる生成AIサービス/プロダクトに対象を絞った上で、マルチモーダルモデルのタスク紹介記事と同様に、出力形式 (モダリティ) に頼った分類から一歩踏み込んで「何を入れると (入力形式) 、何が出てくるのか (出力形式)」という切り口で分類を試みます。その上で、copilotとして振る舞いうるいくつかの分類を抜粋し、それぞれのトレンドについて考察していきます。
入出力による分類結果を俯瞰する
まずは入出力の分類にタスクの視点を加え、主だったサービス/プロダクトの整理を試みます。
- 分類は筆者の主観に基づいて行っており、厳密なものではありません。
- 入出力やタスクが複数にまたがる場合がありますが、代表的なものを取り上げています。
- 概況の把握を目的としているため、網羅性は保証されません。
- サービスやプロダクトのベースとなる技術 (具体的なモデル 等) は対象外としています。
(例えば、Hugging Faceに上がっているだけでは対象としていません)
主な入力 | 主な出力 | 主なタスク | サービス/プロダクト名 | 提供元 |
---|---|---|---|---|
テキスト | テキスト | チャットボット | ChatGPT | OpenAI |
テキスト | テキスト | チャットボット | Bard | |
テキスト | テキスト | チャットボット | Claude | Anthropic |
テキスト | テキスト | チャットボット (PDF特化) |
ChatPDF | Mathis Lichtenberger und Moritz Lage GbR |
テキスト | テキスト | チャットボット (法律相談特化) |
チャット法律相談(α版) | 弁護士ドットコム |
テキスト | テキスト | 作業支援 (Officeソフト特化) |
Microsoft 365 Copilot | Microsoft |
テキスト | テキスト | 執筆支援 | GrammarlyGO | Grammarly |
テキスト | テキスト | 執筆支援 | Notion AI | Notion Labs |
テキスト | テキスト | 執筆支援 | note AIアシスタント(β) | note |
テキスト | テキスト | 執筆支援 | Catchy | デジタルレシピ |
テキスト | テキスト | 創作支援 (小説特化) | AI Buncho | Hiroyuki Osone |
テキスト | テキスト | 創作支援 (小説特化) | AIのべりすと | Bit192 |
テキスト | テキスト | 創作支援 (漫画特化) | Comic-Copilot コミコパ | アル |
テキスト | テキスト | 契約書レビュー (法律特化) | LegalForce 条文修正アシスト | LegalOn Technologies |
テキスト | テキスト | コーディング支援 | OpenAI Codex | OpenAI |
テキスト | テキスト | コーディング支援 | Amazon CodeWhisperer | Amazon |
テキスト | テキスト | コーディング支援 | GitHub Copilot | GitHub |
テキスト | テキスト | コーディング支援 | GitHub Copilot X | GitHub |
テキスト | テキスト | コーディング支援 | Tabby | TabbyML |
テキスト | テキスト | 競技プログラミング の問題を解く |
AlphaCode | Google DeepMind |
テキスト | 画像 | 画像生成 | Stable Diffusion | Stability AI |
テキスト | 画像 | 画像生成 | Midjourney | Midjourney |
テキスト | 画像 | 画像生成 | DALL·E 2 | OpenAI |
テキスト | 画像 | 画像生成 | Canva | Canva |
テキスト | 画像 | 画像生成 | AIピカソ | AI Picasso |
テキスト | 画像 | 画像生成 | Firefly | Adobe |
テキスト | 3D | 3Dオブジェクト生成 | Point-E | OpenAI |
テキスト | 音声 | 歌声合成 | NEUTRINO Diffusion - Muon | SHACHI |
テキスト | 音声 | 歌声合成 | CeVIO AI | CeVIOプロジェクト |
テキスト | 音声 | 音声合成 | VOICEVOX | ヒホ |
テキスト・音声 | 音声 | 音声合成 | VALL-E | Microsoft |
テキスト・音声 | 音声 | 音声合成 | Voicebox | Meta |
画像 | 画像 | イラスト生成 | mimic | RADIUS5 |
画像 | 画像 | イラスト生成 | Meitu | Meitu |
画像 | 画像 | イラスト生成 | Giga Manga | |
音声 | テキスト | 文字起こし | Whisper | OpenAI |
音声 | 音声 | ボイスチェンジャー | RVC WebUI | liujing04, 源文雨 |
音声 | 音声 | AIアシスタント | Alexa | Amazon |
音声 | 音声 | AIアシスタント | Googleアシスタント | |
音声 | 音声 | AIアシスタント | Siri | Apple |
音声 | 音声 | AIアシスタント | Cortana | Microsoft |
音声 | 音声 | AIアシスタント | Windows Copilot | Microsoft |
音声 | 音声 | AIアシスタント | LINE CLOVA | LINE |
こうして俯瞰してみると、出力形式 (モダリティ) が似通っていても、入力形式 (モダリティ) は様々で、担うタスクはさらに多種多様であることがわかります。この複雑さと急速な多様化が、課題に合ったサービス/プロダクトを選定する上で障壁になっているのではないかと想像します。
なお、表で整理したサービス・プロダクトは、あくまでも2023年6月現在発表されているものの一部です。論文や技術の振り返り記事で述べられているように、将来的に実社会で応用されうる研究が積極的に進められており、今後の発展が非常に楽しみです。
入出力による分類とトレンド
いくつかの分類を取り上げてトレンドに触れていきます。
Text to Text
ChatGPTのリリースを皮切りに、職種やバックグラウンドを問わず、このタイプの生成AIが広く認知されるようになりました。業務や日常生活に応用しやすく、copilotとして振る舞う生成AIという意味では最も開発や活用が盛んな領域です。既に国内でも業務利用を開始したというニュースを頻繁に目にするようになってきており、まさにcopilotとして実用され始めているといえます。ここからは、実用段階ならではのトレンドについて、トピック別に見ていきます。
【参考】関連記事
- 伊藤忠商事、全社員にChatGPT 生活サービスを創出 - 日本経済新聞
- 横須賀市・つくば市が全面導入、ChatGPTは人手不足に悩む自治体の救世主になるか | 日経クロステック(xTECH)
- パナソニック、「ChatGPT全社展開は10分で決めた」:日経ビジネス電子版
ビジネスリスクへの対処
このタイプの生成AIの実用化に伴い、実際に活用していく中で顕在化しうる課題と正面から向き合う必要が出てきました。生成AIの性能は飛躍的に向上していますが、「はじめに」でも触れた通り、生成AIを思考停止状態で過信していいわけではありません。Responsible AIという言葉に代表されるように、生成AIによる出力からは倫理的な問題が排除されている必要がありますし、プロンプト・インジェクション攻撃への備えも必要になってきます。たとえば、NVIDIA社からLLMの挙動をコントロールし、ビジネスリスクに対処する「NeMo Guardrails」がリリースされていますし、Responsible AIに早くから着目しているRobust Intelligence社は「生成AIリスク評価サービス」を展開しています。
対処すべき具体的な課題と、NeMo Guardrailsの詳細については以下の記事でそれぞれ解説されていますので、あわせてご覧ください。
blog.brainpad.co.jp
blog.brainpad.co.jp
noteなどの特化型サービスにも同様の傾向がみられます。note社は2023年に「note AIアシスタント(β)」をリリースしており、テキスト生成機能と共に、炎上リスクの確認機能を提供しています。まさにcopilot的な立ち位置でアシストを担っています。
また、ChatGPT自体もベースとなるLLMを人間からのフィードバックを利用してチューニングすることで、これらの課題に対処しています。具体的な手法 (RLHF) については次の記事でざっくり解説されています。
ファインチューニング
先に述べた通り、実用段階にあるText to Textの生成AIには、実用段階ならではの課題がついて回ります。さて、ここで「copilotとして優秀な生成AIとは何か?」を真面目に考えてみると、入力が簡便であればある程都合がいいのはもちろんのこと、それと同時に利用者にとって望ましい出力の得られる生成AIである必要があります。これらを達成するために、様々な組織や個人によってファインチューニングが図られています。
【参考】弊社事例
- Fine-tuningタスクでPyTorch 2.0の効果を確認する - Platinum Data Blog by BrainPad
- Google が提供するLLMサービスとPaLM2のFine-Tuningについて - Platinum Data Blog by BrainPad
たとえば、ChatGPTはベースとなるLLMをファインチューニングすることにより、上述の「ビジネスリスクへの対応」の観点を含め、人間にとって望ましい出力が得られるように調整が図られています。
さらに踏み込んで考えます。「利用者にとって望ましい出力」とは、果たして画一的なものでしょうか。もちろん答えはNoで、最低限満たすべき共通事項はあるものの、利用者の置かれている状況や課題によって様々です。
例を挙げて考えてみます。あるところに社内事情に詳しいチャットボットの導入、すなわち「ハイコンテクストな出力」のニーズが存在するとします。この場合、ChatGPTやClaudeをただ導入すればニーズを満たせるでしょうか?もちろん答えはNoです。たしかに入力プロンプトの工夫次第でハイコンテストな出力を目指すことはできますが、毎回プロンプトを磨き上げなければならないツールは不便ですし、入力できる情報量にも限界があります。そこで、ニーズを満たせるcopilotとして振る舞ってもらうために、ファインチューニングが検討されることになるわけです。
2023年現在、LLMのオープンソース化の流れや、効率的なファインチューニング手法が提案されている状況と相まって、多種多様なニーズに応えるために多くの人・組織がファインチューニングに取り組んでいます。ニーズがある以上、今後もこのトレンドが継続すると考えられます。
効率的なファインチューニング手法と、弊社による具体的なファインチューニング事例については以下の記事をご覧ください。
- LLMを効率よく再学習する手法の説明:
LLMを効率的に再学習する手法(PEFT)を解説 - Platinum Data Blog by BrainPad - 社内文書に特化させた弊社事例:
社内文書に特化したChatGPT ファインチューニング実践編 | DOORS - 日本のニュース記事に特化させた弊社事例:
RWKV(Receptance Weighted Key Value)をつかってみた - Platinum Data Blog by BrainPad
国産LLM
ファインチューニングに隣接する話題として、国産LLMにも触れておきます。日本語を母国語とする人の多い地域で生成AIがcopilotとして活躍するためには、その生成AIに「日本語に強い」という特殊能力が備わっている必要があります。より具体的に言うと、「日本語による入出力が可能で、かつ出力の日本語が洗練されていること」が求められます。
しかし、このようなニーズがある一方で、高性能なLLMの大半において、日本語は英語と比べて利便性や出力の品質の面で劣ります*3。このような事情があり、日本国内で「日本語に強い生成AI」への社会的要請が高まりつつあります。これを受けて、各企業がLLMの開発に取り組んでいます。
- 生成AI開発、政府が支援を 松尾豊・AI戦略会議座長 - 日本経済新聞
- 21:45〜:松尾豊氏「大規模言語モデル(LLM)がビジネスを変える」|NIKKEI CHANNEL|NIKKEI生成AIシンポジウム
直近ですと、rinna社が日本語に特化したオープンソースの汎用言語モデルを公開した事例のほか、Preferred Networks社が国産LLMの商用化に意欲を示したことも話題になりました。
- rinna、日本語に特化した36億パラメータのGPT言語モデルを公開|rinna株式会社
- プリファード、大規模言語モデル開発 24年商用化目指す - 日本経済新聞
- rinna/japanese-gpt-neox-3.6b-instruction-sft-v2を試した弊社事例:
大規模自然言語モデル(LLM)をお試し利用できるツールを作ってみた - Platinum Data Blog by BrainPad
弊社でも、日本語に強い生成AIの開発*4に試験的に取り組んでいます。具体的な取り組み内容については、2023/6/28(水)公開予定の記事をお待ちください。
特化型
一般的な知識の獲得を目指す汎用言語モデルの開発が進む一方で、特定のタスクや業界にターゲットを絞り、かゆいところに手を届かせた「特化型」のサービス/プロダクトも盛り上がりを見せています。
例えば、チャットボットをベースとしたサービスの一つにChatPDFがあります。こちらは読み込ませたPDFファイルに対する質問への回答に特化したもので、論文等のPDFファイルの内容を効率良く把握したい場面で有用です。 (現在のバージョンではGPT3.5ベースのChatGPT APIが利用されています)
他にも、執筆等の作業を支援するNotion AIやnote AIアシスタント(β)、小説に特化したAI BunchoやAIのべりすと、漫画に特化したComic-Copilot コミコパ、リーガルテック領域のLegalForce 条文修正アシスト 等があります。
IT技術者や情報系などの学生にとっては、コーディング支援ツールも見逃せません。OpenAIの開発したOpenAI Codexや、それをGitHubに搭載したGitHub Copilot*5は、まさに「copilot」として、コード補完等の機能でコーディングを支援してくれます。既に次世代のGitHub Copilot Xの構想が発表されており、copilotとしてより強力に開発者を支援してくれるようになると予想されます。
コーディング支援の領域にもオープンソースの流れがあります。次の記事は、諸事情でGitHub Copilotを利用できないような場合に、ローカル環境で動作させられるか?といった視点でオープンソースのTabbyを検証した弊社事例です。
変わり種ですと、競技プログラミングの問題を解くことに特化したAlphaCodeが存在します。
新たなサービス開発/機能拡張
昨今の生成AIを用いたサービス/プロダクトは、ざっくり分けると2つ方向性*6で新たなサービス開発や機能拡張を図り、より利便性の高いcopilotを目指しているように思います。
1つ目は、APIを利用する方法です。昨今、ChatGPT APIを利用していることを謳ったサービスが次々と登場しています。例えば、先程触れたChatPDFはチャットボットとしての応答の部分をChatGPT APIが担っていますし、Comic-Copilot コミコパやnote AIアシスタント(β)もChatGPT APIを利用していることを明らかにしています。このように、APIの利用を前提に新たなサービスの開発や機能拡張を図るケースは今後も増えると予想されます。
2つ目は、プラグインを利用する方法です。これは汎用言語モデルを軸としたサービス側から専門特化した機能を呼び出す方法です。直近ですと、ChatGPTでプラグインが使えるようになったことが記憶に新しく、日本企業では食べログが真っ先にプラグインを開発しました。他にもPDFファイルの情報を参照するためのプラグインなどが用意されています*7。今後もプラグインを利用する形で機能拡張が図られる流れが続くと予想されます。
人間をアシストする立場の強調
「copilot」という呼称に代表されるように、生成AIを活用したサービス/プロダクトが人間をアシストする立場であることを強調することが増えてきました。呼び方は「copilot」「Duet」「AIアシスタント」等様々ですが、この傾向は生成AIを実際に使っていく局面に突入したことによるものであり、パラダイムシフトを象徴する出来事であると筆者は捉えています。このように現実路線で普及を図っていくトレンドがしばらく続くものと予想されます。
(Text or Image) to Image
入力したテキストの内容に沿って画像を出力する生成AIについては、マルチモーダルモデルという切り口で詳しく解説されているため、補足的な内容に留めます。
特化型
この領域の生成AIは、MidjourneyやStable Diffusionの登場によって世間の注目を集めました。2023年はAdobeからFireflyが発表され、この領域でも「特化型」の生成AIを本格的にcopilotとして活用する流れが見えてきています。
権利や倫理の問題
一方で、画像を扱う関係上、権利の問題や倫理的な問題は無視できません。国産のイラスト生成AIであるmimicは、インプットしたイラスト画像の作風を出力に反映させる仕様の特性上、リリース後にしっかりとした不正対策を練ることが求められました。直近だと、AIグラドル「さつきあい」が実在する人物と似ている (つまり、実在する人物の画像を学習した結果が出力に反映されている可能性がある) という指摘や、人間の仕事が奪われかねないという懸念が上がったことなどから、関連するデジタル写真集が販売終了に至っています。
本企画について発売後よりたくさんのご意見を頂戴し、編集部内で改めて検証をいたしました。その結果、制作過程において、編集部で生成AIをとりまく様々な論点・問題点についての検討が十分ではなく、AI生成物の商品化については、世の中の議論の深まりを見据えつつ、より慎重に考えるべきであったと判断するにいたりました。
さつきあいデジタル写真集 『生まれたて。』 販売終了のお知らせ - 週プレ グラジャパ! -GRAVURE JAPAN!-
同様の問題は企業だけでなく個人の制作物でも生じており、画像生成AIをめぐる権利や倫理の問題、あるいは著作者の心情への配慮は大きな関心事となっています。このような状況を受けて、文化庁は次の見解を示しています。
生成された画像等に既存の画像等(著作物)との類似性 (創作的表現が同一又は類似であること)や依拠性(既存の著作 物をもとに創作したこと)が認められれば、著作権者は著作権侵 害として損害賠償請求・差止請求が可能であるほか、刑事 罰の対象ともなる
https://www8.cao.go.jp/cstp/ai/ai_team/3kai/shiryo.pdf
このような問題に対処しながら活用の可能性を模索していくことが、画像生成AIがcopilotとして活躍するために満たすべき条件の1つとなりそうです。この意味において、先述のAdobeのFireflyは権利の問題が生じないデータでトレーニングする方針をとったり、AI Ethics teamがAI倫理に沿ったテストを実施したりと、copilotとして実用されるべく、徹底して阻害要因の排除に努めていると感じます。まさに制約と誓約*8 (機能をクリエイティブ用途に制約し、諸問題への対策を誓約) によって開発や活用を推進している事例といったところでしょうか。
Text (and Speech) to Speech, Speech to Speech
古来から存在する技術の進歩
この領域は、前者はボーカルシンセサイザーや読み上げ機能として、後者はボイスチェンジャーとして古くからお馴染みではないでしょうか。
まずは「歌ってもらう」タスクですが、16年ほど前にVOCALOID2 初音ミクが登場しました。当時のボカロの歌声は今ほどリアルではなく (良し悪しの話ではありません) 、作品としての質を高めるためにAuto-Tuneでケロケロボイスに加工するなど、技術的な制約がある中でもアイデアと工夫によって豊かな表現が生まれていました。
あれから16年経った現在、ボーカルシンセサイザーは飛躍的な進化を遂げています。まず、注目すべきブレイクスルーの一つはニューラルネットワークの採用です。2020年2月22日にデモが公開され、これまでとは一線を画す歌唱のリアルさで話題になったAIきりたん『キリトリセン』は、ニューラルネットワークを採用したフリーの音声合成ソフトNEUTRINOによって歌声が生成されました。当時のNEUTRINOは、既に調教なしでもキャラクターに上手に歌わせることができていました。つまり、人々は2020年に「ニューラルネットワークを活用した気軽で高度な歌声合成技術」を手にしたといえます。
その後、ニューラルネットワークを採用したボーカルシンセサイザーとして、後発のCeVIO AIが登場。
直近では、最新版のNEUTRINOにはStable Diffusionでも話題になった拡散モデルが用いられ、さらなる進化を遂げています。
読み上げ機能も高品質なものが気軽に利用できるようになってきました。例えば、TikTokでは動画編集時に読み上げ機能 (ヒカキンさんの声などが選択可能) を利用することができます。筆者の制作した動画 (後述) では、VOICEVOX:すんだもんで生成したツッコミ音声を気軽に利用しています。最近では、ずんだもんのような読み上げを担うキャラクター自体に人気が出るなど、別方向の盛り上がりも見せています。
このように、TTS (Text to Speech) の領域でも生成AIの活用が進んでおり、筆者の制作した動画 (後述) のように、人間とcopilotとしての生成AIの分業がリアルに成し遂げられています*9。
インプットした音声の特徴を出力に反映
先述のボーカルシンセサイザーや読み上げ機能は利用者が任意の音声の特徴を出力に反映させられるものではありませんでしたが、インプットした音声の特徴を出力に反映させられるモデルが複数登場しています。たとえばMicrosoftの発表したVALL-Eは、テキストデータと共に3秒間の音声データをインプットするだけで、その音声の特徴を反映した出力が生成されます。2023年6月には、MetaがVoiceboxを発表しました。いずれも以下からデモ音声を聴くことができます。
また、名探偵コナンやカラオケ機でお馴染みのボイスチェンジャーもリアルさが増しています。オープンソースのRVC WebUIがよく利用されているほか、岸田総理の話し声をリアルタイムで真似てみせた事例も記憶に新しいです。
しかし、画像生成AIと同様に、こちらもなりすましなどの問題を抱えており、普及にあたっては多面的、多角的な検討を要すると考えられます。
copilotとしての活用事例:社内のコンテクストを踏まえたゆっくり茶番劇の台本生成
取り組んだこと
最後は具体的な活用事例をなぞりながら、生成AIがcopilotとして活躍する可能性を見ていきます。
突然ですが、弊社には長く働いた社員が退職するときに「卒業講演」を行う文化があり、卒業する理由が語られる機会がしばしばあります。一方で、卒業しない社員が卒業しない理由を語る機会はほとんどありません。これはバランスが悪いと感じ、2023年3月末に「非・卒業講演」という企画を催しました。
この企画では、社員有志が卒業しない理由をプレゼンします。2023年3月末という時期を見てピンときた方もいらっしゃるかと思いますが、2023年3月末といえば、OpenAIのGPT-4が発表された直後です。そこで、GPT-4を駆使して企画を盛り上げようと考え、架空の社員2人を想定し、弊社を卒業しない理由を対談形式で語ってもらうことにしました。具体的には、copilotであるChatGPT (GPT-4) と筆者で以下のように役割分担して準備を進めました。
- 対談のコンセプトを決めて入力プロンプトを書く:筆者担当
- 対談の台本を生成する:ChatGPT (GPT-4) 担当
- 台本の簡単な手直しをする:筆者担当
- 台本に沿ってゆっくりMovieMaker4で動画を制作する:筆者担当
プロンプトエンジニアリング〜動画ができるまで
1. 対談のコンセプトを決めてプロンプトを書く:筆者担当
対談は企画を盛り上げることが目的なので、2人にはボケとツッコミに分かれていただき、漫才形式で進行してもらうことにしました。また、2人に対して親しみを持ってもらえるように、キャラクター設定と会話の特徴の設定をしっかりしました。具体的には、入力プロンプトに次の内容を含めました。 (キャラクター設定部分のみ掲載します)
クラス設計: キャラクタークラスが存在し、このクラスは以下の属性を持ちます。 ・性別 ・一人称 ・所属 ・職種 ・経験年数 ・スキルレベル ・知識レベル ・性格 ・会話スタイル ・漫才スタイル ・敬語 ・語尾 ・興味関心 ・許せないもの
キャラクター設定と会話の特徴の設定だけでもある程度の掛け合いはしてくれますが、弊社を卒業しない理由というテーマに沿った対談ともなると、ある程度は会社の特徴や内部事情が出力に反映されていなければ現実味が出てきません。そこで、LLMの制御に関する説明記事や社内文書に特化したファインチューニング実践例の記事でも触れられているように、「ハイコンテクスト」な振る舞いを目指すことが面白さの秘訣であると考え、弊社公式Webサイトで公開されている情報の一部を抜粋して入力プロンプトに含めてみることにしました。
ブレインパッドの基本情報: ・株式会社ブレインパッド(英文 BrainPad Inc.) ・データ分析受託企業 ・東京証券取引所 プライム市場(証券コード:3655) ・2004年3月18日(決算日6月30日) ・597百万円(連結、2022年12月31日現在) ・533名(連結、2022年12月31日現在) ・企業の経営改善を支援するビッグデータ活用サービス、デジタルマーケティングサービス ・MISSION「データ活用の促進を通じて持続可能な未来をつくる」。ブレインパッドは、2004年に本ミッションを掲げて創業しました。以来、現在まで変わらずに本ミッションを掲げ続けています。ブレインパッドは、今後もクライアント企業のよき変革パートナーとして、ともに日本のみならず世界に誇れる先進事例を生み出し、世界を持続可能なものとするべく、次代に繋いでいきます。 ・VISION「Analytics Innovation Company」。ビジネス・顧客体験・オペレーションにおいて先進的で実践的なデータ活用の実績を生み出し続け、世の中にインパクトを与えるデータ資本社会のリーディングカンパニー。ビッグデータ・AI・DXなど時代ごとにキーワードは違えど、その根底にあるのは「データを価値に変えて企業活動の変化と改善をもたらす」ことです。ブレインパッドは、分析力・エンジニアリング力・ビジネス力の3つの力を有した世界でも稀有な企業として、データの力でビジネスにイノベーションを起こし、社会に貢献します。 ・VALUES01「本質に向き合う」。ブレインパッドが取り組むべきことは何か、解くべき課題は何かを正しく問うことが、より大きな成果に繋がります。事実やデータを真摯にみつめ、常に本質に向き合い続けます。 ・VALUES02「行動を起こす」。私たちは、行動に移して、実際に、確認してみる、試してみる事で様々な可能性が拓かれる事を知っています。行動した結果から学び、次の成果に向けて、行動し続けます。 ・VALUES03「敬意を払う」。私たちには、厳しい事実を突きつけなければいけない時があります。その時、敬意が無ければ、その言葉は相手に届きません。多様性や価値観の違いに触れた時、相手に対して敬意をはらって無ければ、気づきや学びは起こりません。自分がそうされたいように、相手の仕事に、人生に、価値観に敬意をはらいます。 ・VALUES04「未来をつくる」。社会や組織において一人一人の言行は、大きな影響力を持っています。その事を自覚し、どんな組織や社会であればワクワクするかポジティブに考え、自分だけではなく仲間や組織の成長を助け、周りを巻き込み、ともに明るい未来をつくり上げていきます。
2. 対談の台本を生成する:ChatGPT (GPT-4) 担当
いよいよ台本の生成です。1で作成したプロンプトを入力すると、以下の出力が得られました*10。
霊夢:ゆっくり霊夢です。 魔理沙:ゆっくり魔理沙だぜ。 霊夢&魔理沙:今回は、わたしたちがなぜブレインパッドで働くことを選んだのか、それぞれの立場から漫才風にゆっくり議論していきます。「ゆっくりしていってね!!!」 霊夢:まず、わたしは機械学習エンジニアとして1年前にブレインパッドに入社したんだわ。新米だけど、データ活用の促進を通じて持続可能な未来をつくるというミッションに惹かれたの。 魔理沙:それは素晴らしい理由だぜ。わたしはデータサイエンティストとして10年前からここで働いてるんだ。ビッグデータ活用で企業の経営改善を支援する仕事は、自分のスキルを活かせてやりがいがあるのぜ。 霊夢:それに、ブレインパッドは「本質に向き合う」「行動を起こす」「敬意を払う」「未来をつくる」というバリューを大切にしているんだわ。自分の成長にも繋がる環境だから、ここで働くことを選んだの。 魔理沙:同感だぜ。それに、チームで協力して取り組むことが多く、お互いに切磋琢磨できるのが魅力的だったんだ。 霊夢:でも、わたしは深夜アニメが好きだから、仕事が終わってからアニメを見る時間が欲しいんだわ。その点、ブレインパッドはワークライフバランスが大切にされているから、自分の趣味にも時間を割けるのよね。 魔理沙:アニメか。まあ、それも大事だぜ。わたしは不動産投資に興味があって、会社の近くにマンションを購入したんだ。ブレインパッドが東京にオフィスを構えているおかげで、投資にも取り組める環境が整ってるのぜ。 霊夢:あ、それいいね!それに、わたしはダジャレが大好きで、時々ボケるんだけど、ブレインパッドではみんなおおらかで受け入れてくれるのよ。だから、働きやすい環境だと感じてるわ。 魔理沙:ダジャレか。まあ、ボケることも大切だぜ。そういうのも含めて、ブレインパッドは個性を尊重し合える場所だから、長く働くにはいい環境だと思うのぜ。 <---2人のエディタ戦争が始まったため検閲削除---> | 論点 | 見解 | | --- | --- | | 経営理念 | MISSIONとVISIONに共感する | | 企業文化 | バリューを大切にし、協力的な環境 | | ワークライフバランス | 趣味にも時間を割ける | | 個性の尊重 | お互いの個性や趣味を尊重する環境 | | 開発環境の選択 | 自分の好みに合わせて開発環境を選べる | これまでの議論を見ると、ブレインパッドで働く理由は、経営理念や企業文化に共感できることや、個性を尊重し合える環境で働けること、そしてワークライフバランスが良いことなどが挙げられるね。 魔理沙:そうだね。これらの要素が働く上で大切で、ブレインパッドにはそれが揃っているから、働き続ける理由になってるんだぜ。 霊夢:うん、それに加えて、自分に合った開発環境を選べるのも魅力的だわ。さらに成長できるチャンスもあるし、ここで働く理由はたくさんあるわね。 魔理沙:それにさ、ブレインパッドではデータ分析やAI技術を活用して、クライアント企業の経営改善を支援してるんだぜ。自分たちのスキルを活かして、世の中にインパクトを与えられる仕事ができるのも、魅力の一つだよな。 霊夢:確かに!社会貢献性の高い仕事を通じて、自分たちの成長にもつながるわね。ブレインパッドで働く理由がどんどん増えていくわ…。 魔理沙:まさに、そんな魅力的な会社だから働き続けてるんだぜ。これからも一緒に頑張ろうぜ、霊夢! 霊夢:うん、一緒に頑張ろう! それでは、これまでの議論を振り返ってみましょう。 | 論点 | 見解 | | --- | --- | | 経営理念・企業文化 | 共感できる理念や文化があり、働く意欲を高める | | 個性尊重の環境 | 個性を尊重し合える環境で働けるため、自分らしく働ける | | ワークライフバランス | 仕事とプライベートを両立しやすい環境で、ストレスが軽減される | | 開発環境の選択 | 自分の好みに合わせて開発環境を選べることで、効率的に働ける | | 成長のチャンス | スキルアップやキャリアアップのチャンスがあるため、働き続ける意欲が続く | | 社会貢献性の高い仕事 | データ分析やAI技術を活用して、世の中にインパクトを与えられる仕事が |
3. 台本の簡単な手直しをする:筆者担当
原文ママではゆっくりMovieMaker4の台本読み込み機能に適合しないため、ちょっとした手直しをした上で、記載形式を整えました。一部の話題は削っていますが、2人のセリフにほとんど修正を加えていないことがおわかりいただけるかと思います。
霊夢「ゆっくり霊夢です」 魔理沙「ゆっくり魔理沙だぜ」 魔理沙「今回は、わたしたちがなぜブレインパッドで働いているのか」 魔理沙「それぞれの立場から議論していくぜ」 霊夢「ゆっくりしていってね!!!」 魔理沙「ゆっくりしていってね!!!」 霊夢「まず、わたしは機械学習エンジニアとして1年前にブレインパッドに入社したんだわ」 霊夢「新米だけど、データ活用の促進を通じて持続可能な未来をつくるというミッションに惹かれたの」 魔理沙「それは素晴らしい理由だぜ」 魔理沙「わたしはデータサイエンティストとして10年前からここで働いてるんだ」 魔理沙「ビッグデータ活用で企業の経営改善を支援する仕事は」 魔理沙「自分のスキルを活かせてやりがいがあるのぜ」 霊夢「それに、ブレインパッドは「本質に向き合う」「行動を起こす」「敬意を払う」「未来をつくる」というバリューを大切にしているんだわ」 霊夢「自分の成長にも繋がる環境だから、ここで働くことを選んだの」 魔理沙「同感だぜ。それに、チームで協力して取り組む仕事が多くて、お互いに切磋琢磨できるのも魅力的だぜ」 魔理沙「わたしは不動産投資に興味があって、会社の近くにマンションを購入したんだ」 魔理沙「ブレインパッドが東京にオフィスを構えているおかげで、不動産投資にも取り組みやすいのぜ」 霊夢「あ、それいいね!」 霊夢「わたしはダジャレが大好きで、時々ボケるんだけど、ブレインパッドはみんなおおらかで受け入れてくれるのよ」 霊夢「だから、働きやすい環境だと感じてるわ」 魔理沙「ダジャレか。まあ、ボケることも大切だぜ」 魔理沙「そういうのも含めて、ブレインパッドは個性を尊重し合える場所だから、長く働くにはいい環境だと思うのぜ」 <---2人のエディタ戦争が始まったため検閲削除---> 霊夢「でも、ブレインパッドでは自分が使いやすい開発環境を選べるから、そこも魅力的だと思ってるの」 <---2人のエディタ戦争が始まったため検閲削除---> 霊夢「これまでの議論を見ると、ブレインパッドで働く理由は」 霊夢「経営理念や企業文化に共感できることや、個性を尊重し合える環境で働けることなどが挙げられるね」 魔理沙「そうだね」 魔理沙「これらの要素が働く上で大切で、ブレインパッドにはそれが揃っているから」 魔理沙「働き続ける理由になってるんだぜ」 霊夢「うん、それに加えて、自分に合った開発環境を選べるのも魅力的だわ」 霊夢「さらに成長できるチャンスもあるし、ここで働く理由はたくさんあるわね」 魔理沙「それにさ、ブレインパッドではデータ分析やAI技術を活用して、クライアント企業の経営改善を支援してるんだぜ」 魔理沙「自分たちのスキルを活かして、世の中にインパクトを与えられる仕事ができるのも、魅力の一つなのぜ」 霊夢「確かに!社会貢献性の高い仕事を通じて、自分たちの成長にもつながるわね」 霊夢「ブレインパッドで働く理由がどんどん増えていくわ…」 魔理沙「まさに、そんな魅力的な会社だから働き続けてるんだぜ」 魔理沙「これからも一緒に頑張ろうぜ、霊夢!」 霊夢「うん、一緒に頑張ろう!」
4. 台本に沿ってゆっくりMovieMaker4で動画を制作する:筆者担当
最後にゆっくりMovieMaker4で動画を制作します。ツール上で「ゆっくり魔理沙」と「ゆっくり霊夢」を作成し、台本流し込み機能を駆使して2人にセリフを喋ってもらいます。最後にBGMや効果音、VOICEVOXで生成したずんだもんのツッコミ音声などを挿入して完成です。
動画制作に利用した素材の権利の関係で動画自体の公開が難しいため、ドメイン知識のある方はぜひ以下の情報を脳内補完してお楽しみください。
- キャラ立ち絵:きつねゆっくり
- キャラ音声:ゆっくりボイス
- ツッコミ音声:VOICEVOX:ずんだもん
- 前半BGM:『【東方】おてんば恋娘【自作アレンジ】 』
- 出典:東方紅魔郷 ~ the Embodiment of Scarlet Devil.
- 作曲:ZUN 編曲:えもん
- 後半BGM:『野良猫は宇宙を目指した』 作曲:しゃろう
- 効果音:効果音ラボ様の効果音各種
- 背景画像:弊社六本木オフィス
- 動画演出の元ネタ①:真島 (リコリス・リコイル)
- 動画演出の元ネタ②:古代のフィールド (クロノ・トリガー)
今回は面白事例の紹介となりましたが、工夫次第で台本生成などにも活用しうること、そして人間がcopilotとしての生成AIと協力してタスクを完遂するイメージを少しだけお伝えできたのではないかと思います*11。
まとめ
本稿では、入出力に注目して生成AIを分類した上で、「copilotとして振る舞いうる生成AI」という視点でいくつかの分類の概況に触れました。生成AI/LLMが本格的に普及し始めた現段階では、タスクによって成熟度合いは様々で、実用にあたっての課題に直面する機会もまだまだ少なくありません。このような現状を踏まえ、より良い形で人間とcopilotとしての生成AIがシナジー効果を生んでいく姿を目指して、生成AIの可能性と諸問題について一緒に考えていければ幸いです。
本稿が「人間とcopilotとしての生成AIの共創社会」のビジョンの共有に僅かながらでも寄与できることを願っております。
参考文献
- 生成AI×SaaSをまとめた「Japan Generative AI Application Landscape」を公開 | One Capital, Inc
- ChatGPT人間のフィードバックから強化学習した対話AI - Speaker Deck
- 話題爆発中のAI「ChatGPT」の仕組みにせまる! #機械学習 - Qiita
- 松尾豊氏「大規模言語モデル(LLM)がビジネスを変える」|NIKKEI CHANNEL|NIKKEI生成AIシンポジウム
- Responsible Innovation in the Age of Generative AI | Adobe Blog
- ボーカルシンセサイザー - Wikipedia
- 音声合成 - Wikipedia
*1:シビュラシステムの価値観が偏見だらけだったら嫌ですよね
*2:あるいはそれに準ずる表現。例えばGoogleはDuetと呼んでいるが、人間とAIのコラボレーションが連想されるという点で共通している
*3:学習対象とする日本語のテキストが相対的に少ないことなどに起因。そもそも日本語非対応の場合もある
*4:日本語特化のLLMそのものの開発を目指すケースと、日本語以外の言語に強みを持つ既存のLLMをファインチューニングによって日本語対応させるケースがあることに注意。紹介した弊社事例は後者
*5:学生は無料で利用申請ができますので、ぜひ試してみてください
*6:その他、マルチモーダルモデルを目指す方向性もあるが、ここでは触れない
*7:ChatPDFは似た機能を1つ目の方法で実現
*8:漫画『HUNTER×HUNTER』より引用
*9:若干のごじつけ感は大目に見てください
*10:実際には手順1と2を往復しながら入力プロンプトをチューニングしています
*11:copilotとしての生成AIに仕事をさせすぎだという指摘は甘んじて受け入れます