【CEDEC 2017 フォローアップ】キャラクターらしさ学習AI:多数のキャラクターの個性や違いの可視化による シナリオライティング支援システム事例


こんにちは。Cygamesでリサーチャーをしております都築です。

2017年8月30日~9月1日にかけて開催されたCEDEC 2017にて、「キャラクターらしさ学習AI:多数のキャラクターの個性や違いの可視化によるシナリオライティング支援システム事例」というタイトルで講演させていただきました。講演にご参加いただいた皆様、タイムシフトでご視聴いただいた皆様、大変ありがとうございました。

講演で使用したスライドを以下に公開いたしました。当日は紹介できなかったスライドもございますので、会場に来場いただいたかたも、そうでないかたもご覧いただけますと幸いです。

本講演では、組織的シナリオライティングにおいて監修者への負荷が集中することにより、各ライターへのフィードバックに遅延が生じ、開発効率と品質向上のためのボトルネックになってしまう問題点を解決するためのシステムとして弊社で研究を進めております「キャラクターらしさ学習AI」を紹介しました。本システムは、キャラクターの「発話内容・好み」と「話し方・口調」の二つの側面からキャラクターの個性を抽出し、可視化することでライター自身によるテキストのクオリティチェックを可能にすることにより、監修者への負荷集中の緩和を図るものです。本システムを実現するための技術的概要と支援例を講演では説明させていただきましたが、25分という時間の都合上駆け足になってしまった箇所もありました。本記事では講演中に伝えきれなかった箇所について補足いたします。

学習モデルについて

本システムでは、既存の台詞データから文中の要素について「キャラごとの発話頻度」と「要素の発話者数」の二つの要因から、実際にキャラらしさへどの程度影響を与えているのかを計量します。分析対象のキャラクターは時に数十人以上にも上りますが、計量した各要素の影響度から、キャラクターの特徴を反映した識別器(ベクトル空間)を、全キャラクター分それぞれ生成することで、多数のキャラが登場するようなシナリオデータの分析においても、ユーザが入力したテキストのキャラクターらしさを精度よく測定することを可能としています。

この方式の持つ利点として、ニューラルネットワークやサポートベクターマシンなどのいわゆる機械学習アルゴリズムと異なり、「特徴量ごとの影響度が容易に理解できる」というものがあります。ユーザが入力した台詞に対する評価を自動計算しフィードバックするという執筆支援を行う上では、入力した台詞のどの部分が良い/悪いのかが、ユーザにとって理解しやすいことはクオリティ改善のスピードを向上させる上で不可欠です。

台詞データと一般常識の統合について

台詞データだけでは学習できない「一般常識」をAI内に組み込むことで、キャラクターらしさの精度向上を図るという工夫についても紹介させていただきました。この工夫により、「直接言及していないが、発話していてもおかしくなさそうな単語の推定」や「話し方の特徴とすることは不適切な言回しのフィルタリング」を行うことができます。これらの機能により例えば、「野球」の発話回数が多いキャラは「ホームラン」もいいそうだから「ホームラン」もこのキャラらしい発話内容に含める、「野球」は文字列としては何度も発話しているが一般的な単語なので口調の特徴から外す、といった判断を自動で行えるようになります。

まとめ

改めまして、講演をご覧いただいた皆様、本記事を読んでいただいた皆様、誠にありがとうございました。キャラクターらしさ学習AIはまだまだ発展途上の段階ではありますが、講演内容と本記事が皆様に何らかのヒントや刺激を与えられたなら幸いです。

最後に、Cygames Researchでは、自然言語処理を含めた先端技術の研究開発から、ゲーム業界を盛り上げていく研究員を募集しております。興味のある方は、ぜひ下記リンクをご覧ください。