【CEDEC2024 フォローアップ】AIを活用した柔軟かつ効率的な社内リソース検索への取り組み


こんにちは。開発運営支援のゲームエンジニアの立福です。CEDEC2024では「AIを活用した柔軟かつ効率的な社内リソース検索への取り組み」というタイトルで発表を行いました。ご参加・ご視聴いただいた皆様、ありがとうございました。

当日の資料がこちらです。

質問への回答

こちらのフォローアップ記事では、講演中・Ask the Speakerでいただいた質問へ改めて回答させていただきます。

Q. LambdaにGPUインスタンスはありませんが、CPUで実行しているのでしょうか?

A. はい。今回のAI画像検索はすべてCPUで実行しています。CLIPの実行はCPUでも1秒程度で処理が終わるのでGPUインスタンスは使っていません。楽曲・効果音を扱うCLAPのほうもCPUで大丈夫でした。

Q. Lambdaにしているのはなぜですか? EC2インスタンスで実行してもよさそうですが。

A. もちろんEC2インスタンスで実行することも可能です。Lambdaで動かしているのは実行していないときのコストを抑えたいからです。AIの機能を実装したときに毎月のコストがかかると利用頻度によっては「コストかかるので止めたい」となってしまうことがあります。Lambdaのようなサーバレスで実装しておけば、固定コストをほとんどゼロにすることができます。ここは利用頻度、コスト、実装の工数で決めるとよいと思いますが、実際に導入してみないと利用頻度がわからないのが難しいところです。

Q. 楽曲は自動タグ付けで、効果音はテキストで検索? ここで混乱してしまいました。

A. ここは説明が足りずに伝わりにくかったようです。申し訳ありません。楽曲は専用のアプリケーションで管理されています。こちらに自動タグ付けを行う機能を実装予定です。効果音のほうは画像と同じアプリケーションで管理されており、こちらにAI画像検索の効果音版を実装するという話でした。テキストでの効果音検索、効果音での効果音検索が可能になります。

Q. 効果音をテキストで検索するケースではどの程度の精度が出るのでしょうか?

A. 具体的な数値はまだ出せないのですが、かなり高い精度が出ることを確認しています。効果音で効果音を検索するほうもかなり近いものが出てきます。講演中では説明していませんが、CLAPモデルは英語しか対応していないので、日本語から英語への翻訳を行ってから効果音の検索を実行しています。

Q. 似た構図の画像を探すにはCLIPでは難しいという話でしたが、どのようなアプローチを考えていますか?

A. 人体のポーズ推定を行うAIモデルを利用して、似たポーズの画像を検索する方法を検討中です。

最後に

今回の講演では社内の画像・楽曲・効果音をAIを使って効率的に検索する事例について紹介しました。CLIPを使った画像検索を試されている方は多いですが、実際の業務で活用した事例は少ないようなので、デプロイまわりを含めて説明しました。楽曲・効果音のAI検索機能に関してはこれから社内に導入していくので、機会がありましたら事例として紹介したいと思っています。今回の発表内容が皆様の参考になれば幸いです。