マルチモーダルとその応用のご紹介

2023年4月21日
読了時間: 2分

マルチモーダルとは

　従来のAI技術では、画像処理分野では画像(視覚情報)、音声認識分野では音声(聴覚情報)など、1つの情報(モダリティ)を使用することが一般的でした。しかしながら、私たち人間は単一のモダリティに基づいて思考や判断をしていないため、複数のモダリティを利用する技術がAIの発展に不可欠であると考えられます。そこで、複数のモダリティを統合して扱うことができるマルチモーダルAIが登場しました。

　マルチモーダルAIは、複数のモダリティを活用することで、より正確な予測や推論が可能になり、これまで解決できなかった問題を解決できるようになると期待されています。最近話題になっているGPT-4は、文章に加えて複雑な数式や図などが含まれる大学レベルの物理のテストを解くことができるようになったと報じられています。

開発事例のご紹介

レーザー加工機等を使って、加工した後の表面検査について紹介します。

レーザー加工機の表面検査には、従来は視覚情報を主に使った検査が一般的でした。しかし、視覚情報だけでは細かな傷や凹凸を見逃すことがあります。そこで、マルチモーダル技術を活用することで、より正確な表面検査が可能になると考えられます。

実際に開発したのはレーザー加工機の設定パラメータと表面の画像を使って、表面検査の独自モデルを開発しました。従来の画像のみの検査よりも正確な検査結果が得られました。そして、検査結果が不合格になった場合には、その原因となる設定項目を担当者に提示することができました。このことにより、加工機の設定を最適化し、不良品率を低下させることができました。

　以下は開発したシステムの操作手順について紹介します。