画像と言語を統合処理するAI技術
視覚と言語をつなぐAI技術
AIが人間の言葉を理解し、考えて回答を作成するには「言語モデル」と呼ばれる頭脳が必要となります。VLM(Vision Language Model、視覚言語モデル)は、視覚情報と言語情報を統合的に処理し、理解する技術です。この技術により、画像認識と言語モデルを組み合わせ、AIが画像内の物体や場面を分析してテキストで表現したり、逆にテキストから画像を生成することが可能になります。
LLM(大規模言語モデル)などテキストのみを扱う言語モデルに比べ、マルチモーダルな処理ができるVLMはより人間に近い複雑な判断やデータ解釈が可能です。社会での活用分野は幅広く、医療分野では画像診断の補助や治療方針の提案による診療の質の向上、eコマースでは商品の画像検索や自動生成された商品説明など新たなショッピング体験を創出します。また、カメラ画像をもとに道路状況を認識し安全な走行を補助するなど、自動運転技術の社会実装にとっても重要な技術です。他にも、これまで人間が行っていた判断や作業を効率化し、生活や産業に革新をもたらす技術として注目されています。
VLMの関連記事
(掲載日:2024年12月18日)
文:ソフトバンクニュース編集部