トレンド情報ライフスタイル IT＆みらいソフトバンクのこと

特集・シリーズ X PROJECT ソフトバンクニュースとは 1分で分かるキーワード

ENGLISH

SNSボタン

記事分割（js記載用）

【VLM】～1分で分かるキーワード #252

IT＆みらい AI 1分で分かるキーワード _MV _RECENT

【VLM】～1分で分かるキーワード #252

画像と言語を統合処理するAI技術

視覚と言語をつなぐAI技術

AIが人間の言葉を理解し、考えて回答を作成するには「言語モデル」と呼ばれる頭脳が必要となります。VLM（Vision Language Model、視覚言語モデル）は、視覚情報と言語情報を統合的に処理し、理解する技術です。この技術により、画像認識と言語モデルを組み合わせ、AIが画像内の物体や場面を分析してテキストで表現したり、逆にテキストから画像を生成することが可能になります。

LLM（大規模言語モデル）などテキストのみを扱う言語モデルに比べ、マルチモーダルな処理ができるVLMはより人間に近い複雑な判断やデータ解釈が可能です。社会での活用分野は幅広く、医療分野では画像診断の補助や治療方針の提案による診療の質の向上、eコマースでは商品の画像検索や自動生成された商品説明など新たなショッピング体験を創出します。また、カメラ画像をもとに道路状況を認識し安全な走行を補助するなど、自動運転技術の社会実装にとっても重要な技術です。他にも、これまで人間が行っていた判断や作業を効率化し、生活や産業に革新をもたらす技術として注目されています。

VLMの関連記事

【LLM】～1分で分かるキーワード #161

入社して2年、日本発のAI研究で世界へ。世界最高峰の国際会議「ACL」で論文採択

世界に最も必要な会社となるために。「AI共存社会」に向けたソフトバンクのESG戦略

（掲載日：2024年12月18日）
文：ソフトバンクニュース編集部