32. マルチモーダル

2025.03.10

画像・音声・テキストなど複数の情報を統合して処理する手法は？

画像認識
音声認識
マルチモーダル
自己教師あり学習

正解！

不正解...

正解はマルチモーダルです。

マルチモーダルとは、複数の異なる情報（例：画像＋テキスト）を統合的に扱う手法です。

問題に戻る

画像と質問文を入力にして、質問に答えるマルチモーダルタスクは？

マルチタスク学習
Visual Question Answering
分類タスク
画像生成

正解！

不正解...

正解はVisual Question Answeringです。

Visual Question Answeringは、画像と質問文の両方を入力とし、答えを生成するマルチモーダルタスクです。

問題に戻る

画像とテキストを同一空間で扱うことができるマルチモーダルモデルは？

CLIP
TF-IDF
BERT
ResNet

正解！

不正解...

正解はCLIPです。

CLIPは、画像とテキストを同じ空間にマッピングするマルチモーダルモデルです。

問題に戻る

テキストから画像を生成するマルチモーダルモデルは？

BERT
GPT
DALL-E
LeNet

正解！

不正解...

正解はDALL-Eです。

DALL-Eは、テキストから画像を生成するText-to-Imageモデルです。

問題に戻る

大規模なマルチモーダルタスクに対応する汎用モデルは？

基盤モデル
転移学習
蒸留学習
ハードマージン分類

正解！

不正解...

正解は基盤モデルです。

基盤モデルは、大規模マルチモーダルタスクを含む学習済みモデルの基盤となるモデルです。

問題に戻る

画像からその内容を説明する文を自動生成するタスクは？

画像分類
音声生成
Image Captioning
テキスト分類

正解！

不正解...

正解はImage Captioningです。

Image Captioningは、画像を入力として、その内容を文章で説明するタスクです。

問題に戻る

マルチモーダルかつマルチタスクに対応可能な統合モデルは？

Visual Question Answering
Image Captioning
Unified-IO
Mask R-CNN

正解！

不正解...

正解はUnified-IOです。

Unified-IOは、マルチモーダルかつマルチタスクに対応する統合モデルです。

問題に戻る

少数の例からマルチモーダル推論が可能なモデルは？

CLIP
DALL-E
GPT
Flamingo

正解！

不正解...

正解はFlamingoです。

Flamingoは、少数ショットのマルチモーダル学習に強いモデルとして知られています。

問題に戻る

学習していないタスクでも推論ができるマルチモーダル技術は？

Few-shot
zero-shot
One-hot
Semi-supervised

正解！

不正解...

正解はzero-shotです。

zero-shotは、学習していないタスクにも対応できる推論技術で、マルチモーダル応用にも使われます。

問題に戻る

複数のタスクを同時に学習し、精度向上を図る学習方法は？

Dropout
マルチタスク学習
正則化
Self-attention

正解！

不正解...

正解はマルチタスク学習です。

マルチタスク学習は、複数のタスクを同時に学習して相互の知識を活かす手法です。

問題に戻る