28. 音声処理

2025.03.10

人間の話す音声をテキストに変換するタスクは？

音声認識
音声合成
話者識別
感情分析

正解！

不正解...

正解は音声認識です。

音声認識は、人間の話す音声をテキストに変換するタスクです。

問題に戻る

テキストから音声を生成するタスクは？

音声合成
感情分析
音韻変換
音素変換

正解！

不正解...

正解は音声合成です。

音声合成は、テキストから音声を生成するタスクで、ナビや読み上げなどに利用されます。

問題に戻る

音声の特徴から「誰が話したか」を特定するタスクは？

話者識別
音声合成
音声認識
音韻解析

正解！

不正解...

正解は話者識別です。

話者識別は、誰が話したかを特定するタスクです。

問題に戻る

音声処理で代表的な特徴量である、メル周波数ケプストラム係数の略称は？

FFT
MFCC
BoW
TF-IDF

正解！

不正解...

正解はMFCCです。

MFCC（メル周波数ケプストラム係数）は、音声の特徴量としてよく使われます。

問題に戻る

人間の聴覚に合わせた音の高さのスケールは？

メル尺度
フォルマント
BoW
スペクトル包絡

正解！

不正解...

正解はメル尺度です。

メル尺度は、人間の聴覚特性に基づいて音の高さを表現するスケールです。

問題に戻る

音声認識において時間とラベルの整合をとる損失関数は？

CTC
RNN
CNN
GAN

正解！

不正解...

正解はCTCです。

CTC（Connectionist Temporal Classification）は、音声認識においてラベルと音声の時間整合を取る手法です。

問題に戻る

音声合成の高品質モデルとして知られる生成モデルは？

WaveNet
fastText
VGG
ResNet

正解！

不正解...

正解はWaveNetです。

WaveNetは、高品質な音声合成のための生成モデルです。

問題に戻る

音声信号における共鳴周波数のことを何という？

フォルマント
音素
トークン
ビット

正解！

不正解...

正解はフォルマントです。

フォルマントは母音などの音声信号における共鳴周波数で、音の特徴を決定づけます。

問題に戻る

アナログ音声をデジタル信号に変換する方式は？

PCM
FFT
MFCC
TF-IDF

正解！

不正解...

正解はPCMです。

PCM（パルス符号変調）はアナログ音声をデジタルに変換する方式の1つです。

問題に戻る

音声信号を周波数に分解するために使われる変換手法は？

FFT
単語埋め込み
BoW
Word2Vec

正解！

不正解...

正解はFFTです。

FFT（高速フーリエ変換）は、音声信号を周波数成分に変換する手法です。

問題に戻る