- Pourquoi utilisons-nous DCT dans MFCC?
- Qu'est-ce que MFCC extrait?
- Quelle est la sortie de MFCC?
- Comment le MFCC est-il utilisé dans la reconnaissance vocale?
Pourquoi utilisons-nous DCT dans MFCC?
DCT est la dernière étape du processus principal de l'extraction des fonctionnalités MFCC. Le concept de base de DCT est la valeur corrélée du spectre MEL afin de produire une bonne représentation de la propriété Spectral local. Fondamentalement, le concept de DCT est le même que la transformée de Fourier inverse.
Qu'est-ce que MFCC extrait?
La technique d'extraction des caractéristiques MFCC comprend essentiellement la fenêtre du signal, l'application du DFT, la prise du journal de l'ampleur, puis la déformation des fréquences sur une échelle MEL, suivie par l'application du DCT inverse.
Quelle est la sortie de MFCC?
La sortie après application MFCC est une matrice ayant des vecteurs de fonctionnalité extraits de toutes les trames. Dans cette matrice de sortie, les lignes représentent les nombres de trame et les colonnes correspondants représentent les coefficients de vecteur de caractéristiques correspondants [1-4]. Enfin, cette matrice de sortie est utilisée pour le processus de classification.
Comment le MFCC est-il utilisé dans la reconnaissance vocale?
Les MFCC sont des fonctionnalités populaires extraites des signaux de la parole pour une utilisation dans les tâches de reconnaissance. Dans le modèle de discours à filtre source, le MFCC représente le filtre (voies vocales). La réponse en fréquence du tractus vocal est relativement fluide, tandis que la source de la parole exprimée peut être modélisée comme un train impulsif.