- Comment expliquez-vous MFCC?
- Que font les MFCC?
- Comment le MFCC est-il utilisé dans la reconnaissance vocale?
- Pourquoi le MFCC est-il utilisé pour l'extraction des fonctionnalités?
Comment expliquez-vous MFCC?
Les coefficients cepstraux de la fréquence de MEL (MFCC) d'un signal sont un petit ensemble de caractéristiques (généralement environ 10-20) qui décrivent de manière concise la forme globale d'une enveloppe spectrale. Dans Mir, il est souvent utilisé pour décrire le timbre.
Que font les MFCC?
Les MFCC sont couramment utilisés comme fonctionnalités dans les systèmes de reconnaissance vocale, tels que les systèmes qui peuvent reconnaître automatiquement les nombres parlées dans un téléphone. Les MFCC trouvent également de plus en plus des utilisations dans des applications de récupération d'informations musicales telles que la classification des genres, les mesures de similitude audio, etc.
Comment le MFCC est-il utilisé dans la reconnaissance vocale?
Les MFCC sont des fonctionnalités populaires extraites des signaux de la parole pour une utilisation dans les tâches de reconnaissance. Dans le modèle de discours à filtre source, le MFCC représente le filtre (voies vocales). La réponse en fréquence du tractus vocal est relativement fluide, tandis que la source de la parole exprimée peut être modélisée comme un train impulsif.
Pourquoi le MFCC est-il utilisé pour l'extraction des fonctionnalités?
Il est observé que l'extraction des fonctionnalités du signal audio et l'utiliser comme entrée dans le modèle de base produiront de bien meilleures performances que considérant directement le signal audio brut comme entrée. MFCC est la technique largement utilisée pour extraire les fonctionnalités du signal audio.