Utiliser MFCC à un système de reconnaissance de la parole Ann

Comment le MFCC est-il utilisé dans la reconnaissance vocale?
Les réseaux de neurones peuvent-ils être utilisés pour la reconnaissance vocale?
À quoi sert MFCC pour?

Comment le MFCC est-il utilisé dans la reconnaissance vocale?

Les MFCC sont des fonctionnalités populaires extraites des signaux de la parole pour une utilisation dans les tâches de reconnaissance. Dans le modèle de discours à filtre source, le MFCC représente le filtre (voies vocales). La réponse en fréquence du tractus vocal est relativement fluide, tandis que la source de la parole exprimée peut être modélisée comme un train impulsif.

Les réseaux de neurones peuvent-ils être utilisés pour la reconnaissance vocale?

Les réseaux de neurones sont très puissants pour la reconnaissance de la parole. Il existe différents réseaux pour ce processus. RNN, LSTM, le réseau neuronal profond et le HMM-LSTM hybride sont utilisés pour la reconnaissance vocale.

À quoi sert MFCC pour?

Les MFCC sont couramment utilisés comme fonctionnalités dans les systèmes de reconnaissance vocale, tels que les systèmes qui peuvent reconnaître automatiquement les nombres parlées dans un téléphone. Les MFCC trouvent également de plus en plus des utilisations dans des applications de récupération d'informations musicales telles que la classification des genres, les mesures de similitude audio, etc.