- L'apprentissage en profondeur est-il utilisé pour la reconnaissance vocale?
- Les réseaux de neurones peuvent-ils être utilisés pour la reconnaissance vocale?
- Quelles sont les techniques d'amélioration de la parole?
- Pouvons-nous utiliser RNN pour la reconnaissance vocale?
L'apprentissage en profondeur est-il utilisé pour la reconnaissance vocale?
À l'ère de l'apprentissage en profondeur, les réseaux de neurones ont montré une amélioration significative de la tâche de reconnaissance vocale. Diverses méthodes ont été appliquées telles que les réseaux de neurones convolutionnels (CNN), les réseaux de neurones récurrents (RNN), tandis que les réseaux de transformateurs récemment ont atteint de grandes performances.
Les réseaux de neurones peuvent-ils être utilisés pour la reconnaissance vocale?
Les réseaux de neurones sont très puissants pour la reconnaissance de la parole. Il existe différents réseaux pour ce processus. RNN, LSTM, le réseau neuronal profond et le HMM-LSTM hybride sont utilisés pour la reconnaissance vocale.
Quelles sont les techniques d'amélioration de la parole?
Un certain nombre de techniques d'amélioration de la parole ont été rapportées dans la littérature [32]. Ils comprennent la soustraction spectrale [33, 34, 41], le filtrage de Wiener et Kalman [35], l'estimation MMSE [36], le filtrage de peigne [32], les méthodes de sous-espace [37, 38] et la rémunération du spectre de phase [39, 40].
Pouvons-nous utiliser RNN pour la reconnaissance vocale?
RNN semble être plus naturel pour la reconnaissance vocale que le MLP car il permet une variabilité de la longueur d'entrée [17]. La motivation de l'application d'un réseau de neurones récurrentes à ce domaine est de profiter de leur capacité à traiter les caractéristiques spectrales à court terme, mais pourtant réagir aux événements temporels à long terme.