- Quel est le taux d'échantillonnage dans la reconnaissance de la parole?
- Quelles sont les quatre façons différentes d'effectuer la reconnaissance des conférenciers?
- Comment fonctionne la reconnaissance des conférenciers?
- Qu'est-ce que le système d'identification des haut-parleurs?
Quel est le taux d'échantillonnage dans la reconnaissance de la parole?
Le taux d'échantillonnage (ou la fréquence d'échantillonnage) est le nombre d'échantillons audio qui sont prélevés par seconde. Le taux d'échantillonnage est mesuré à Hertz (Hz) ou au Kilohertz (KHz). Par exemple, un taux de 16 000 échantillons par seconde est égal à 16 000 Hz (ou 16 kHz).
Quelles sont les quatre façons différentes d'effectuer la reconnaissance des conférenciers?
La reconnaissance des conférenciers est un problème de reconnaissance de modèle. Les différentes technologies utilisées pour traiter et stocker les impressions vocales incluent l'estimation de la fréquence, les modèles de Markov cachés, les modèles de mélange gaussien, les algorithmes de correspondance de motifs, les réseaux de neurones, la représentation matricielle, la quantification vectorielle et les arbres de décision.
Comment fonctionne la reconnaissance des conférenciers?
La reconnaissance des conférenciers est basée sur le son de la voix. La reconnaissance des conférenciers a deux formes: dépendant du texte - avec le sujet prononçant un mot de passe ou une phrase de passe spécifique. Texte indépendant - avec le sujet parlant d'une manière sans contrainte.
Qu'est-ce que le système d'identification des haut-parleurs?
L'identification du locuteur (SI) est connue comme le processus d'identification du locuteur à partir d'un énoncé donné en comparant la biométrie vocale de l'échantillon donné de l'orateur.