Compression audio avec STFT

Qu'est-ce que STFT en audio?
À quoi sert STFT?
Quelle est la différence entre FFT et STFT?
Pourquoi utiliserions-nous un spectrogramme STFT pour analyser le discours humain?

Qu'est-ce que STFT en audio?

DFT convertit une séquence (signal discret) en ses constituants de fréquence, tout comme FT le fait pour un signal continu. Dans notre cas, nous avons une séquence d'amplitudes qui ont été échantillonnées à partir d'un signal audio continu. L'algorithme DFT ou FFT peut convertir ce signal discrète dans le domaine temporel en un domaine de fréquence.

À quoi sert STFT?

La transformée de Fourier à court terme (STFT) est utilisée pour analyser comment le contenu en fréquence d'un signal non stationnaire change dans le temps. La magnitude au carré du STFT est connue sous le nom de représentation de la fréquence temporelle du spectrogramme du signal.

Quelle est la différence entre FFT et STFT?

FFT a une résolution de 2048 lignes, Blackman Window et 50% de chevauchement et STFT a également la taille du bloc 2048, la taille FFT 16K, la fenêtre Blackman utilisée et le chevauchement de 50%. Comme nous pouvons le voir, STFT fonctionne mieux avec la même taille de bloc (mais plus de lignes calculées). Nous avons amélioré la résolution de fréquence pour la même quantité de données récupérées.

Pourquoi utiliserions-nous un spectrogramme STFT pour analyser le discours humain?

Le STFT est l'un des outils les plus fréquemment utilisés pour l'analyse et le traitement de la parole. Il décrit l'évolution des composants de fréquence au fil du temps. Comme le spectre lui-même, l'un des avantages des STFT est que ses paramètres ont une interprétation physique et intuitive.