Les données déséquilibrées sont un problème courant dans l'apprentissage automatique, ce qui apporte des défis à la corrélation, à la séparation et à l'évaluation des classes, et entraîne une mauvaise performance du modèle.
- Quel est l'inconvénient des données déséquilibrées?
- Pourquoi le déséquilibre des cours est un problème?
- Quel est le problème avec les ensembles de données déséquilibrés dans les problèmes de classification?
- Comment le déséquilibre des classes affecterait-il votre modèle?
Quel est l'inconvénient des données déséquilibrées?
Inconvénients: il peut éliminer les informations utiles sur les données elle-même, ce qui pourrait être nécessaire pour construire des classificateurs basés sur des règles tels que les forêts aléatoires. L'échantillon choisi par sous-échantillonnage aléatoire peut être un échantillon biaisé. Et ce ne sera pas une représentation précise de la population dans ce cas.
Pourquoi le déséquilibre des cours est un problème?
De nombreux problèmes de classification pratiques sont déséquilibrés. Le problème de déséquilibre des classes se produit généralement lorsqu'il y a beaucoup plus d'instances de certaines classes que d'autres. Dans de tels cas, les classificateurs standard ont tendance à être submergés par les grandes classes et à ignorer les petits.
Quel est le problème avec les ensembles de données déséquilibrés dans les problèmes de classification?
Cela signifie que le modèle ne parvient pas à identifier la classe minoritaire, mais le score de précision du modèle sera de 95%. Ainsi, notre approche traditionnelle de la classification et du calcul de la précision du modèle n'est pas utile dans le cas de l'ensemble de données déséquilibré.
Comment le déséquilibre des classes affecterait-il votre modèle?
Lorsqu'un déséquilibre de classe existe dans les données de formation, les modèles d'apprentissage automatique surclassent généralement la ou les classes plus grandes en raison de leur probabilité antérieure accrue. En conséquence, les cas appartenant aux petites classes (ES) sont généralement mal classées plus souvent que celles appartenant à la (ES) plus grande (ES).