- Quel est le problème avec le suréchantillonnage?
- Pourquoi devrions-nous utiliser le suréchantillonnage?
- Est-ce une bonne idée de surépanner?
- Le suréchantillonnage est-il bon dans l'apprentissage automatique?
Quel est le problème avec le suréchantillonnage?
Le suréchantillonnage aléatoire peut augmenter la probabilité de sur-ajustement qui se produit, car il fait des copies exactes des exemples de classe minoritaires. De cette façon, un classificateur symbolique, par exemple, peut construire des règles qui sont apparemment exactes, mais couvrent en fait un exemple reproduit.
Pourquoi devrions-nous utiliser le suréchantillonnage?
Le suréchantillonnage est la pratique de la sélection des répondants afin que certains groupes constituent une part plus importante de l'échantillon d'enquête que dans la population. Le suréchantillonnage des petits groupes peut être difficile et coûteux, mais il permet aux sondages de faire la lumière sur des groupes qui seraient autrement trop petits pour faire rapport sur.
Est-ce une bonne idée de surépanner?
Le suréchantillonnage est un moyen bien connu d'améliorer potentiellement les modèles formés sur les données déséquilibrées. Mais il est important de se rappeler que le suréchantillonnage incorrectement peut conduire à la réflexion sur un modèle mieux qu'il ne le fait réellement.
Le suréchantillonnage est-il bon dans l'apprentissage automatique?
Suréchantillonnage aléatoire
Pour les algorithmes d'apprentissage automatique affectés par la distribution asymétrique, comme les réseaux de neurones artificiels et les SVM, c'est une technique très efficace.