- Qu'est-ce que le suréchantillonnage à Python?
- Comment surempellez-vous les données?
- Comment faire en sorte que les données d'échantillonnage dans Python?
Qu'est-ce que le suréchantillonnage à Python?
Le suréchantillonnage aléatoire implique de sélectionner des exemples au hasard dans la classe minoritaire, avec le remplacement, et de les ajouter à l'ensemble de données de formation. Le sous-échantillonnage aléatoire consiste à sélectionner des exemples au hasard dans la classe majoritaire et à les supprimer de l'ensemble de données de formation.
Comment surempellez-vous les données?
Pour ensuite suréchantillonner, prélevez un échantillon de l'ensemble de données et considérez ses K voisins les plus proches (dans l'espace des caractéristiques). Pour créer un point de données synthétique, prenez le vecteur entre l'un de ces K voisins et le point de données actuel. Multipliez ce vecteur par un nombre aléatoire x se situe entre 0 et 1.
Comment faire en sorte que les données d'échantillonnage dans Python?
Vous pouvez mettre un échantillonnage d'un ensemble de données en copie simplement des enregistrements à partir de classes minoritaires. Vous pouvez le faire via la méthode Resample () du sklearn. UTILS Module, comme indiqué dans le script suivant. Vous pouvez voir que dans ce cas, le premier argument que nous passons la méthode Resample () est notre classe minoritaire, je.e. Notre ensemble de données de spam.