diff --git a/lab_2/laba2.ipynb b/lab_2/laba2.ipynb index 52af7a3..f52ebba 100644 --- a/lab_2/laba2.ipynb +++ b/lab_2/laba2.ipynb @@ -630,6 +630,71 @@ "plt.title('Распределение классов hazardous в тренировачной выборке после ADASYN')\n", "plt.show()" ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "P.S. можно было использовать ещё SMOTE, SVM-SMOTE, K-means SMOTE, SMOTE-N, SMOTE-NC, RandomOverSampler." + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "проведём также балансировку данных методом андерсемплинга. Этот метод помогает сбалансировать выборку, уменьшая количество экземпляров класса большинства, чтобы привести его в соответствие с классом меньшинства." + ] + }, + { + "cell_type": "code", + "execution_count": 18, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Обучающая выборка после undersampling: (10608, 6)\n", + "hazardous\n", + "False 5304\n", + "True 5304\n", + "Name: count, dtype: int64\n" + ] + }, + { + "data": { + "image/png": "", + "text/plain": [ + "
" + ] + }, + "metadata": {}, + "output_type": "display_data" + } + ], + "source": [ + "from imblearn.under_sampling import RandomUnderSampler\n", + "\n", + "rus = RandomUnderSampler()# Создание экземпляра RandomUnderSampler\n", + "\n", + "# Применение RandomUnderSampler\n", + "X_resampled, y_resampled = rus.fit_resample(df_train.drop(columns=['hazardous']), df_train['hazardous'])\n", + "\n", + "# Создание нового DataFrame\n", + "df_train_undersampled = pd.DataFrame(X_resampled)\n", + "df_train_undersampled['hazardous'] = y_resampled # Добавление целевой переменной\n", + "\n", + "# Вывод информации о новой выборке\n", + "print(\"Обучающая выборка после undersampling: \", df_train_undersampled.shape)\n", + "print(df_train_undersampled['hazardous'].value_counts())\n", + "\n", + "# Визуализация распределения классов\n", + "hazardous_counts = df_train_undersampled['hazardous'].value_counts()\n", + "plt.figure(figsize=(2, 2))\n", + "plt.pie(hazardous_counts, labels=hazardous_counts.index, autopct='%1.1f%%', startangle=90)\n", + "plt.title('Распределение классов hazardous в тренировочной выборке после Undersampling')\n", + "plt.show()" + ] } ], "metadata": {