AIM-PIbd-31-Kozyrev-S-S/lab_2/lab_2.ipynb

{
 "cells": [
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Выбранные темы: цены на кофе, магазины, оценки студентов\n",
    "Далее идут выбранные таблицы"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 55,
   "metadata": {},
   "outputs": [],
   "source": [
    "import pandas as pd\n",
    "import matplotlib.pyplot as plt\n",
    "from sklearn.model_selection import train_test_split\n",
    "from sklearn.preprocessing import LabelEncoder\n",
    "from imblearn.over_sampling import RandomOverSampler\n",
    "from imblearn.under_sampling import RandomUnderSampler\n",
    "\n",
    "label_encoder = LabelEncoder()\n",
    "\n",
    "# Функция для применения oversampling\n",
    "def apply_oversampling(X, y):\n",
    "    oversampler = RandomOverSampler(random_state=42)\n",
    "    X_resampled, y_resampled = oversampler.fit_resample(X, y)\n",
    "    return X_resampled, y_resampled\n",
    "\n",
    "# Функция для применения undersampling\n",
    "def apply_undersampling(X, y):\n",
    "    undersampler = RandomUnderSampler(random_state=42)\n",
    "    X_resampled, y_resampled = undersampler.fit_resample(X, y)\n",
    "    return X_resampled, y_resampled\n",
    "\n",
    "def split_stratified_into_train_val_test(\n",
    "    df_input,\n",
    "    stratify_colname=\"y\",\n",
    "    frac_train=0.6,\n",
    "    frac_val=0.15,\n",
    "    frac_test=0.25,\n",
    "    random_state=None,\n",
    "):\n",
    "    \"\"\"\n",
    "    Splits a Pandas dataframe into three subsets (train, val, and test)\n",
    "    following fractional ratios provided by the user, where each subset is\n",
    "    stratified by the values in a specific column (that is, each subset has\n",
    "    the same relative frequency of the values in the column). It performs this\n",
    "    splitting by running train_test_split() twice.\n",
    "\n",
    "    Parameters\n",
    "    ----------\n",
    "    df_input : Pandas dataframe\n",
    "        Input dataframe to be split.\n",
    "    stratify_colname : str\n",
    "        The name of the column that will be used for stratification. Usually\n",
    "        this column would be for the label.\n",
    "    frac_train : float\n",
    "    frac_val   : float\n",
    "    frac_test  : float\n",
    "        The ratios with which the dataframe will be split into train, val, and\n",
    "        test data. The values should be expressed as float fractions and should\n",
    "        sum to 1.0.\n",
    "    random_state : int, None, or RandomStateInstance\n",
    "        Value to be passed to train_test_split().\n",
    "\n",
    "    Returns\n",
    "    -------\n",
    "    df_train, df_val, df_test :\n",
    "        Dataframes containing the three splits.\n",
    "    \"\"\"\n",
    "\n",
    "    if frac_train + frac_val + frac_test != 1.0:\n",
    "        raise ValueError(\n",
    "            \"fractions %f, %f, %f do not add up to 1.0\"\n",
    "            % (frac_train, frac_val, frac_test)\n",
    "        )\n",
    "\n",
    "    if stratify_colname not in df_input.columns:\n",
    "        raise ValueError(\"%s is not a column in the dataframe\" % (stratify_colname))\n",
    "\n",
    "    X = df_input  # Contains all columns.\n",
    "    y = df_input[\n",
    "        [stratify_colname]\n",
    "    ]  # Dataframe of just the column on which to stratify.\n",
    "\n",
    "    # Split original dataframe into train and temp dataframes.\n",
    "    df_train, df_temp, y_train, y_temp = train_test_split(\n",
    "        X, y, stratify=y, test_size=(1.0 - frac_train), random_state=random_state\n",
    "    )\n",
    "\n",
    "    # Split the temp dataframe into val and test dataframes.\n",
    "    relative_frac_test = frac_test / (frac_val + frac_test)\n",
    "    df_val, df_test, y_val, y_test = train_test_split(\n",
    "        df_temp,\n",
    "        y_temp,\n",
    "        stratify=y_temp,\n",
    "        test_size=relative_frac_test,\n",
    "        random_state=random_state,\n",
    "    )\n",
    "\n",
    "    assert len(df_input) == len(df_train) + len(df_val) + len(df_test)\n",
    "\n",
    "    return df_train, df_val, df_test"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Отслеживание цен на акции Старбакс. Объекты связаны между собой датой, т.е. каждая следующая строка это новый день. Можно узнать как, относительно изменения цен на акции, идут продажи акций. Поможет для трейдинговых компаний. Целевым признаком является количество покупающих."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 4,
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "<class 'pandas.core.frame.DataFrame'>\n",
      "RangeIndex: 8036 entries, 0 to 8035\n",
      "Data columns (total 7 columns):\n",
      " #   Column     Non-Null Count  Dtype  \n",
      "---  ------     --------------  -----  \n",
      " 0   Date       8036 non-null   object \n",
      " 1   Open       8036 non-null   float64\n",
      " 2   High       8036 non-null   float64\n",
      " 3   Low        8036 non-null   float64\n",
      " 4   Close      8036 non-null   float64\n",
      " 5   Adj Close  8036 non-null   float64\n",
      " 6   Volume     8036 non-null   int64  \n",
      "dtypes: float64(5), int64(1), object(1)\n",
      "memory usage: 439.6+ KB\n",
      "Date         0\n",
      "Open         0\n",
      "High         0\n",
      "Low          0\n",
      "Close        0\n",
      "Adj Close    0\n",
      "Volume       0\n",
      "dtype: int64\n",
      "              Open         High          Low        Close    Adj Close  \\\n",
      "count  8036.000000  8036.000000  8036.000000  8036.000000  8036.000000   \n",
      "mean     30.054280    30.351487    29.751322    30.058857    26.674025   \n",
      "std      33.615577    33.906613    33.314569    33.615911    31.728090   \n",
      "min       0.328125     0.347656     0.320313     0.335938     0.260703   \n",
      "25%       4.392031     4.531250     4.304922     4.399610     3.414300   \n",
      "50%      13.325000    13.493750    13.150000    13.330000    10.352452   \n",
      "75%      55.250000    55.722501    54.852499    55.267499    47.464829   \n",
      "max     126.080002   126.320000   124.809998   126.059998   118.010414   \n",
      "\n",
      "             Volume  \n",
      "count  8.036000e+03  \n",
      "mean   1.470459e+07  \n",
      "std    1.340021e+07  \n",
      "min    1.504000e+06  \n",
      "25%    7.817750e+06  \n",
      "50%    1.169815e+07  \n",
      "75%    1.778795e+07  \n",
      "max    5.855088e+08  \n",
      "\n",
      "[1]\n",
      "\n"
     ]
    },
    {
     "data": {
      "image/png": "iVBORw0KGgoAAAANSUhEUgAAAjkAAAGdCAYAAADwjmIIAAAAOXRFWHRTb2Z0d2FyZQBNYXRwbG90bGliIHZlcnNpb24zLjkuMiwgaHR0cHM6Ly9tYXRwbG90bGliLm9yZy8hTgPZAAAACXBIWXMAAA9hAAAPYQGoP6dpAABMFUlEQVR4nO3deXhTVcIG8Dfd0r2lhaYttFCQVbayWjYFKgiIovgpDg6OC6gDKjIzCiMwyiBVnFEGRXEblFHcBQUUZVGQxUIpIPva0tLSllK6kzZN8v3R5jY3uWmS9iZpkvf3PH3m5tyTm9POjHk9q0Kv1+tBRERE5GF8XN0AIiIiIkdgyCEiIiKPxJBDREREHokhh4iIiDwSQw4RERF5JIYcIiIi8kgMOUREROSRGHKIiIjII/m5ugHNodPpkJ+fj7CwMCgUClc3h4iIiGyg1+tRUVGB+Ph4+Pg4vp/FLUNOfn4+EhISXN0MIiIiaobc3Fx06NDB4Z/jliEnLCwMQP0fKTw83MWtISIiIluUl5cjISFB+B53NLcMOYYhqvDwcIYcIiIiN+OsqSaceExEREQeiSGHiIiIPBJDDhEREXkkhhwiIiLySAw5RERE5JEYcoiIiMgjMeQQERGRR2LIISIiIo/EkENEREQeiSGHiIiIPBJDDhEREXkkhhwiIiLySAw5RERETlRSVYsV286gsFzt6qZ4PIYcIiIiJ/rjB+lYse0shi7b7uqmeDyGHCIiIic6nl/u6iZ4DYYcIiIiJ2ofGeTqJngNhhwiIiIn8uE3r9PwT01EROREfkw5TsO/NBERkRP5KFzdAu/BkENEROREvkw5TsOQQ0RE5ES+HK5yGv6liYiInMiX37xOwz81ERGREynA4SpnYcghIiJyojYhAa5ugtdgyCEiInIizjt2HoYcIiIiJ/JRMOU4i90hZ9euXZg8eTLi4+OhUCiwYcMG4Z5Go8Fzzz2HPn36ICQkBPHx8ZgxYwby8/NFzygpKcH06dMRHh6OyMhIPPLII6isrGzxL0NERNTasSfHeewOOVVVVejXrx9WrVpldq+6uhqZmZlYtGgRMjMz8c033+D06dO44447RPWmT5+O48ePY+vWrdi0aRN27dqFWbNmNf+3ICIichPbThYJ1898fhi5JdUubI1nU+j1en2z36xQYP369ZgyZYrFOgcOHMCQIUNw8eJFJCYm4uTJk+jVqxcOHDiAQYMGAQC2bNmCiRMn4tKlS4iPj7f6ueXl5YiIiEBZWRnCw8Ob23wiIiKn6zR/s+j1jfHh2PzUSBe1xrmc/f3t8Dk5ZWVlUCgUiIyMBADs27cPkZGRQsABgNTUVPj4+CA9PV3yGTU1NSgvLxf9EBEReYLj+fxOcxSHhhy1Wo3nnnsO999/v5DYCgoKEBMTI6rn5+eHqKgoFBQUSD4nLS0NERERwk9CQoIjm01EREQewGEhR6PR4N5774Ver8fbb7/domctWLAAZWVlwk9ubq5MrSQiIiJP5eeIhxoCzsWLF7Fjxw7RuFtsbCyKiopE9evq6lBSUoLY2FjJ5ymVSiiVSkc0lYiIyKGuVdXi7rf3YnLfODxzazdXN8eryN6TYwg4Z8+exbZt2xAdHS26n5KSgtLSUhw8eFAo27FjB3Q6HYYOHSp3c4iIiFzqv3uykFVchZU7zqFO1+y1PtQMdvfkVFZW4ty5c8LrrKwsHD58GFFRUYiLi8M999yDzMxMbNq0CVqtVphnExUVhYCAAPTs2RO33XYbZs6cidWrV0Oj0WDOnDmYNm2aTSuriIiI3ElNnU641mh1TdQkudndk5ORkYHk5GQkJycDAObNm4fk5GQsXrwYeXl5+O6773Dp0iX0798fcXFxws/evXuFZ3zyySfo0aMHxo4di4kTJ2LEiBF499135futiIiIWok6bWPvTaW6zmI9rU6POesyserncxbrkH3s7sm55ZZb0NTWOrZsuxMVFYV169bZ+9FERERuR12nFa6vVNZI1rn1tZ2o0+mRVVyFTb9fxuzRNzireR7NIROPiYiIqJ7xMQ5qjfRw1dkiHm3kCDygk4iIyIFClI39CScuc+M/Z2LIISIicqAOkUHC9aINx1zYEu/DkENERORAGi2XjbsKQw4REZED1ensXzbegrOzAQB5pdexdNMJrz/hnCGHiIjIgZqzAaC2hZsGPvpRBt7fnYU/fiB98LW3YMghIiJyoLpmDFe1dGfkkw0TnLOvsieHiIiIHKROYpfj9kaTkaXoWjhcRfUYcoiIiBzoTKH5HjhtQwOw6PZeFt/T0uEqqseQQ0RE5EBbjheYlfn7+kj28Bg0Y64ySWDIISIicrJr1bVNzrvhcJU8GHKIiIic7PyVKuiaCDlahhxZMOQQERE5iE6nR3ig9DGRTfbkcE6OLBhyiIiIHGTZ9ydRrq6TvOejUEiWA+zJkQtDDhERkYO8vztLsvzpsV3x4LCOFt/H1VXyYMghIiJyMl8fBSKDAyzeZ0eOPBhyiIiInMynYaTqjzdJ9+Y0pyenqqYOl8uut6RZHochh4iIyMl8GlLOP6f0lrzfnDk5Ny3bjpS0HcgrbQw6fj6W5/14A4YcIiIiB7h0zfK5UfcPTmzyvc1ZXVVRUz/BeX/WVaHMlyGHiIiI5HY4t1SyfO/8MWgTYnk+DtCy1VW+Pj5G1ww5REREJDNLS8TbhiqtvtfeYx0KytTCtfEQlW8Ty9S9gfQORURERNQipp0omYtuhZ+vAgF+1vsX7D3WIau4Srg+llfW2AYv78lhyCEiInIA056cyCB/m0OHvaurNEaHfb71y3nhuuy6xq7neBoOVxERETmA6XwYe3pV7J2TE2Vhjg9XVxEREZGs9Hp9i4aK7F1dZannp6nzsbwBQw4REZGM8kuvY/BL2/HQmgM21U9OjAQAKI3m6tibTS4UV9pVf9uJQsxcm4FrVbX2fZCbYcghIiKS0etbz6C4ssbm+h89PATvzRiEoy+MR+e2IQDsn5PzzOdHLN6TetajazOw9UQhlmw6YdfnuBuGHCIiIhmp6+xb/x0e6I9be6kQ4OcDP9/6IS57V1c15evMSxbv5V3z7GMgGHKIiIhkpJXY5GbFff1teq9hRZacp5Cvz8yzeE8Pz56zw5BDREQko++PFpiVWdvh2MCwIqslOx6bat8myOI9T5+XzJBDREQkk+P5ZZLl8RGBNr3fEHL0doSc6tq6Ju8bJjZ7I4YcIiIimVypkJ5w3FUVZtP7FcJwlW2fV1xZg16Lf7StsgR7wpQ7YsghIiKSiaXzqmxl2LxPal6PlG0nCq3WaWp+D4eriIiIyCYtPfXbsFdOjY0rtGzZcLBOq0e5WiMc4qnWaIV7cq7iao14dhUREZFMIoP9W/R+w+GdtTaGHFuObdDq9Oj7wk8AgAPPp4rm8FSom57P4+7Yk0NERCSTlvbkGIa7bO1gseXzNEZDX8fyykS9RG1DbVv15a4YcoiIiGTS0tEfYZ8cGx9kS8jZajRvR6fXi04sT4gKtrOF7oUhh4iISCYtDTm+Dd/Kts6V8bVhovOhnFLhWq3Ridqo0Xr2nByGHCIiIpnsOnulRe839OTYegq5vSedrz8k3v1YY+cRFO6GIYeIiEgmq3eeNyvbMHu4ze83hBZbl3Ybn1xuSmooq3O7EFEvkcbWDXncFEMOERGRTKT6VfonRNr8fnvPrmpqVEsqAL2764LoPbUMOURERGSLuhburtdwCLnNc3JMw1BK52jh2lIvj/E72JNDRERENulu4/ENlghzcmwMOab1+nSIEK4trbwSD1dx4rHIrl27MHnyZMTHx0OhUGDDhg2i+3q9HosXL0ZcXByCgoKQmpqKs2fPiuqUlJRg+vTpCA8PR2RkJB555BFUVla26BchIiJytdReqha938fHvrOrTENOZU2d0T3z+qk9VSarq9iTI1JVVYV+/fph1apVkveXL1+OlStXYvXq1UhPT0dISAjGjx8PtVot1Jk+fTqOHz+OrVu3YtOmTdi1axdmzZrV/N+CiIioFbB1Lo0lvnb25JhmlN8vlQrXJVW1ZvVV4UoYD1jZurOyu7L7WIcJEyZ
      "text/plain": [
       "<Figure size 640x480 with 1 Axes>"
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    }
   ],
   "source": [
    "df1 = pd.read_csv(\"../data/coffee.csv\")\n",
    "df1.info()\n",
    "print(df1.isnull().sum())\n",
    "print(df1.describe())\n",
    "print()\n",
    "print(df1[\"Date\"].value_counts().unique())\n",
    "print()\n",
    "plt.plot(df1[\"Date\"], df1[\"High\"])\n",
    "plt.show()\n"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Данные по всем параметрам являются правильными, без шумов, без выбросов, актуальными."
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Магазины. Каждая строка представляет собой магазин, его площадь, количество продуктов, количество покупателей и объем продаж. Позволяет увидеть изменения количества продаж относительно размеров магазина и количества покупателей. Ключевой признак - количество продаж"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 5,
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "<class 'pandas.core.frame.DataFrame'>\n",
      "RangeIndex: 896 entries, 0 to 895\n",
      "Data columns (total 5 columns):\n",
      " #   Column                Non-Null Count  Dtype\n",
      "---  ------                --------------  -----\n",
      " 0   Store ID              896 non-null    int64\n",
      " 1   Store_Area            896 non-null    int64\n",
      " 2   Items_Available       896 non-null    int64\n",
      " 3   Daily_Customer_Count  896 non-null    int64\n",
      " 4   Store_Sales           896 non-null    int64\n",
      "dtypes: int64(5)\n",
      "memory usage: 35.1 KB\n",
      "Store ID                0\n",
      "Store_Area              0\n",
      "Items_Available         0\n",
      "Daily_Customer_Count    0\n",
      "Store_Sales             0\n",
      "dtype: int64\n",
      "        Store ID    Store_Area  Items_Available  Daily_Customer_Count  \\\n",
      "count  896.000000   896.000000       896.000000            896.000000   \n",
      "mean   448.500000  1485.409598      1782.035714            786.350446   \n",
      "std    258.797218   250.237011       299.872053            265.389281   \n",
      "min      1.000000   775.000000       932.000000             10.000000   \n",
      "25%    224.750000  1316.750000      1575.500000            600.000000   \n",
      "50%    448.500000  1477.000000      1773.500000            780.000000   \n",
      "75%    672.250000  1653.500000      1982.750000            970.000000   \n",
      "max    896.000000  2229.000000      2667.000000           1560.000000   \n",
      "\n",
      "         Store_Sales  \n",
      "count     896.000000  \n",
      "mean    59351.305804  \n",
      "std     17190.741895  \n",
      "min     14920.000000  \n",
      "25%     46530.000000  \n",
      "50%     58605.000000  \n",
      "75%     71872.500000  \n",
      "max    116320.000000  \n",
      "\n"
     ]
    },
    {
     "data": {
      "image/png": "iVBORw0KGgoAAAANSUhEUgAAAkUAAAGdCAYAAAAc+wceAAAAOXRFWHRTb2Z0d2FyZQBNYXRwbG90bGliIHZlcnNpb24zLjkuMiwgaHR0cHM6Ly9tYXRwbG90bGliLm9yZy8hTgPZAAAACXBIWXMAAA9hAAAPYQGoP6dpAACnkklEQVR4nO2deXxU1d3/PzPZE8gkIZJJFEiEIISgbAIxQAsGQVDc+rQsUoo8UJFYQKtIK4qlCmp/BRUUpQpWBapPRdlMmwCKYFgMRghB1gAWMqGQDRKykLm/P4Y7znKXc7dZku/79eKlmTlz77nnnHvvOZ/zXUwcx3EgCIIgCIJo45j9XQGCIAiCIIhAgCZFBEEQBEEQoEkRQRAEQRAEAJoUEQRBEARBAKBJEUEQBEEQBACaFBEEQRAEQQCgSRFBEARBEAQAmhQRBEEQBEEAAEL9XQGjsNvtOH/+PNq3bw+TyeTv6hAEQRAEwQDHcbh8+TJSUlJgNvtWu2m1k6Lz58+jU6dO/q4GQRAEQRAq+PHHH3HTTTf59JytdlLUvn17AI5GjY2N9XNtCIIgCIJgoba2Fp06dXK+x31Jq50U8VtmsbGxNCkiCIIgiCDDH6YvZGhNEARBEAQBFZOinTt34t5770VKSgpMJhM+++wzrzJHjhzBuHHjYLFYEBMTg9tvvx1nz551ft/Q0IBZs2ahQ4cOaNeuHR566CFUVFS4HePs2bMYO3YsoqOj0bFjRzz11FO4du2a8iskCIIgCIJgQPGkqK6uDrfddhtWrFgh+P3JkycxZMgQ9OjRA19++SUOHjyIBQsWIDIy0llm7ty52LRpEz755BN89dVXOH/+PB588EHn9y0tLRg7diyamprwzTff4P3338eaNWvw3HPPqbhEgiAIgiAIeUwcx3Gqf2wyYcOGDbj//vudn40fPx5hYWH44IMPBH9TU1ODG264AWvXrsUvfvELAMAPP/yAnj17orCwEIMHD8YXX3yBe+65B+fPn0dSUhIAYOXKlZg3bx7++9//Ijw8XLZutbW1sFgsqKmpIZsigiAIgggS/Pn+1tWmyG63Y8uWLejevTtGjRqFjh07YtCgQW5bbEVFRWhubkZOTo7zsx49eqBz584oLCwEABQWFqJ3797OCREAjBo1CrW1tTh8+LDguRsbG1FbW+v2jyAIgiAIghVdJ0UXLlzAlStXsGTJEowePRr//ve/8cADD+DBBx/EV199BQCw2WwIDw9HXFyc22+TkpJgs9mcZVwnRPz3/HdCLF68GBaLxfmPYhQRBEEQBKEE3ZUiALjvvvswd+5c9OnTB8888wzuuecerFy5Us9TeTF//nzU1NQ4//3444+Gno8gCIIgiNaFrpOixMREhIaGIiMjw+3znj17Or3PrFYrmpqaUF1d7VamoqICVqvVWcbTG43/my/jSUREhDMmEcUmIgiCIAhCKbpOisLDw3H77bfj6NGjbp8fO3YMXbp0AQD0798fYWFh2LZtm/P7o0eP4uzZs8jKygIAZGVl4dChQ7hw4YKzTH5+PmJjY70mXARBEP6kxc6h8OQlfF58DoUnL6HFrtp3hSAIP6M4ovWVK1dw4sQJ599lZWUoLi5GQkICOnfujKeeegq/+tWvMGzYMAwfPhx5eXnYtGkTvvzySwCAxWLBtGnT8MQTTyAhIQGxsbF4/PHHkZWVhcGDBwMA7rrrLmRkZGDy5Ml45ZVXYLPZ8Oyzz2LWrFmIiIjQ58oJgiA0kldSjhc2laK8psH5WbIlEs/fm4HRmcl+rBlBEGpQ7JL/5ZdfYvjw4V6fT5kyBWvWrAEAvPfee1i8eDH+85//4JZbbsELL7yA++67z1m2oaEBTz75JNatW4fGxkaMGjUKb775ptvW2JkzZzBz5kx8+eWXiImJwZQpU7BkyRKEhrLN48glnyAII8krKcfMDw/A8wHKJyZ46+F+NDEiCBX48/2tKU5RIEOTIoIgjKLFzmHIy9vdFCJXTACslkjsmjcCIWbf528iiGCm1cQpIgiCaAvsK6sUnRABAAegvKYB+8oqfVcpgiA0Q5MigiAIhVy4LD4hUlOOIIjAgCZFBEEQCunYPlK+kIJyBEEEBoq9zwgi2Gmxc9hXVokLlxvQsX0kBqYlkN0HoYiBaQlItkTCVtPgZWgN/GRTNDAtwddVIwhCAzQpItoU5EJN6EGI2YTn783AzA8PwAS4TYz46fXz92bQZJsgggzaPiPaDLwLtaeBrK2mATM/PIC8knI/1YwIRkZnJuOth/vBanHfIrNaIskdnyCCFFKKiDZBi53DC5tKBbc6ODhW9y9sKsXIDCut7glmRmcmY2SGlbZjCaKVQJMiok2gxIU6q2sH31WMCHpCzCYaMwTRSqDtM6JNQC7UBEEQhBw0KSLaBORCTRAEQchBkyKiTcC7UItZepjg8EIjF2qCIIi2C02KiDYB70INwGtiRC7UBEEQBECTIiKAabFzKDx5CZ8Xn0PhyUtosWvLXUwu1ARBEIQU5H1GBCRGBVkkF2qCIAhCDBPHcdqW3wFKbW0tLBYLampqEBsb6+/qEArggyx6Dkx+2kKqDkEQROvFn+9v2j4jAgq5IIuAI8ii1q00giAIgvCEJkVEQKEkyCJBBDt6280RBKENsikiAgoKski0FSg5MUEEHqQUEQEFBVkk2gKUnJggAhOaFBEBBQVZJFo7ZDdHEIELTYqIgCKQgyyS/QehB2Q3RxCBC9kUEQEHH2TR097C6kd7C7L/IPSC7OYIInChSRERkARSkEWxuEm2mgY8+uEBzM1JR2piDAWCJJgguzmCCFxoUkQELCFmE7K6dvBrHVjsP5YWHHd+RuoRIQdvN2eraRAcVwAQHx1GdnME4QfIpoggJJCz//CEvIcIOXi7OSmLtKr6ZuSX2nxWJ4IgHNCkiCAkUGrXQd5DBAsjM6yIiw4T/d4EGkME4Q9oUkQQEqix6yDvIUKOfWWVqK5vFv2exhBB+AeaFBGEBHJxk6Qg7yFCDPJAI4jAhCZFBCGBVNwkOch7iBCDPNAIIjChSRFBiMAHa2y8ZsecnO5IimV7QWmJuk0BItsGFLmdIAITcsknCAGEgjVaYyOcMYlOX6zHsoJjAODmRaQl6jYFiGw78ArkzA8PwAT9xhBBENogpYggPBBL1llR24hlBccREWrG7Jx0vPVwP1gt7uqR1RKJtx7up3gS48sEoaRGBQZ85Ha9xhBBENoxcRyn6Im4c+dOvPrqqygqKkJ5eTk2bNiA+++/X7Dso48+irfffhtLly7FnDlznJ9XVlbi8ccfx6ZNm2A2m/HQQw/htddeQ7t27ZxlDh48iFmzZmH//v244YYb8Pjjj+Ppp59mrmdtbS0sFgtqamoQGxur5BKJNkyLncOQl7eLxiYywfHS2jVvBELMJrTYOc1Rt5WeUwukRgUeeowhgmhN+PP9rVgpqqurw2233YYVK1ZIltuwYQP27NmDlJQUr+8mTZqEw4cPIz8/H5s3b8bOnTsxY8YM5/e1tbW466670KVLFxQVFeHVV1/FwoUL8c477yitLkEoQmmyTj7q9n19bkRW1w6qXma+ShDqSzXKSFqb0qXHGCIIQh8U2xTdfffduPvuuyXLnDt3Do8//jj+9a9/YezYsW7fHTlyBHl5edi/fz8GDBgAAHjjjTcwZswY/OUvf0FKSgo++ugjNDU14b333kN4eDh69eqF4uJi/PWvf3WbPBGE3vjDVdoX55RLV8IHCxyZYQ3olzIpXQRBGInuNkV2ux2TJ0/GU089hV69enl9X1hYiLi4OOeECABycnJgNpuxd+9eZ5lhw4YhPDzcWWbUqFE4evQoqqqqBM/b2NiI2tpat38EoRR/uEr74py+UqOMpDUoXa1N5SKI1obu3mcvv/wyQkND8bvf/U7we5vNho4dO7pXIjQUCQkJsNlszjJpaWluZZKSkpzfxcfHex138eLFeOGFF/S4BKINI5esk7fv0dNV2hfnDPZgga1B6SKViyACH12VoqKiIrz22mtYs2YNTCbfPpjmz5+Pmpoa578ff/zRp+cnWgdSwRqNcpX2xTmDPVhgsCt
      "text/plain": [
       "<Figure size 640x480 with 1 Axes>"
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    }
   ],
   "source": [
    "df2 = pd.read_csv(\"../data/store.csv\")\n",
    "df2.info()\n",
    "print(df2.isnull().sum())\n",
    "print(df2.describe())\n",
    "print()\n",
    "\n",
    "\n",
    "\n",
    "plt.scatter(df2[\"Store_Sales\"], df2[\"Daily_Customer_Count\"])\n",
    "plt.show()"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Данные имеют некоторое количество выбросов, что видно на графике."
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Оценки студентов. Показывает оценки конкретного студента. Аналитика относительно гендера, расы, уровня образования родителей. Поможет для онлайн-школ для опредения контенгента покупателей курсов. Ключевыми значениями являются оценки по предметам."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 6,
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "<class 'pandas.core.frame.DataFrame'>\n",
      "RangeIndex: 1000 entries, 0 to 999\n",
      "Data columns (total 8 columns):\n",
      " #   Column                       Non-Null Count  Dtype \n",
      "---  ------                       --------------  ----- \n",
      " 0   gender                       1000 non-null   object\n",
      " 1   race/ethnicity               1000 non-null   object\n",
      " 2   parental level of education  1000 non-null   object\n",
      " 3   lunch                        1000 non-null   object\n",
      " 4   test preparation course      1000 non-null   object\n",
      " 5   math score                   1000 non-null   int64 \n",
      " 6   reading score                1000 non-null   int64 \n",
      " 7   writing score                1000 non-null   int64 \n",
      "dtypes: int64(3), object(5)\n",
      "memory usage: 62.6+ KB\n",
      "   gender race/ethnicity parental level of education         lunch  \\\n",
      "0  female        group B           bachelor's degree      standard   \n",
      "1  female        group C                some college      standard   \n",
      "2  female        group B             master's degree      standard   \n",
      "3    male        group A          associate's degree  free/reduced   \n",
      "4    male        group C                some college      standard   \n",
      "\n",
      "  test preparation course  math score  reading score  writing score      score  \n",
      "0                    none          72             72             74  72.666667  \n",
      "1               completed          69             90             88  82.333333  \n",
      "2                    none          90             95             93  92.666667  \n",
      "3                    none          47             57             44  49.333333  \n",
      "4                    none          76             78             75  76.333333  \n",
      "gender                         0\n",
      "race/ethnicity                 0\n",
      "parental level of education    0\n",
      "lunch                          0\n",
      "test preparation course        0\n",
      "math score                     0\n",
      "reading score                  0\n",
      "writing score                  0\n",
      "score                          0\n",
      "dtype: int64\n",
      "       math score  reading score  writing score        score\n",
      "count  1000.00000    1000.000000    1000.000000  1000.000000\n",
      "mean     66.08900      69.169000      68.054000    67.770667\n",
      "std      15.16308      14.600192      15.195657    14.257326\n",
      "min       0.00000      17.000000      10.000000     9.000000\n",
      "25%      57.00000      59.000000      57.750000    58.333333\n",
      "50%      66.00000      70.000000      69.000000    68.333333\n",
      "75%      77.00000      79.000000      79.000000    77.666667\n",
      "max     100.00000     100.000000     100.000000   100.000000\n",
      "\n"
     ]
    },
    {
     "data": {
      "image/png": "iVBORw0KGgoAAAANSUhEUgAAAo8AAAGdCAYAAABzZpl2AAAAOXRFWHRTb2Z0d2FyZQBNYXRwbG90bGliIHZlcnNpb24zLjkuMiwgaHR0cHM6Ly9tYXRwbG90bGliLm9yZy8hTgPZAAAACXBIWXMAAA9hAAAPYQGoP6dpAABn4UlEQVR4nO3deXQUVdrH8W93tk5nT4AkQAhBMRABMQKKKOgABp3BBUdnFBVUUGdEYBQVXIAIGFFgFB1B4wyL4r7wogPIIgyIyCqbiQEhENTEICH7nu73j0x6aLJVoLMAv885fQ7punXvc+tW3X6orq4y2e12OyIiIiIiBpibOwAREREROXsoeRQRERERw5Q8ioiIiIhhSh5FRERExDAljyIiIiJimJJHERERETFMyaOIiIiIGKbkUUREREQMc2/uAOTcYrPZ+OWXX/Dz88NkMjV3OCIiImKA3W4nLy+Ptm3bYjbXfW5RyaO41C+//EJERERzhyEiIiKn4ejRo7Rv377OMkoexaX8/PyAyp3P39+/maMRERERI3Jzc4mIiHB8jtdFyaO4VNVX1f7+/koeRUREzjJGLjnTD2ZERERExDAljyIiIiJimJJHERERETFMyaOIiIiIGKbkUUREREQMU/IoIiIiIoYpeRQRERERw5Q8ioiIiIhh5+1Nwq+55hp69uzJyy+/XGsZk8nEZ599xs0332yozvXr13Pttddy4sQJAgMDXRJnXRYuXMj48ePJzs5u1HZGjhxJdnY2S5cubdR26lJhs7M1NYvMvGLa+FnoExWMm1nPzj5dpeU23t58mCNZhUQGW7m7b0c83Rv+f8m6xsVVY3Y69VStk5FTRFZBKcG+XoT5V1/XUS63mKz8EoJ9PAkL8K613MkxAI73Wvl6gR0ycovZdfQEAB2CrXQJ8yersJQ2fhYuiwxix5ETtfaj3jZ8vMAE6dlFrNj7C/vSc8EObQMtdA0PIKqVL13C/MjMLWbXT9nY7GA2waURQYQHejvq+zrlGG9+fYic4jLC/C0M7tqG3OJysovKMGGi7wUhxHYI4t0tRziSVUi7QG9MdjiaXQhAz4gg2gZ6V+vPZZFBbEvNYvOh37ADgd6etPL1pI2fBUxwNKuQf319iJyiMtzMJtr4eeJmdiPQ6kErX09+zCzA4uFGx1ZWrosJ43h+KTvSsvg1twRfL3diwvwJ8fUkq7CU7KIy+G8bwVYPsgrLyC4qxQT07dSKKy4IcWy7jJwijuWVkJSeS35JGdihtb8Fd7OJSyOCCPHxZHXyrxw+XoCnGX7NKyGnqII2/p7c3iuCnKIykn/Jo6C0nFB/Cz0jAvktv4SNB46RXVSGl5uZ6DA/zCYTecVlFJaWY8eE2WTC28OMn5cHmE3VxqLCZmfhplRWJWVQYbMT5ONB2wArHYKt2IG0rEIyc4sJtLqz+WAW5RV22gZa+F2XNvyaV4LdbsfP2wO7HfKLyzGZTHQMqTyWK2x2nl+exKFjBRSVVRBo9cDqaeanrEJ+OlGCxcON4X0iGHlVJ3YeOcHmQ79hs0FucRnldhu/5ZaQVViG2WRicEwb7u3XyVHnj8fyOZ5XQitfT6Ja+3JdTBhZBaWO4yzY24PVyRkc+q2AkjIb0WF+RAR781NWEWkniugYYuVvg6L5+5oUDh8vpGOIladuiMHb063G47Fq/8nI+d+x1THEp845q6b5zc1savS5qi5nMo+1xM89k91utzd3EM3BSPKYkZFBUFAQXl5ehupU8lj5eKOAgABycnJc9oSZlfvSif88ifScYsd74QEWpgyNYUi3cJe0cT5JWJ5E4sZUbCcd+WYTjL46ikk3xBiup65xAVwyZqcz9jWtU9O6Z1Iu0OoBQHZhmeG+mE04bfPGaKMugVYP8ovLKbe5Zso/tT8moKV8mFg93fB0N7ts27ma1dONwtKK5g6jRenR3p9jeaU1Ho81qW3Oqml+M5nA28N5m7t6rqqLq+axxv7ca8jnt5LHOpLHhlLy6PrkceW+dP7yzs5qH0pV//ead1esEsgGSFiexBsbUmtd/mB/YwlkXeNS24TS0DE7nbGvbZ1T13+gfxRvbkh1SbnTVdWPxmxD5Fx38pxV3/x2MlfOVXVx5TzW2J97Dfn8dvk1jx9//DHdu3fH29ubkJAQBg0aREFBAQA2m43nnnuO9u3b4+XlRc+ePVm5cqVj3cOHD2Mymfjwww+5+uqr8fb2pnfv3uzfv59t27bRq1cvfH19uf766zl27JhTu2+99RZdu3bFYrHQpUsXXn/99XpjtdlsPPHEEwQHBxMWFsbUqVOdlptMJqeE6ZtvvqFnz55YLBZ69erF0qVLMZlM7Nq1y2m9HTt20KtXL6xWK1deeSUpKSm1xlBaWsqYMWMIDw/HYrEQGRlJQkKCY3l2djYPPvggoaGhWCwWunXrxhdffOFUx5dffknXrl3x9fVlyJAhpKenO/Wxrm0OsHfvXn73u985xuyBBx4gPz+/3u3X2CpsduI/T6rxAK96L/7zJCpcdCblXFdabiNxY90Ta+LGVErLbXWWMTIuNWnImJ3O2Ne1zqnrJ26sP1kzWu50VdXbmG2InOuq5iwj89vJXDVX1cXV81hL+txzafKYnp7OHXfcwX333UdycjLr169n2LBhVJ3cfOWVV5g9ezazZs1iz549xMXFceONN3LgwAGneqZMmcIzzzzDzp07cXd358477+SJJ57glVdeYePGjfz4449MnjzZUX7JkiVMnjyZGTNmkJyczPPPP8+zzz7LokWL6ox30aJF+Pj4sGXLFl588UWee+45Vq9eXWPZ3Nxchg4dSvfu3dm5cyfTpk3jySefrLHs008/zezZs9m+fTvu7u7cd999tcYwd+5cli1bxocffkhKSgpLliyhY8eOQGXid/3117Np0ybeeecdkpKSeOGFF3Bzc3OsX1hYyKxZs3j77bfZsGEDaWlpTJgwwbG8vm1eUFBAXFwcQUFBbNu2jY8++og1a9YwZsyYOrddlZKSEnJzc51errI1NavOrzDsQHpOMVtTs1zW5rns7c2HqW++sdkry9WlvnGpi9ExO52xb0hcRufdxp6f7U3Qhsi5rGrOMjK/NYQrPl8aYx5rKZ97Lv3BTHp6OuXl5QwbNozIyEgAunfv7lg+a9YsnnzySf785z8DMHPmTNatW8fLL7/MP/7xD0e5CRMmEBcXB8C4ceO44447WLt2Lf369QPg/vvvZ+HChY7yU6ZMYfbs2QwbNgyAqKgokpKSeOONNxgxYkSt8fbo0YMpU6YA0LlzZ1577TXWrl3L4MGDq5V99913MZlMJCYmYrFYiImJ4eeff2b06NHVys6YMYMBAwYAMHHiRH7/+99TXFyMxWKpVjYtLY3OnTtz1VVXYTKZHNsNYM2aNWzdupXk5GQuuugiADp16uS0fllZGfPnz+eCCy4AYMyYMTz33HOO5fVt83fffZfi4mIWL16Mj48PAK+99hpDhw5l5syZhIaG1rr9ABISEoiPj6+zzOnKzDOWCBgtd747klXoknKu2N711XE6Y6/9QOT8ZHRuOx1nMq805jzW3POdS888XnLJJQwcOJDu3btz2223kZiYyIkTlb+Oys3N5ZdffnEkgFX69etHcnKy03s9evRw/LsqeTk5CQ0NDSUzMxOoPHN28OBB7r//fnx9fR2v6dOnc/DgwTrjPbkdgPDwcEe9p0pJSaFHjx5OCWCfPn3qrTc8vPK6hNrqHTlyJLt27SI6OpqxY8eyatUqx7Jdu3bRvn17R+JYE6vV6kgcT+2DkW2enJzMJZdc4kgcq5bbbLY6v26vMmnSJHJychyvo0eP1ruOUW38qifbZ1LufBcZbHVJOVds7/rqOJ2x134gcn6KDLYant8a6kzmlcacx5p7vnNp8ujm5sbq1atZsWIFMTExvPrqq0RHR5Oaavw6BAAPDw/Hv00mU43v2WyV12VVXZuXmJjIrl27HK99+/bx7bffGm7n1HrPRE3x11ZvbGwsqampTJs2jaKiIm6//Xb++Mc/AuDt7d2gtqraa8rfQHl5eeHv7+/0cpU+UcGEB1io7cYEJip/fVZ
      "text/plain": [
       "<Figure size 640x480 with 1 Axes>"
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    }
   ],
   "source": [
    "df3 = pd.read_csv(\"../data/student.csv\")\n",
    "df3.info()\n",
    "df3[\"score\"] = (df3[\"math score\"] + df3[\"reading score\"] + df3[\"writing score\"]) / 3\n",
    "print(df3.head())\n",
    "print(df3.isnull().sum())\n",
    "print(df3.describe())\n",
    "print()\n",
    "plt.scatter(df3[\"score\"], df3[\"parental level of education\"])\n",
    "plt.show()\n"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Для всех выбранных тем отсутствуют пустые ячейки. Заполнение пустых ячеек не требуется. Данные вполне реальные."
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Разбиение наборов на выборки."
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Акции старбакс."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 63,
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "Обучающая выборка:  (4821, 4)\n",
      "Volume_Grouped\n",
      " 0    2802\n",
      " 1    1460\n",
      " 2     369\n",
      " 3     111\n",
      " 4      40\n",
      " 5      18\n",
      "-1      10\n",
      " 6       7\n",
      " 7       4\n",
      "Name: count, dtype: int64\n"
     ]
    },
    {
     "ename": "RuntimeError",
     "evalue": "Not any neigbours belong to the majority class. This case will induce a NaN case with a division by zero. ADASYN is not suited for this specific dataset. Use SMOTE instead.",
     "output_type": "error",
     "traceback": [
      "\u001b[1;31m---------------------------------------------------------------------------\u001b[0m",
      "\u001b[1;31mRuntimeError\u001b[0m                              Traceback (most recent call last)",
      "Cell \u001b[1;32mIn[63], line 18\u001b[0m\n\u001b[0;32m     15\u001b[0m \u001b[38;5;28mprint\u001b[39m(\u001b[38;5;124m\"\u001b[39m\u001b[38;5;124mОбучающая выборка: \u001b[39m\u001b[38;5;124m\"\u001b[39m, df_coffee_train\u001b[38;5;241m.\u001b[39mshape)\n\u001b[0;32m     16\u001b[0m \u001b[38;5;28mprint\u001b[39m(df_coffee_train[\u001b[38;5;124m\"\u001b[39m\u001b[38;5;124mVolume_Grouped\u001b[39m\u001b[38;5;124m\"\u001b[39m]\u001b[38;5;241m.\u001b[39mvalue_counts())\n\u001b[1;32m---> 18\u001b[0m X_resampled, y_resampled \u001b[38;5;241m=\u001b[39m \u001b[43mada\u001b[49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43mfit_resample\u001b[49m\u001b[43m(\u001b[49m\u001b[43mdf_coffee_train\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[43mdf_coffee_train\u001b[49m\u001b[43m[\u001b[49m\u001b[38;5;124;43m\"\u001b[39;49m\u001b[38;5;124;43mVolume_Grouped\u001b[39;49m\u001b[38;5;124;43m\"\u001b[39;49m\u001b[43m]\u001b[49m\u001b[43m)\u001b[49m\n\u001b[0;32m     19\u001b[0m df_coffee_train_adasyn \u001b[38;5;241m=\u001b[39m pd\u001b[38;5;241m.\u001b[39mDataFrame(X_resampled)\n\u001b[0;32m     21\u001b[0m \u001b[38;5;28mprint\u001b[39m(\u001b[38;5;124m\"\u001b[39m\u001b[38;5;124mОбучающая выборка после oversampling: \u001b[39m\u001b[38;5;124m\"\u001b[39m, df_coffee_train_adasyn\u001b[38;5;241m.\u001b[39mshape)\n",
      "File \u001b[1;32mc:\\Users\\89176\\sourse\\MII\\Labas\\AIM-PIbd-31-Kozyrev-S-S\\aimvenv\\Lib\\site-packages\\imblearn\\base.py:208\u001b[0m, in \u001b[0;36mBaseSampler.fit_resample\u001b[1;34m(self, X, y)\u001b[0m\n\u001b[0;32m    187\u001b[0m \u001b[38;5;250m\u001b[39m\u001b[38;5;124;03m\"\"\"Resample the dataset.\u001b[39;00m\n\u001b[0;32m    188\u001b[0m \n\u001b[0;32m    189\u001b[0m \u001b[38;5;124;03mParameters\u001b[39;00m\n\u001b[1;32m   (...)\u001b[0m\n\u001b[0;32m    205\u001b[0m \u001b[38;5;124;03m    The corresponding label of `X_resampled`.\u001b[39;00m\n\u001b[0;32m    206\u001b[0m \u001b[38;5;124;03m\"\"\"\u001b[39;00m\n\u001b[0;32m    207\u001b[0m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39m_validate_params()\n\u001b[1;32m--> 208\u001b[0m \u001b[38;5;28;01mreturn\u001b[39;00m \u001b[38;5;28;43msuper\u001b[39;49m\u001b[43m(\u001b[49m\u001b[43m)\u001b[49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43mfit_resample\u001b[49m\u001b[43m(\u001b[49m\u001b[43mX\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[43my\u001b[49m\u001b[43m)\u001b[49m\n",
      "File \u001b[1;32mc:\\Users\\89176\\sourse\\MII\\Labas\\AIM-PIbd-31-Kozyrev-S-S\\aimvenv\\Lib\\site-packages\\imblearn\\base.py:112\u001b[0m, in \u001b[0;36mSamplerMixin.fit_resample\u001b[1;34m(self, X, y)\u001b[0m\n\u001b[0;32m    106\u001b[0m X, y, binarize_y \u001b[38;5;241m=\u001b[39m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39m_check_X_y(X, y)\n\u001b[0;32m    108\u001b[0m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39msampling_strategy_ \u001b[38;5;241m=\u001b[39m check_sampling_strategy(\n\u001b[0;32m    109\u001b[0m     \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39msampling_strategy, y, \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39m_sampling_type\n\u001b[0;32m    110\u001b[0m )\n\u001b[1;32m--> 112\u001b[0m output \u001b[38;5;241m=\u001b[39m \u001b[38;5;28;43mself\u001b[39;49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43m_fit_resample\u001b[49m\u001b[43m(\u001b[49m\u001b[43mX\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[43my\u001b[49m\u001b[43m)\u001b[49m\n\u001b[0;32m    114\u001b[0m y_ \u001b[38;5;241m=\u001b[39m (\n\u001b[0;32m    115\u001b[0m     label_binarize(output[\u001b[38;5;241m1\u001b[39m], classes\u001b[38;5;241m=\u001b[39mnp\u001b[38;5;241m.\u001b[39munique(y)) \u001b[38;5;28;01mif\u001b[39;00m binarize_y \u001b[38;5;28;01melse\u001b[39;00m output[\u001b[38;5;241m1\u001b[39m]\n\u001b[0;32m    116\u001b[0m )\n\u001b[0;32m    118\u001b[0m X_, y_ \u001b[38;5;241m=\u001b[39m arrays_transformer\u001b[38;5;241m.\u001b[39mtransform(output[\u001b[38;5;241m0\u001b[39m], y_)\n",
      "File \u001b[1;32mc:\\Users\\89176\\sourse\\MII\\Labas\\AIM-PIbd-31-Kozyrev-S-S\\aimvenv\\Lib\\site-packages\\imblearn\\over_sampling\\_adasyn.py:183\u001b[0m, in \u001b[0;36mADASYN._fit_resample\u001b[1;34m(self, X, y)\u001b[0m\n\u001b[0;32m    181\u001b[0m ratio_nn \u001b[38;5;241m=\u001b[39m np\u001b[38;5;241m.\u001b[39msum(y[nns] \u001b[38;5;241m!=\u001b[39m class_sample, axis\u001b[38;5;241m=\u001b[39m\u001b[38;5;241m1\u001b[39m) \u001b[38;5;241m/\u001b[39m n_neighbors\n\u001b[0;32m    182\u001b[0m \u001b[38;5;28;01mif\u001b[39;00m \u001b[38;5;129;01mnot\u001b[39;00m np\u001b[38;5;241m.\u001b[39msum(ratio_nn):\n\u001b[1;32m--> 183\u001b[0m     \u001b[38;5;28;01mraise\u001b[39;00m \u001b[38;5;167;01mRuntimeError\u001b[39;00m(\n\u001b[0;32m    184\u001b[0m         \u001b[38;5;124m\"\u001b[39m\u001b[38;5;124mNot any neigbours belong to the majority\u001b[39m\u001b[38;5;124m\"\u001b[39m\n\u001b[0;32m    185\u001b[0m         \u001b[38;5;124m\"\u001b[39m\u001b[38;5;124m class. This case will induce a NaN case\u001b[39m\u001b[38;5;124m\"\u001b[39m\n\u001b[0;32m    186\u001b[0m         \u001b[38;5;124m\"\u001b[39m\u001b[38;5;124m with a division by zero. ADASYN is not\u001b[39m\u001b[38;5;124m\"\u001b[39m\n\u001b[0;32m    187\u001b[0m         \u001b[38;5;124m\"\u001b[39m\u001b[38;5;124m suited for this specific dataset.\u001b[39m\u001b[38;5;124m\"\u001b[39m\n\u001b[0;32m    188\u001b[0m         \u001b[38;5;124m\"\u001b[39m\u001b[38;5;124m Use SMOTE instead.\u001b[39m\u001b[38;5;124m\"\u001b[39m\n\u001b[0;32m    189\u001b[0m     )\n\u001b[0;32m    190\u001b[0m ratio_nn \u001b[38;5;241m/\u001b[39m\u001b[38;5;241m=\u001b[39m np\u001b[38;5;241m.\u001b[39msum(ratio_nn)\n\u001b[0;32m    191\u001b[0m n_samples_generate \u001b[38;5;241m=\u001b[39m np\u001b[38;5;241m.\u001b[39mrint(ratio_nn \u001b[38;5;241m*\u001b[39m n_samples)\u001b[38;5;241m.\u001b[39mastype(\u001b[38;5;28mint\u001b[39m)\n",
      "\u001b[1;31mRuntimeError\u001b[0m: Not any neigbours belong to the majority class. This case will induce a NaN case with a division by zero. ADASYN is not suited for this specific dataset. Use SMOTE instead."
     ]
    }
   ],
   "source": [
    "data = df1[[\"Volume\", \"High\", \"Low\"]].copy()\n",
    "data[\"Volume_Grouped\"] = pd.cut(data[\"Volume\"], bins=50, labels=False)\n",
    "\n",
    "interval_counts = data[\"Volume_Grouped\"].value_counts().sort_index()\n",
    "\n",
    "min_samples_per_interval = 5\n",
    "for interval, count in interval_counts.items():\n",
    "    if count < min_samples_per_interval:\n",
    "        data.loc[data[\"Volume_Grouped\"] == interval, \"Volume_Grouped\"] = -1\n",
    "\n",
    "\n",
    "df_coffee_train, df_coffee_val, df_coffee_test = split_stratified_into_train_val_test(\n",
    "    data, stratify_colname=\"Volume_Grouped\", frac_train=0.60, frac_val=0.20, frac_test=0.20)\n",
    "\n",
    "print(\"Обучающая выборка: \", df_coffee_train.shape)\n",
    "print(df_coffee_train[\"Volume_Grouped\"].value_counts())\n",
    "\n",
    "X_resampled, y_resampled = ada.fit_resample(df_coffee_train, df_coffee_train[\"Volume_Grouped\"])\n",
    "df_coffee_train_adasyn = pd.DataFrame(X_resampled)\n",
    "\n",
    "print(\"Обучающая выборка после oversampling: \", df_coffee_train_adasyn.shape)\n",
    "print(df_coffee_train_adasyn.Pclass.value_counts())\n",
    "\n",
    "print(\"Контрольная выборка: \", df_coffee_val.shape)\n",
    "print(df_coffee_val[\"Volume_Grouped\"].value_counts())\n",
    "\n",
    "print(\"Тестовая выборка: \", df_coffee_test.shape)\n",
    "print(df_coffee_test[\"Volume_Grouped\"].value_counts())"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Магазины"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 46,
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "Обучающая выборка:  (537, 4)\n",
      "Sales_Grouped\n",
      " 2    184\n",
      " 3    148\n",
      " 1    135\n",
      " 4     45\n",
      " 0     20\n",
      "-1      5\n",
      "Name: count, dtype: int64\n",
      "Контрольная выборка:  (179, 4)\n",
      "Sales_Grouped\n",
      " 2    61\n",
      " 3    49\n",
      " 1    45\n",
      " 4    15\n",
      " 0     7\n",
      "-1     2\n",
      "Name: count, dtype: int64\n",
      "Тестовая выборка:  (180, 4)\n",
      "Sales_Grouped\n",
      " 2    61\n",
      " 3    50\n",
      " 1    45\n",
      " 4    15\n",
      " 0     7\n",
      "-1     2\n",
      "Name: count, dtype: int64\n"
     ]
    }
   ],
   "source": [
    "data = df2[[\"Store_Sales\", \"Store_Area\", \"Daily_Customer_Count\"]].copy()\n",
    "data[\"Sales_Grouped\"] = pd.cut(data[\"Store_Sales\"], bins=6, labels=False)\n",
    "\n",
    "interval_counts = data[\"Sales_Grouped\"].value_counts().sort_index()\n",
    "\n",
    "min_samples_per_interval = 10\n",
    "for interval, count in interval_counts.items():\n",
    "    if count < min_samples_per_interval:\n",
    "        data.loc[data[\"Sales_Grouped\"] == interval, \"Sales_Grouped\"] = -1\n",
    "\n",
    "df_shop_train, df_shop_val, df_shop_test = split_stratified_into_train_val_test(\n",
    "    data, stratify_colname=\"Sales_Grouped\", frac_train=0.60, frac_val=0.20, frac_test=0.20)\n",
    "\n",
    "\n",
    "print(\"Обучающая выборка: \", df_shop_train.shape)\n",
    "print(df_shop_train[\"Sales_Grouped\"].value_counts())\n",
    "\n",
    "X_resampled, y_resampled = ada.fit_resample(df_mark_train, df_mark_train[\"score_grouped\"])\n",
    "df_mark_train_adasyn = pd.DataFrame(X_resampled)\n",
    "\n",
    "print(\"Обучающая выборка после oversampling: \", df_mark_train_adasyn.shape)\n",
    "print(df_mark_train_adasyn.Pclass.value_counts())\n",
    "\n",
    "print(\"Контрольная выборка: \", df_shop_val.shape)\n",
    "print(df_shop_val[\"Sales_Grouped\"].value_counts())\n",
    "\n",
    "print(\"Тестовая выборка: \", df_shop_test.shape)\n",
    "print(df_shop_test[\"Sales_Grouped\"].value_counts())"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Оценки студентов"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 58,
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "Обучающая выборка:  (600, 4)\n",
      "score_grouped\n",
      " 3    283\n",
      " 2    181\n",
      " 4    101\n",
      " 1     31\n",
      "-1      4\n",
      "Name: count, dtype: int64\n"
     ]
    },
    {
     "ename": "ValueError",
     "evalue": "Expected n_neighbors <= n_samples_fit, but n_neighbors = 6, n_samples_fit = 4, n_samples = 4",
     "output_type": "error",
     "traceback": [
      "\u001b[1;31m---------------------------------------------------------------------------\u001b[0m",
      "\u001b[1;31mValueError\u001b[0m                                Traceback (most recent call last)",
      "Cell \u001b[1;32mIn[58], line 23\u001b[0m\n\u001b[0;32m     20\u001b[0m \u001b[38;5;28mprint\u001b[39m(\u001b[38;5;124m\"\u001b[39m\u001b[38;5;124mОбучающая выборка: \u001b[39m\u001b[38;5;124m\"\u001b[39m, df_mark_train\u001b[38;5;241m.\u001b[39mshape)\n\u001b[0;32m     21\u001b[0m \u001b[38;5;28mprint\u001b[39m(df_mark_train[\u001b[38;5;124m\"\u001b[39m\u001b[38;5;124mscore_grouped\u001b[39m\u001b[38;5;124m\"\u001b[39m]\u001b[38;5;241m.\u001b[39mvalue_counts())\n\u001b[1;32m---> 23\u001b[0m X_resampled, y_resampled \u001b[38;5;241m=\u001b[39m \u001b[43mada\u001b[49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43mfit_resample\u001b[49m\u001b[43m(\u001b[49m\u001b[43mdf_mark_train\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[43mdf_mark_train\u001b[49m\u001b[43m[\u001b[49m\u001b[38;5;124;43m\"\u001b[39;49m\u001b[38;5;124;43mscore_grouped\u001b[39;49m\u001b[38;5;124;43m\"\u001b[39;49m\u001b[43m]\u001b[49m\u001b[43m)\u001b[49m\n\u001b[0;32m     24\u001b[0m df_mark_train_adasyn \u001b[38;5;241m=\u001b[39m pd\u001b[38;5;241m.\u001b[39mDataFrame(X_resampled)\n\u001b[0;32m     26\u001b[0m \u001b[38;5;28mprint\u001b[39m(\u001b[38;5;124m\"\u001b[39m\u001b[38;5;124mОбучающая выборка после oversampling: \u001b[39m\u001b[38;5;124m\"\u001b[39m, df_mark_train_adasyn\u001b[38;5;241m.\u001b[39mshape)\n",
      "File \u001b[1;32mc:\\Users\\89176\\sourse\\MII\\Labas\\AIM-PIbd-31-Kozyrev-S-S\\aimvenv\\Lib\\site-packages\\imblearn\\base.py:208\u001b[0m, in \u001b[0;36mBaseSampler.fit_resample\u001b[1;34m(self, X, y)\u001b[0m\n\u001b[0;32m    187\u001b[0m \u001b[38;5;250m\u001b[39m\u001b[38;5;124;03m\"\"\"Resample the dataset.\u001b[39;00m\n\u001b[0;32m    188\u001b[0m \n\u001b[0;32m    189\u001b[0m \u001b[38;5;124;03mParameters\u001b[39;00m\n\u001b[1;32m   (...)\u001b[0m\n\u001b[0;32m    205\u001b[0m \u001b[38;5;124;03m    The corresponding label of `X_resampled`.\u001b[39;00m\n\u001b[0;32m    206\u001b[0m \u001b[38;5;124;03m\"\"\"\u001b[39;00m\n\u001b[0;32m    207\u001b[0m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39m_validate_params()\n\u001b[1;32m--> 208\u001b[0m \u001b[38;5;28;01mreturn\u001b[39;00m \u001b[38;5;28;43msuper\u001b[39;49m\u001b[43m(\u001b[49m\u001b[43m)\u001b[49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43mfit_resample\u001b[49m\u001b[43m(\u001b[49m\u001b[43mX\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[43my\u001b[49m\u001b[43m)\u001b[49m\n",
      "File \u001b[1;32mc:\\Users\\89176\\sourse\\MII\\Labas\\AIM-PIbd-31-Kozyrev-S-S\\aimvenv\\Lib\\site-packages\\imblearn\\base.py:112\u001b[0m, in \u001b[0;36mSamplerMixin.fit_resample\u001b[1;34m(self, X, y)\u001b[0m\n\u001b[0;32m    106\u001b[0m X, y, binarize_y \u001b[38;5;241m=\u001b[39m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39m_check_X_y(X, y)\n\u001b[0;32m    108\u001b[0m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39msampling_strategy_ \u001b[38;5;241m=\u001b[39m check_sampling_strategy(\n\u001b[0;32m    109\u001b[0m     \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39msampling_strategy, y, \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39m_sampling_type\n\u001b[0;32m    110\u001b[0m )\n\u001b[1;32m--> 112\u001b[0m output \u001b[38;5;241m=\u001b[39m \u001b[38;5;28;43mself\u001b[39;49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43m_fit_resample\u001b[49m\u001b[43m(\u001b[49m\u001b[43mX\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[43my\u001b[49m\u001b[43m)\u001b[49m\n\u001b[0;32m    114\u001b[0m y_ \u001b[38;5;241m=\u001b[39m (\n\u001b[0;32m    115\u001b[0m     label_binarize(output[\u001b[38;5;241m1\u001b[39m], classes\u001b[38;5;241m=\u001b[39mnp\u001b[38;5;241m.\u001b[39munique(y)) \u001b[38;5;28;01mif\u001b[39;00m binarize_y \u001b[38;5;28;01melse\u001b[39;00m output[\u001b[38;5;241m1\u001b[39m]\n\u001b[0;32m    116\u001b[0m )\n\u001b[0;32m    118\u001b[0m X_, y_ \u001b[38;5;241m=\u001b[39m arrays_transformer\u001b[38;5;241m.\u001b[39mtransform(output[\u001b[38;5;241m0\u001b[39m], y_)\n",
      "File \u001b[1;32mc:\\Users\\89176\\sourse\\MII\\Labas\\AIM-PIbd-31-Kozyrev-S-S\\aimvenv\\Lib\\site-packages\\imblearn\\over_sampling\\_adasyn.py:202\u001b[0m, in \u001b[0;36mADASYN._fit_resample\u001b[1;34m(self, X, y)\u001b[0m\n\u001b[0;32m    199\u001b[0m \u001b[38;5;66;03m# the nearest neighbors need to be fitted only on the current class\u001b[39;00m\n\u001b[0;32m    200\u001b[0m \u001b[38;5;66;03m# to find the class NN to generate new samples\u001b[39;00m\n\u001b[0;32m    201\u001b[0m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39mnn_\u001b[38;5;241m.\u001b[39mfit(X_class)\n\u001b[1;32m--> 202\u001b[0m nns \u001b[38;5;241m=\u001b[39m \u001b[38;5;28;43mself\u001b[39;49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43mnn_\u001b[49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43mkneighbors\u001b[49m\u001b[43m(\u001b[49m\u001b[43mX_class\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[43mreturn_distance\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[38;5;28;43;01mFalse\u001b[39;49;00m\u001b[43m)\u001b[49m[:, \u001b[38;5;241m1\u001b[39m:]\n\u001b[0;32m    204\u001b[0m enumerated_class_indices \u001b[38;5;241m=\u001b[39m np\u001b[38;5;241m.\u001b[39marange(\u001b[38;5;28mlen\u001b[39m(target_class_indices))\n\u001b[0;32m    205\u001b[0m rows \u001b[38;5;241m=\u001b[39m np\u001b[38;5;241m.\u001b[39mrepeat(enumerated_class_indices, n_samples_generate)\n",
      "File \u001b[1;32mc:\\Users\\89176\\sourse\\MII\\Labas\\AIM-PIbd-31-Kozyrev-S-S\\aimvenv\\Lib\\site-packages\\sklearn\\neighbors\\_base.py:834\u001b[0m, in \u001b[0;36mKNeighborsMixin.kneighbors\u001b[1;34m(self, X, n_neighbors, return_distance)\u001b[0m\n\u001b[0;32m    832\u001b[0m     \u001b[38;5;28;01melse\u001b[39;00m:\n\u001b[0;32m    833\u001b[0m         inequality_str \u001b[38;5;241m=\u001b[39m \u001b[38;5;124m\"\u001b[39m\u001b[38;5;124mn_neighbors <= n_samples_fit\u001b[39m\u001b[38;5;124m\"\u001b[39m\n\u001b[1;32m--> 834\u001b[0m     \u001b[38;5;28;01mraise\u001b[39;00m \u001b[38;5;167;01mValueError\u001b[39;00m(\n\u001b[0;32m    835\u001b[0m         \u001b[38;5;124mf\u001b[39m\u001b[38;5;124m\"\u001b[39m\u001b[38;5;124mExpected \u001b[39m\u001b[38;5;132;01m{\u001b[39;00minequality_str\u001b[38;5;132;01m}\u001b[39;00m\u001b[38;5;124m, but \u001b[39m\u001b[38;5;124m\"\u001b[39m\n\u001b[0;32m    836\u001b[0m         \u001b[38;5;124mf\u001b[39m\u001b[38;5;124m\"\u001b[39m\u001b[38;5;124mn_neighbors = \u001b[39m\u001b[38;5;132;01m{\u001b[39;00mn_neighbors\u001b[38;5;132;01m}\u001b[39;00m\u001b[38;5;124m, n_samples_fit = \u001b[39m\u001b[38;5;132;01m{\u001b[39;00mn_samples_fit\u001b[38;5;132;01m}\u001b[39;00m\u001b[38;5;124m, \u001b[39m\u001b[38;5;124m\"\u001b[39m\n\u001b[0;32m    837\u001b[0m         \u001b[38;5;124mf\u001b[39m\u001b[38;5;124m\"\u001b[39m\u001b[38;5;124mn_samples = \u001b[39m\u001b[38;5;132;01m{\u001b[39;00mX\u001b[38;5;241m.\u001b[39mshape[\u001b[38;5;241m0\u001b[39m]\u001b[38;5;132;01m}\u001b[39;00m\u001b[38;5;124m\"\u001b[39m  \u001b[38;5;66;03m# include n_samples for common tests\u001b[39;00m\n\u001b[0;32m    838\u001b[0m     )\n\u001b[0;32m    840\u001b[0m n_jobs \u001b[38;5;241m=\u001b[39m effective_n_jobs(\u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39mn_jobs)\n\u001b[0;32m    841\u001b[0m chunked_results \u001b[38;5;241m=\u001b[39m \u001b[38;5;28;01mNone\u001b[39;00m\n",
      "\u001b[1;31mValueError\u001b[0m: Expected n_neighbors <= n_samples_fit, but n_neighbors = 6, n_samples_fit = 4, n_samples = 4"
     ]
    }
   ],
   "source": [
    "data = df3[[\"score\", \"gender\", \"race/ethnicity\"]].copy()\n",
    "data[\"score_grouped\"] = pd.cut(data[\"score\"], bins=5, labels=False)\n",
    "\n",
    "data[\"gender\"] = label_encoder.fit_transform(data['gender'])\n",
    "data[\"race/ethnicity\"] = label_encoder.fit_transform(data['race/ethnicity'])\n",
    "\n",
    "interval_counts = data[\"score_grouped\"].value_counts().sort_index()\n",
    "\n",
    "min_samples_per_interval = 10\n",
    "for interval, count in interval_counts.items():\n",
    "    if count < min_samples_per_interval:\n",
    "        data.loc[data[\"score_grouped\"] == interval, \"score_grouped\"] = -1\n",
    "\n",
    "df_mark_train, df_mark_val, df_mark_test = split_stratified_into_train_val_test(\n",
    "    data, stratify_colname=\"score_grouped\", frac_train=0.60, frac_val=0.20, frac_test=0.20)\n",
    "\n",
    "\n",
    "\n",
    "\n",
    "print(\"Обучающая выборка: \", df_mark_train.shape)\n",
    "print(df_mark_train[\"score_grouped\"].value_counts())\n",
    "\n",
    "X_resampled, y_resampled = ada.fit_resample(df_mark_train, df_mark_train[\"score_grouped\"])\n",
    "df_mark_train_adasyn = pd.DataFrame(X_resampled)\n",
    "\n",
    "print(\"Обучающая выборка после oversampling: \", df_mark_train_adasyn.shape)\n",
    "print(df_mark_train_adasyn.Pclass.value_counts())\n",
    "\n",
    "print(\"Контрольная выборка: \", df_mark_val.shape)\n",
    "print(df_mark_val[\"score_grouped\"].value_counts())\n",
    "\n",
    "print(\"Тестовая выборка: \", df_mark_test.shape)\n",
    "print(df_mark_test[\"score_grouped\"].value_counts())"
   ]
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "aimvenv",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.12.5"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 2
}