diff --git a/.gitignore b/.gitignore index 8c2b884..c7c39b7 100644 --- a/.gitignore +++ b/.gitignore @@ -11,4 +11,5 @@ # Built Visual Studio Code Extensions *.vsix - +/data +/aimvenv diff --git a/Lab_2/lab_2.ipynb b/Lab_2/lab_2.ipynb new file mode 100644 index 0000000..57ce4ca --- /dev/null +++ b/Lab_2/lab_2.ipynb @@ -0,0 +1,936 @@ +{ + "cells": [ + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Выбранные темы: прогнозирование стоимости страховки, данные о населении, цены на автомобили." + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Выделим вспомогательные функции" + ] + }, + { + "cell_type": "code", + "execution_count": 67, + "metadata": {}, + "outputs": [], + "source": [ + "import pandas as pd\n", + "import matplotlib.pyplot as plt\n", + "from sklearn.model_selection import train_test_split\n", + "from sklearn.preprocessing import LabelEncoder\n", + "from imblearn.over_sampling import RandomOverSampler\n", + "from imblearn.under_sampling import RandomUnderSampler\n", + "import seaborn as sns\n", + "import numpy as np\n", + "\n", + "label_encoder = LabelEncoder()\n", + "\n", + "# Функция для применения oversampling\n", + "def apply_oversampling(X, y):\n", + " oversampler = RandomOverSampler(random_state=42)\n", + " X_resampled, y_resampled = oversampler.fit_resample(X, y)\n", + " return X_resampled, y_resampled\n", + "\n", + "# Функция для применения undersampling\n", + "def apply_undersampling(X, y):\n", + " undersampler = RandomUnderSampler(random_state=42)\n", + " X_resampled, y_resampled = undersampler.fit_resample(X, y)\n", + " return X_resampled, y_resampled\n", + "\n", + "def split_stratified_into_train_val_test(\n", + " df_input,\n", + " stratify_colname=\"y\",\n", + " frac_train=0.6,\n", + " frac_val=0.15,\n", + " frac_test=0.25,\n", + " random_state=None,\n", + "):\n", + " \"\"\"\n", + " Splits a Pandas dataframe into three subsets (train, val, and test)\n", + " following fractional ratios provided by the user, where each subset is\n", + " stratified by the values in a specific column (that is, each subset has\n", + " the same relative frequency of the values in the column). It performs this\n", + " splitting by running train_test_split() twice.\n", + "\n", + " Parameters\n", + " ----------\n", + " df_input : Pandas dataframe\n", + " Input dataframe to be split.\n", + " stratify_colname : str\n", + " The name of the column that will be used for stratification. Usually\n", + " this column would be for the label.\n", + " frac_train : float\n", + " frac_val : float\n", + " frac_test : float\n", + " The ratios with which the dataframe will be split into train, val, and\n", + " test data. The values should be expressed as float fractions and should\n", + " sum to 1.0.\n", + " random_state : int, None, or RandomStateInstance\n", + " Value to be passed to train_test_split().\n", + "\n", + " Returns\n", + " -------\n", + " df_train, df_val, df_test :\n", + " Dataframes containing the three splits.\n", + " \"\"\"\n", + "\n", + " if frac_train + frac_val + frac_test != 1.0:\n", + " raise ValueError(\n", + " \"fractions %f, %f, %f do not add up to 1.0\"\n", + " % (frac_train, frac_val, frac_test)\n", + " )\n", + "\n", + " if stratify_colname not in df_input.columns:\n", + " raise ValueError(\"%s is not a column in the dataframe\" % (stratify_colname))\n", + "\n", + " X = df_input # Contains all columns.\n", + " y = df_input[\n", + " [stratify_colname]\n", + " ] # Dataframe of just the column on which to stratify.\n", + "\n", + " # Split original dataframe into train and temp dataframes.\n", + " df_train, df_temp, y_train, y_temp = train_test_split(\n", + " X, y, stratify=y, test_size=(1.0 - frac_train), random_state=random_state\n", + " )\n", + "\n", + " # Split the temp dataframe into val and test dataframes.\n", + " relative_frac_test = frac_test / (frac_val + frac_test)\n", + " df_val, df_test, y_val, y_test = train_test_split(\n", + " df_temp,\n", + " y_temp,\n", + " stratify=y_temp,\n", + " test_size=relative_frac_test,\n", + " random_state=random_state,\n", + " )\n", + "\n", + " assert len(df_input) == len(df_train) + len(df_val) + len(df_test)\n", + "\n", + " return df_train, df_val, df_test" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Анализ наборов данных" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "1) Прогнозирование стоимости страховки" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Проблемная область: Медицинское страхование.\n", + "\n", + "Описание: Набор данных содержит информацию о клиентах медицинского страхования, включая возраст, пол, индекс массы тела (ИМТ), количество детей, курение, регион и стоимость страхового взноса.\n", + "\n", + "Связи между объектами: Нет явных связей, кроме того, что все объекты относятся к клиентам медицинского страхования.\n", + "\n", + "Бизнес-цель: Оптимизация тарифов страховых взносов.\n", + "\n", + "Эффект для бизнеса: Снижение рисков и повышение прибыльности за счет более точного определения стоимости страхования для разных групп клиентов.\n", + "\n", + "Цель технического проекта: Разработка модели машинного обучения для прогнозирования стоимости страхового взноса на основе характеристик клиента.\n", + "\n", + "Входные признаки: Возраст, пол, ИМТ, количество детей, курение, регион.\n", + "\n", + "Целевой признак: Стоимость страхового взноса." + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Данный график позволят увидеть изменения стоимости страховки от возраста." + ] + }, + { + "cell_type": "code", + "execution_count": 68, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "\n", + "RangeIndex: 2772 entries, 0 to 2771\n", + "Data columns (total 7 columns):\n", + " # Column Non-Null Count Dtype \n", + "--- ------ -------------- ----- \n", + " 0 age 2772 non-null int64 \n", + " 1 sex 2772 non-null object \n", + " 2 bmi 2772 non-null float64\n", + " 3 children 2772 non-null int64 \n", + " 4 smoker 2772 non-null object \n", + " 5 region 2772 non-null object \n", + " 6 charges 2772 non-null float64\n", + "dtypes: float64(2), int64(2), object(3)\n", + "memory usage: 151.7+ KB\n", + "age 0\n", + "sex 0\n", + "bmi 0\n", + "children 0\n", + "smoker 0\n", + "region 0\n", + "charges 0\n", + "dtype: int64\n", + " age bmi children charges\n", + "count 2772.000000 2772.000000 2772.000000 2772.000000\n", + "mean 39.109668 30.701349 1.101732 13261.369959\n", + "std 14.081459 6.129449 1.214806 12151.768945\n", + "min 18.000000 15.960000 0.000000 1121.873900\n", + "25% 26.000000 26.220000 0.000000 4687.797000\n", + "50% 39.000000 30.447500 1.000000 9333.014350\n", + "75% 51.000000 34.770000 2.000000 16577.779500\n", + "max 64.000000 53.130000 5.000000 63770.428010\n" + ] + }, + { + "data": { + "image/png": "", + "text/plain": [ + "
" + ] + }, + "metadata": {}, + "output_type": "display_data" + } + ], + "source": [ + "df1 = pd.read_csv(\"../data/Medical_insurance.csv\")\n", + "df1.info()\n", + "print(df1.isnull().sum())\n", + "print(df1.describe())\n", + "\n", + "plt.scatter(df1[\"charges\"], df1[\"age\"])\n", + "plt.show()" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Зашумленность: Возможны ошибки в данных, например, некорректные значения ИМТ.\n", + "\n", + "Смещение: Может быть смещение в данных, например, если выборка нерепрезентативна по полу или региону.\n", + "\n", + "Актуальность: Данные должны быть актуальными, чтобы модель давала точные прогнозы.\n", + "\n", + "Выбросы: Выбросы в данных, например, очень высокие значения стоимости страхового взноса.\n", + "\n", + "Просачивание данных: Не должно быть просачивания данных, например, если стоимость страхового взноса используется в качестве признака." + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Примеры решения обнаруженных проблем:\n", + "\n", + "Зашумленность: Очистка данных, удаление или исправление ошибочных значений.\n", + "\n", + "Смещение: Балансировка данных, использование техники выборки.\n", + "\n", + "Актуальность: Использование актуальных данных.\n", + "\n", + "Выбросы: Удаление выбросов или использование техники обработки выбросов.\n", + "\n", + "Просачивание данных: Удаление целевого признака из обучающих данных." + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Оценка:\n", + "\n", + "Информативность: Высокая, так как данные содержат много релевантных признаков для прогнозирования стоимости страхового взноса.\n", + "\n", + "Степень покрытия: Высокая, так как данные содержат информацию о большом количестве клиентов.\n", + "\n", + "Соответствие реальным данным: Высокое, так как данные взяты из реальной базы данных медицинского страхования.\n", + "\n", + "Согласованность меток: Высокая, так как данные имеют четко определенные метки." + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Чтобы устранить проблемы прощенных строк, необходимо удалить строки с пропущенными значениями." + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Разбиение набора данных на обучающую, контрольную и тестовую выборки\n", + "\n", + "Также потребуется приращение данных, если выборки несбалансированы по какому-либо признаку" + ] + }, + { + "cell_type": "code", + "execution_count": 69, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Обучающая выборка: (1663, 4)\n", + "Charges_Grouped\n", + "0 386\n", + "4 277\n", + "1 271\n", + "2 251\n", + "3 244\n", + "5 234\n", + "Name: count, dtype: int64\n", + "Обучающая выборка после oversampling: (2316, 4)\n", + "Charges_Grouped\n", + "3 386\n", + "5 386\n", + "0 386\n", + "1 386\n", + "4 386\n", + "2 386\n", + "Name: count, dtype: int64\n", + "Контрольная выборка: (554, 4)\n", + "Charges_Grouped\n", + "0 129\n", + "4 92\n", + "1 90\n", + "2 84\n", + "3 81\n", + "5 78\n", + "Name: count, dtype: int64\n", + "Тестовая выборка: (555, 4)\n", + "Charges_Grouped\n", + "0 129\n", + "4 93\n", + "1 91\n", + "2 83\n", + "3 81\n", + "5 78\n", + "Name: count, dtype: int64\n" + ] + } + ], + "source": [ + "data = df1[[\"age\", \"charges\", \"children\"]].copy()\n", + "data[\"Charges_Grouped\"] = pd.cut(data[\"age\"], bins=6, labels=False)\n", + "\n", + "interval_counts = data[\"Charges_Grouped\"].value_counts().sort_index()\n", + "\n", + "min_samples_per_interval = 10\n", + "for interval, count in interval_counts.items():\n", + " if count < min_samples_per_interval:\n", + " data.loc[data[\"Charges_Grouped\"] == interval, \"Charges_Grouped\"] = -1\n", + "\n", + "\n", + "df_insurance_train, df_insurance_val, df_insurance_test = split_stratified_into_train_val_test(\n", + " data, stratify_colname=\"Charges_Grouped\", frac_train=0.60, frac_val=0.20, frac_test=0.20)\n", + "\n", + "print(\"Обучающая выборка: \", df_insurance_train.shape)\n", + "print(df_insurance_train[\"Charges_Grouped\"].value_counts())\n", + "\n", + "X_resampled, y_resampled = apply_oversampling(df_insurance_train, df_insurance_train[\"Charges_Grouped\"])\n", + "df_insurance_train_adasyn = pd.DataFrame(X_resampled)\n", + "\n", + "print(\"Обучающая выборка после oversampling: \", df_insurance_train_adasyn.shape)\n", + "print(df_insurance_train_adasyn[\"Charges_Grouped\"].value_counts())\n", + "\n", + "print(\"Контрольная выборка: \", df_insurance_val.shape)\n", + "print(df_insurance_val[\"Charges_Grouped\"].value_counts())\n", + "\n", + "print(\"Тестовая выборка: \", df_insurance_test.shape)\n", + "print(df_insurance_test[\"Charges_Grouped\"].value_counts())" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Данные хорошо подходят для построения модели прогнозирования стоимости страхового взноса. Возможны проблемы с зашумленностью и смещением данных." + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "2. Цены на автомобили" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Проблемная область: Автомобильная индустрия.\n", + "\n", + "Описание: Набор данных содержит информацию о характеристиках автомобилей, таких как марка, модель, год выпуска, пробег, тип топлива, тип трансмиссии и цена продажи. Нет явных связей, кроме того, что все объекты относятся к автомобилям.\n", + "\n", + "Бизнес-цель: Оптимизация ценообразования на вторичном рынке автомобилей.\n", + "\n", + "Эффект для бизнеса: Увеличение продаж и прибыли за счет более точной оценки рыночной стоимости автомобилей.\n", + "\n", + "Цель технического проекта: Разработка модели машинного обучения для прогнозирования рыночной стоимости автомобиля на основе его характеристик.\n", + "\n", + "Входные признаки: Марка, модель, год выпуска, пробег, тип топлива, тип трансмиссии.\n", + "\n", + "Целевой признак: Цена продажи." + ] + }, + { + "cell_type": "code", + "execution_count": 70, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "\n", + "RangeIndex: 19237 entries, 0 to 19236\n", + "Data columns (total 18 columns):\n", + " # Column Non-Null Count Dtype \n", + "--- ------ -------------- ----- \n", + " 0 ID 19237 non-null int64 \n", + " 1 Price 19237 non-null int64 \n", + " 2 Levy 19237 non-null object \n", + " 3 Manufacturer 19237 non-null object \n", + " 4 Model 19237 non-null object \n", + " 5 Prod. year 19237 non-null int64 \n", + " 6 Category 19237 non-null object \n", + " 7 Leather interior 19237 non-null object \n", + " 8 Fuel type 19237 non-null object \n", + " 9 Engine volume 19237 non-null object \n", + " 10 Mileage 19237 non-null object \n", + " 11 Cylinders 19237 non-null float64\n", + " 12 Gear box type 19237 non-null object \n", + " 13 Drive wheels 19237 non-null object \n", + " 14 Doors 19237 non-null object \n", + " 15 Wheel 19237 non-null object \n", + " 16 Color 19237 non-null object \n", + " 17 Airbags 19237 non-null int64 \n", + "dtypes: float64(1), int64(4), object(13)\n", + "memory usage: 2.6+ MB\n", + "ID 0\n", + "Price 0\n", + "Levy 0\n", + "Manufacturer 0\n", + "Model 0\n", + "Prod. year 0\n", + "Category 0\n", + "Leather interior 0\n", + "Fuel type 0\n", + "Engine volume 0\n", + "Mileage 0\n", + "Cylinders 0\n", + "Gear box type 0\n", + "Drive wheels 0\n", + "Doors 0\n", + "Wheel 0\n", + "Color 0\n", + "Airbags 0\n", + "dtype: int64\n", + " ID Price Prod. year Cylinders Airbags\n", + "count 1.923700e+04 1.923700e+04 19237.000000 19237.000000 19237.000000\n", + "mean 4.557654e+07 1.855593e+04 2010.912824 4.582991 6.582627\n", + "std 9.365914e+05 1.905813e+05 5.668673 1.199933 4.320168\n", + "min 2.074688e+07 1.000000e+00 1939.000000 1.000000 0.000000\n", + "25% 4.569837e+07 5.331000e+03 2009.000000 4.000000 4.000000\n", + "50% 4.577231e+07 1.317200e+04 2012.000000 4.000000 6.000000\n", + "75% 4.580204e+07 2.207500e+04 2015.000000 4.000000 12.000000\n", + "max 4.581665e+07 2.630750e+07 2020.000000 16.000000 16.000000\n" + ] + }, + { + "data": { + "image/png": "", + "text/plain": [ + "
" + ] + }, + "metadata": {}, + "output_type": "display_data" + } + ], + "source": [ + "df2 = pd.read_csv(\"../data/car_price_prediction.csv\")\n", + "df2.info()\n", + "print(df2.isnull().sum())\n", + "print(df2.describe())\n", + "\n", + "mean_price_per_year = df2.groupby('Prod. year')['Price'].mean()\n", + "plt.figure(figsize=(8, 6))\n", + "mean_price_per_year.plot(kind='line', marker='o', color='blue')\n", + "plt.title('Зависимость средней цены от года выпуска автомобиля')\n", + "plt.xlabel('Год выпуска')\n", + "plt.ylabel('Средняя цена ($)')\n", + "plt.grid(True)\n", + "plt.show()" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Зашумленность: Возможны ошибки в данных, например, некорректные значения пробега.\n", + "\n", + "Смещение: Может быть смещение в данных, например, если выборка нерепрезентативна по марке или модели автомобиля.\n", + "\n", + "Актуальность: Данные должны быть актуальными, чтобы модель давала точные прогнозы.\n", + "\n", + "Выбросы: Возможны выбросы в данных, например, очень высокие или низкие значения цены продажи.\n", + "\n", + "Просачивание данных: Не должно быть просачивания данных, например, если цена продажи используется в качестве признака.\n", + "\n", + "Решение этих проблем:\n", + "\n", + "Зашумленность: Очистка данных, удаление или исправление ошибочных значений.\n", + "\n", + "Смещение: Балансировка данных, использование техники выборки.\n", + "\n", + "Актуальность: Использование актуальных данных.\n", + "\n", + "Выбросы: Удаление выбросов или использование техники обработки выбросов.\n", + "\n", + "Просачивание данных: Удаление целевого признака из обучающих данных." + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Оценка:\n", + "\n", + "Информативность: Высокая, так как данные содержат много релевантных признаков для прогнозирования стоимости страхового взноса.\n", + "\n", + "Степень покрытия: Высокая, так как данные содержат информацию о большом количестве клиентов.\n", + "\n", + "Соответствие реальным данным: Высокое, так как данные взяты из реальной базы данных медицинского страхования.\n", + "\n", + "Согласованность меток: Высокая, так как данные имеют четко определенные метки." + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Разбиение набора данных на обучающую, контрольную и тестовую выборки\n", + "\n", + "Также потребуется приращение данных, если выборки несбалансированы по какому-либо признаку" + ] + }, + { + "cell_type": "code", + "execution_count": 72, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Обучающая выборка: (11541, 4)\n", + "Price_Grouped\n", + " 0 7371\n", + " 1 2761\n", + " 2 935\n", + " 3 272\n", + " 4 96\n", + " 5 50\n", + " 6 22\n", + " 7 13\n", + "-1 9\n", + " 8 8\n", + " 9 4\n", + "Name: count, dtype: int64\n", + "Обучающая выборка после oversampling: (81081, 4)\n", + "Price_Grouped\n", + " 0 7371\n", + " 1 7371\n", + " 2 7371\n", + " 5 7371\n", + " 3 7371\n", + " 4 7371\n", + " 7 7371\n", + " 6 7371\n", + " 8 7371\n", + "-1 7371\n", + " 9 7371\n", + "Name: count, dtype: int64\n", + "Контрольная выборка: (3847, 4)\n", + "Price_Grouped\n", + " 0 2457\n", + " 1 920\n", + " 2 311\n", + " 3 91\n", + " 4 32\n", + " 5 17\n", + " 6 8\n", + " 7 4\n", + " 8 3\n", + "-1 3\n", + " 9 1\n", + "Name: count, dtype: int64\n", + "Тестовая выборка: (3848, 4)\n", + "Price_Grouped\n", + " 0 2458\n", + " 1 921\n", + " 2 312\n", + " 3 90\n", + " 4 32\n", + " 5 17\n", + " 6 7\n", + " 7 4\n", + " 8 3\n", + "-1 3\n", + " 9 1\n", + "Name: count, dtype: int64\n" + ] + } + ], + "source": [ + "df2 = df2[df2['Price'] <= 10000000]\n", + "\n", + "data = df2[[\"Price\", \"Prod. year\", \"Airbags\"]].copy()\n", + "data[\"Price_Grouped\"] = pd.cut(data[\"Price\"], bins=50, labels=False)\n", + "\n", + "interval_counts = data[\"Price_Grouped\"].value_counts().sort_index()\n", + "\n", + "min_samples_per_interval = 5\n", + "for interval, count in interval_counts.items():\n", + " if count < min_samples_per_interval:\n", + " data.loc[data[\"Price_Grouped\"] == interval, \"Price_Grouped\"] = -1\n", + "\n", + "df_price_train, df_price_val, df_price_test = split_stratified_into_train_val_test(\n", + " data, stratify_colname=\"Price_Grouped\", frac_train=0.60, frac_val=0.20, frac_test=0.20)\n", + "\n", + "print(\"Обучающая выборка: \", df_price_train.shape)\n", + "print(df_price_train[\"Price_Grouped\"].value_counts())\n", + "\n", + "\n", + "X_resampled, y_resampled = apply_oversampling(df_price_train, df_price_train[\"Price_Grouped\"])\n", + "df_price_train_adasyn = pd.DataFrame(X_resampled)\n", + "\n", + "print(\"Обучающая выборка после oversampling: \", df_price_train_adasyn.shape)\n", + "print(df_price_train_adasyn[\"Price_Grouped\"].value_counts())\n", + "\n", + "\n", + "print(\"Контрольная выборка: \", df_price_val.shape)\n", + "print(df_price_val[\"Price_Grouped\"].value_counts())\n", + "\n", + "print(\"Тестовая выборка: \", df_price_test.shape)\n", + "print(df_price_test[\"Price_Grouped\"].value_counts())" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Данные хорошо подходят для построения модели прогнозирования цены продажи автомобиля. Возможны проблемы с зашумленностью и смещением данных." + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "3. Цены на кофе" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Проблемная область: Финансы и инвестиции.\n", + "\n", + "Описание: Набор данных содержит исторические данные о ценах на акции Starbucks (тикер: SBUX) с 1992 по 2021 год. Данные включают информацию о ценах открытия, закрытия, максимальных и минимальных ценах, объеме торгов и скорректированных ценах закрытия.\n", + "\n", + "Связи между объектами: Данные представлены временным рядом, где каждая строка соответствует одному торговому дню. Между объектами существует временная зависимость, так как цены на акции зависят от предыдущих значений.\n", + "\n", + "Бизнес-цель: Прогнозирование будущих цен на акции Starbucks.\n", + "\n", + "Эффект для бизнеса:\n", + "\n", + "Для инвесторов: Повышение точности прогнозов позволяет инвесторам принимать более обоснованные решения о покупке и продаже акций, что может привести к увеличению прибыли.\n", + "\n", + "Для компании Starbucks: Понимание динамики цен на акции может помочь в разработке стратегий привлечения инвестиций и повышения рыночной стоимости компании." + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Цель технического проекта: Разработка модели машинного обучения для прогнозирования цены закрытия акций Starbucks на следующий день.\n", + "\n", + "Входные признаки:\n", + "\n", + "Open (цена открытия)\n", + "\n", + "High (максимальная цена)\n", + "\n", + "Low (минимальная цена)\n", + "\n", + "Close (цена закрытия)\n", + "\n", + "Volume (объем торгов)\n", + "\n", + "Adj Close (скорректированная цена закрытия)\n", + "\n", + "Целевой признак: Close (цена закрытия на следующий день)." + ] + }, + { + "cell_type": "code", + "execution_count": 76, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "\n", + "RangeIndex: 8036 entries, 0 to 8035\n", + "Data columns (total 7 columns):\n", + " # Column Non-Null Count Dtype \n", + "--- ------ -------------- ----- \n", + " 0 Date 8036 non-null object \n", + " 1 Open 8036 non-null float64\n", + " 2 High 8036 non-null float64\n", + " 3 Low 8036 non-null float64\n", + " 4 Close 8036 non-null float64\n", + " 5 Adj Close 8036 non-null float64\n", + " 6 Volume 8036 non-null int64 \n", + "dtypes: float64(5), int64(1), object(1)\n", + "memory usage: 439.6+ KB\n", + "Date 0\n", + "Open 0\n", + "High 0\n", + "Low 0\n", + "Close 0\n", + "Adj Close 0\n", + "Volume 0\n", + "dtype: int64\n", + " Open High Low Close Adj Close \\\n", + "count 8036.000000 8036.000000 8036.000000 8036.000000 8036.000000 \n", + "mean 30.054280 30.351487 29.751322 30.058857 26.674025 \n", + "std 33.615577 33.906613 33.314569 33.615911 31.728090 \n", + "min 0.328125 0.347656 0.320313 0.335938 0.260703 \n", + "25% 4.392031 4.531250 4.304922 4.399610 3.414300 \n", + "50% 13.325000 13.493750 13.150000 13.330000 10.352452 \n", + "75% 55.250000 55.722501 54.852499 55.267499 47.464829 \n", + "max 126.080002 126.320000 124.809998 126.059998 118.010414 \n", + "\n", + " Volume \n", + "count 8.036000e+03 \n", + "mean 1.470459e+07 \n", + "std 1.340021e+07 \n", + "min 1.504000e+06 \n", + "25% 7.817750e+06 \n", + "50% 1.169815e+07 \n", + "75% 1.778795e+07 \n", + "max 5.855088e+08 \n" + ] + }, + { + "data": { + "image/png": "iVBORw0KGgoAAAANSUhEUgAAAjkAAAGdCAYAAADwjmIIAAAAOXRFWHRTb2Z0d2FyZQBNYXRwbG90bGliIHZlcnNpb24zLjkuMiwgaHR0cHM6Ly9tYXRwbG90bGliLm9yZy8hTgPZAAAACXBIWXMAAA9hAAAPYQGoP6dpAABMFUlEQVR4nO3deXhTVcIG8Dfd0r2lhaYttFCQVbayWjYFKgiIovgpDg6OC6gDKjIzCiMwyiBVnFEGRXEblFHcBQUUZVGQxUIpIPva0tLSllK6kzZN8v3R5jY3uWmS9iZpkvf3PH3m5tyTm9POjHk9q0Kv1+tBRERE5GF8XN0AIiIiIkdgyCEiIiKPxJBDREREHokhh4iIiDwSQw4RERF5JIYcIiIi8kgMOUREROSRGHKIiIjII/m5ugHNodPpkJ+fj7CwMCgUClc3h4iIiGyg1+tRUVGB+Ph4+Pg4vp/FLUNOfn4+EhISXN0MIiIiaobc3Fx06NDB4Z/jliEnLCwMQP0fKTw83MWtISIiIluUl5cjISFB+B53NLcMOYYhqvDwcIYcIiIiN+OsqSaceExEREQeiSGHiIiIPBJDDhEREXkkhhwiIiLySAw5RERE5JEYcoiIiMgjMeQQERGRR2LIISIiIo/EkENEREQeiSGHiIiIPBJDDhEREXkkhhwiIiLySAw5RERETlRSVYsV286gsFzt6qZ4PIYcIiIiJ/rjB+lYse0shi7b7uqmeDyGHCIiIic6nl/u6iZ4DYYcIiIiJ2ofGeTqJngNhhwiIiIn8uE3r9PwT01EROREfkw5TsO/NBERkRP5KFzdAu/BkENEROREvkw5TsOQQ0RE5ES+HK5yGv6liYiInMiX37xOwz81ERGREynA4SpnYcghIiJyojYhAa5ugtdgyCEiInIizjt2HoYcIiIiJ/JRMOU4i90hZ9euXZg8eTLi4+OhUCiwYcMG4Z5Go8Fzzz2HPn36ICQkBPHx8ZgxYwby8/NFzygpKcH06dMRHh6OyMhIPPLII6isrGzxL0NERNTasSfHeewOOVVVVejXrx9WrVpldq+6uhqZmZlYtGgRMjMz8c033+D06dO44447RPWmT5+O48ePY+vWrdi0aRN27dqFWbNmNf+3ICIichPbThYJ1898fhi5JdUubI1nU+j1en2z36xQYP369ZgyZYrFOgcOHMCQIUNw8eJFJCYm4uTJk+jVqxcOHDiAQYMGAQC2bNmCiRMn4tKlS4iPj7f6ueXl5YiIiEBZWRnCw8Ob23wiIiKn6zR/s+j1jfHh2PzUSBe1xrmc/f3t8Dk5ZWVlUCgUiIyMBADs27cPkZGRQsABgNTUVPj4+CA9PV3yGTU1NSgvLxf9EBEReYLj+fxOcxSHhhy1Wo3nnnsO999/v5DYCgoKEBMTI6rn5+eHqKgoFBQUSD4nLS0NERERwk9CQoIjm01EREQewGEhR6PR4N5774Ver8fbb7/domctWLAAZWVlwk9ubq5MrSQiIiJP5eeIhxoCzsWLF7Fjxw7RuFtsbCyKiopE9evq6lBSUoLY2FjJ5ymVSiiVSkc0lYiIyKGuVdXi7rf3YnLfODxzazdXN8eryN6TYwg4Z8+exbZt2xAdHS26n5KSgtLSUhw8eFAo27FjB3Q6HYYOHSp3c4iIiFzqv3uykFVchZU7zqFO1+y1PtQMdvfkVFZW4ty5c8LrrKwsHD58GFFRUYiLi8M999yDzMxMbNq0CVqtVphnExUVhYCAAPTs2RO33XYbZs6cidWrV0Oj0WDOnDmYNm2aTSuriIiI3ElNnU641mh1TdQkudndk5ORkYHk5GQkJycDAObNm4fk5GQsXrwYeXl5+O6773Dp0iX0798fcXFxws/evXuFZ3zyySfo0aMHxo4di4kTJ2LEiBF499135futiIiIWok6bWPvTaW6zmI9rU6POesyserncxbrkH3s7sm55ZZb0NTWOrZsuxMVFYV169bZ+9FERERuR12nFa6vVNZI1rn1tZ2o0+mRVVyFTb9fxuzRNzireR7NIROPiYiIqJ7xMQ5qjfRw1dkiHm3kCDygk4iIyIFClI39CScuc+M/Z2LIISIicqAOkUHC9aINx1zYEu/DkENERORAGi2XjbsKQw4REZED1ensXzbegrOzAQB5pdexdNMJrz/hnCGHiIjIgZqzAaC2hZsGPvpRBt7fnYU/fiB98LW3YMghIiJyoLpmDFe1dGfkkw0TnLOvsieHiIiIHKROYpfj9kaTkaXoWjhcRfUYcoiIiBzoTKH5HjhtQwOw6PZeFt/T0uEqqseQQ0RE5EBbjheYlfn7+kj28Bg0Y64ySWDIISIicrJr1bVNzrvhcJU8GHKIiIic7PyVKuiaCDlahhxZMOQQERE5iE6nR3ig9DGRTfbkcE6OLBhyiIiIHGTZ9ydRrq6TvOejUEiWA+zJkQtDDhERkYO8vztLsvzpsV3x4LCOFt/H1VXyYMghIiJyMl8fBSKDAyzeZ0eOPBhyiIiInMynYaTqjzdJ9+Y0pyenqqYOl8uut6RZHochh4iIyMl8GlLOP6f0lrzfnDk5Ny3bjpS0HcgrbQw6fj6W5/14A4YcIiIiB7h0zfK5UfcPTmzyvc1ZXVVRUz/BeX/WVaHMlyGHiIiI5HY4t1SyfO/8MWgTYnk+DtCy1VW+Pj5G1ww5REREJDNLS8TbhiqtvtfeYx0KytTCtfEQlW8Ty9S9gfQORURERNQipp0omYtuhZ+vAgF+1vsX7D3WIau4Srg+llfW2AYv78lhyCEiInIA056cyCB/m0OHvaurNEaHfb71y3nhuuy6xq7neBoOVxERETmA6XwYe3pV7J2TE2Vhjg9XVxEREZGs9Hp9i4aK7F1dZannp6nzsbwBQw4REZGM8kuvY/BL2/HQmgM21U9OjAQAKI3m6tibTS4UV9pVf9uJQsxcm4FrVbX2fZCbYcghIiKS0etbz6C4ssbm+h89PATvzRiEoy+MR+e2IQDsn5PzzOdHLN6TetajazOw9UQhlmw6YdfnuBuGHCIiIhmp6+xb/x0e6I9be6kQ4OcDP9/6IS57V1c15evMSxbv5V3z7GMgGHKIiIhkpJXY5GbFff1teq9hRZacp5Cvz8yzeE8Pz56zw5BDREQko++PFpiVWdvh2MCwIqslOx6bat8myOI9T5+XzJBDREQkk+P5ZZLl8RGBNr3fEHL0doSc6tq6Ju8bJjZ7I4YcIiIimVypkJ5w3FUVZtP7FcJwlW2fV1xZg16Lf7StsgR7wpQ7YsghIiKSiaXzqmxl2LxPal6PlG0nCq3WaWp+D4eriIiIyCYtPfXbsFdOjY0rtGzZcLBOq0e5WiMc4qnWaIV7cq7iao14dhUREZFMIoP9W/R+w+GdtTaGHFuObdDq9Oj7wk8AgAPPp4rm8FSom57P4+7Yk0NERCSTlvbkGIa7bO1gseXzNEZDX8fyykS9RG1DbVv15a4YcoiIiGTS0tEfYZ8cGx9kS8jZajRvR6fXi04sT4gKtrOF7oUhh4iISCYtDTm+Dd/Kts6V8bVhovOhnFLhWq3Ridqo0Xr2nByGHCIiIpnsOnulRe839OTYegq5vSedrz8k3v1YY+cRFO6GIYeIiEgmq3eeNyvbMHu4ze83hBZbl3Ybn1xuSmooq3O7EFEvkcbWDXncFEMOERGRTKT6VfonRNr8fnvPrmpqVEsqAL2764LoPbUMOURERGSLuhburtdwCLnNc3JMw1BK52jh2lIvj/E72JNDRERENulu4/ENlghzcmwMOab1+nSIEK4trbwSD1dx4rHIrl27MHnyZMTHx0OhUGDDhg2i+3q9HosXL0ZcXByCgoKQmpqKs2fPiuqUlJRg+vTpCA8PR2RkJB555BFUVla26BchIiJytdReqha938fHvrOrTENOZU2d0T3z+qk9VSarq9iTI1JVVYV+/fph1apVkveXL1+OlStXYvXq1UhPT0dISAjGjx8PtVot1Jk+fTqOHz+OrVu3YtOmTdi1axdmzZrV/N+CiIioFbB1Lo0lvnb25JhmlN8vlQrXJVW1ZvVV4UoYD1jZurOyu7L7WIcJEyZgwoQJkvf0ej1WrFiBhQsX4s477wQArF27FiqVChs2bMC0adNw8uRJbNmyBQcOHMCgQYMAAG+88QYmTpyIf/3rX4iPj2/Br0NEROQ6dS0c/vEx7JNjY1gyDjUAcCyvvMn6Gq1O1MPDnhw7ZGVloaCgAKmpqUJZREQEhg4din379gEA9u3bh8jISCHgAEBqaip8fHyQnp4u+dyamhqUl5eLfoiIiORwtrACr/10GhVqTYufVWfj6eGWNM7Jsa3+O7su2PX8LzIuiXqbPH1OjqwHdBYUFAAAVCrxmKRKpRLuFRQUICYmRtwIPz9ERUUJdUylpaXhxRdflLOpREREAIBbX98FACgoV2P5Pf1a9Kyfjhdar9QEQ8ip1Wqt1Gy+LzJyhWv25LQCCxYsQFlZmfCTm5tr/U1ERER2yLh4rcXPOF1Y0aL3VzVMHF718/lmzZeZ3M/6lI8T+Y2jIZfL1B4ddGQNObGxsQCAwkJxki0sLBTuxcbGoqioSHS/rq4OJSUlQh1TSqUS4eHhoh8iIiI5tXQSrq3zaJryjdGxC2eaEZj+c19/q3VMJ0fP/eyw3Z/jLmQNOUlJSYiNjcX27duFsvLycqSnpyMlJQUAkJKSgtLSUhw8eFCos2PHDuh0OgwdOlTO5hAREdns0rXrKChTW69oga0nh9vK39f+r2jjs6xCldIzUkxXbm0+ehmTVv6KmjrHDZG5it1/wcrKShw+fBiHDx8GUD/Z+PDhw8jJyYFCocDcuXOxdOlSfPfddzh69ChmzJiB+Ph4TJkyBQDQs2dP3HbbbZg5cyb279+PPXv2YM6cOZg2bRpXVhERkUsNf2VHs9/b0pVVpvJLr9tVv2/DRoCPjeqMkV3b4p6BHSTrZV+tNis7nl+OF747bn8jWzm7Q05GRgaSk5ORnJwMAJg3bx6Sk5OxePFiAMCzzz6LJ598ErNmzcLgwYNRWVmJLVu2IDAwUHjGJ598gh49emDs2LGYOHEiRowYgXfffVemX4mIiKh5WrLPTWZO45yetqHKZj1j2V19hOuFG441WVdv1COjClfiq8eHAQAWTOyJ/z0yFLNH34ARN7Q1e5+l3/HT/Z4339Xu1VW33HKL6A9rSqFQYMmSJViyZInFOlFRUVi3bp29H01ERNRqvbixsSdk7cNDsO1kIYZLhIymhAc1fi1bW9Ju/FV8Q0woAkzOqmoXpsTHjw5Fp/mb7WqDJ5F1CTkREZG3Mu4h6RkXhl7x9i+SGZIUJVxbO+zTeG5N57ahdn+WFI1W16y5QK2V5/wmREREMmhqtKIpxiFHoZA+HNOamLDGqR1qTdMTgY0z0JwxNzTr80xdqaiR5TmtBUMOERGRkebOy5F7dZW1ZuiNzqAKDvC1WG/1AwPw2M2d5WqWW2HIISIiMmJtmMiS3BL7VkO1lHGmaqrn6LbecXhsVBfbntnSRrUyDDlERERG3GUHYOM5OT5WRsea6ukxVucmv7utGHKIiMirDTWa7Au4z6GVxh1OPlbmAAX6++LHuaOsPnPv+astbVarwpBDREReLcikl6O5vRlSe9I4kvEEaVvmOXePDUOYhV2QDdZn5jV5390w5BARkVcznS+sMeoiOZJbigXf/I7iSuurjsbdqJKlPZaOYzBlT0+OgeleOqauW1nR5W4YcoiIiIxojA7qvHPVHny6Pxdp35+y+j5DzJjQW/qwaVutvL8/ACAuIrDJesYHgtq6YP1qVW2T9wP9PSsWcDNAIiLyaqYzcKRWV126Zn7ekyXN3CJHYNgr53KZGuVqDcID/c3a8sD76YgJbwxBtvbkWDOmhzy9Ua2FZ0U2IiIiO5lu/vfdkXyzOrasTpJrurJxXvn64CWz+//ZdhbZV6uxP6tE8j0t8cqWU6iurZPnYa0AQw4REZGRE/nlZmWB/jaEnIaUo7B58Eia8WaEL248gcoacejwlVgv3twdlqX8fqlMtme5GkMOERGRkVqJ1VVKKxN2AaMeoRbmjZwS8dDYiq1nRK9DbJyY3FyVavbkEBEReQTT1VW7zlwxq2NTT07Df7a0TyXA5IDMC8VVotdyhhw/iV6hF4xOU3d3DDlEROTVdp8rliwvrW5ciWTXcFULh478TXqNdCYpzHR+UGx406uwLIkI8scrU/ualV+65tzjKRyJIYeIiEiC8Ze90srS6qIKNZZsOgEA2J8l767BppHJdOjM2pEOlmx9ZhSmDuyAw4tvxZT+8c17SCvHkENERF6rqRPHjXtMpIZ1jP3ty9+F68Jy6xsHNmVAQhvRa9OeIdOW2NNzFBUSAADo0i5EWIIeGRyAf9/b3+52ugOGHCIi8lpVTSyXNj7DatXP55FbYnmvnAPZjcu5e8aFt6hNEcH+SGobIrw2jTBFFeIQ1VRQM7V93s1YOKknPn8sRVTu66MQ2n3/kET7GtyKMeQQEZHXulTSOCQVESTedM/0NPK3fjln8TnGQaS5w0fGqoyWjRt31FTV1OGtX86L6pZeb3oXY2NtQgLw6MjOaBuqNLt3242xZp/n7hhyiIjIaxl/oa95aDAAoH1kEADzpeR1TZxOXlXbeOaTHCHBuLfGeDjqRYmVT7rmnSdqxjDvaF16Dg7lXJPnoS7GkENERF5L3XAgZYc2QcLSba1OD71ej7vf2iuqK7UJHwB8kn5R9LqlmwGaMn7almMFZvfrZEo5xkvX56w7JMszXY0hh4iIvJbh1O0gf18hxBSUq3GqoMKsrqUJvs+vPyZ6bSkMNZfxx5ru6QOITyNvCeMTyvNKPWMZOUMOERF5rRpNfS9IoL8vLl5t3HRP6sBLXxu/MU33tWkp454hrczPNmbLrs7uxvN+IyIiIhsZenKUfj64ISZUKJdasWTrSd9Nzd1pDh+jb+pqo7k/cgtgyCEiIvIchvk0GRevITqkccVRcaX5XjdSIcf0BHPAviXdtpDz8M2mGPfkqMLNV1+5I4YcIiLyWnvONe5O7GM0l2bGf/eb1ZWaayMVaO4dnCBT6xo4boRKROnXuPlhcIBjDwF1FoYcIiLyWn8a1gkAMCAx0uqEYcmQY9KT0zMuHA81PFMuztq3xni4KsiGs7rcAUMOERF5LcPBm8mJbaxu4icVNkx7cl69p6+oR0gO7dsEyfo8S4yHq4ICGHKIiIjcWm1d/eqqAD8fqxOLpRY21ZmEnBgHzGVx4IIqET+j5WOBVg4kdRee8VsQERE1Q622frVSgK+P1eEqncT8G63JSiqlrzw9ILENh2cC8k9ktsT4cwL92JNDRETk1jR19V/stvTkSO1RY3q+lb+fPENVeqPZxoZ9d6RClpyM9/dRsieHiIjIvX2ekQugfnm4pY6cx2/uAkA6ZNTUiUNOgK07BtrB8LkXiqus1GyZjtHBDn2+KzDkEBGRVzLe4+bXs1cs7kdjmJAr1ZNjOidH7iMdgMZjG/wknn1Xcnv8+uxoWT4nJiwQ9w2qX/7urHlAjsaQQ0REXunLjEvCdYW6DgAQYrKqaNUfBgjBRStxDqbW5HBMuTbukzrKIaek2qzeXcntkRAlXw9M7/bhABhyiIiI3Nqh3FLhupsqDACwavoAUR1VuFIIOVLDVaY9OY5g6HGa98Vhs3t92kfI+2HO2pTHSTxjS0MiIiI7tQn2F64N81FM59RodXrhe98wMbe4sgZv7jiH+wYnOGzlk/HEY8NnFFfWCmUnlozH9Vot2oQEyPq5hoijd9Y2yw7GnhwiIvJKeaXXhetZozoDAOIizTfe821IOYZho8XfHsOHe7Mx4T+/ikLO9r/c7JB2SvUWBQf4ITrUcedLcbiKiIjIjX17OF+4Nux8nNQ2RFQnObGN2XDVycsVwn1DAEmMCkaXdqGQi3Gu+SYzD6cKymV7dlMMvVYeknEYcoiIiCwJ8PMRlolvMApFBoaeHKmVTy1RZzLL+bYVv8r6fEuMJzx7AoYcIiLySnf2jwcAPNYwVGXJxiPicGO8aV5dw+oquZeOq4x2PHYmoSfHQ7pyGHKIiMgrGYJJlMnk3Q8eHISIIH/s+pv0/jPGAcDQkyN3yHnLZJWXszT+Fp6RchhyiIjIK+ksBJSxPVU48o9xSGxYcWV63IO4J6dhuMpX3pDTuV0oVv3BNUEHYE+ORVqtFosWLUJSUhKCgoLQpUsX/POf/xTtLKnX67F48WLExcUhKCgIqampOHv2rNxNISIisshwtqa1M6tMQ5CoJ0drCEry9xkUlKtlf6Y1hj/F9lNFOH+l0umfLzfZ/1t55ZVX8Pbbb+PNN9/EyZMn8corr2D58uV44403hDrLly/HypUrsXr1aqSnpyMkJATjx4+HWu38/0KJiMg7WerJMWV6Wy/Vk+OA4xxuiJFerfW38d1l/ywD44nH0979zWGf4yyybwa4d+9e3HnnnZg0aRIAoFOnTvj000+xf/9+APX/41ixYgUWLlyIO++8EwCwdu1aqFQqbNiwAdOmTZO7SURERGYM82l8rIUck/vG+9YYhq4ccWaVv4VnBpscPSEro4+8UlHjuM9xEtl7coYNG4bt27fjzJkzAIAjR45g9+7dmDBhAgAgKysLBQUFSE1NFd4TERGBoUOHYt++fZLPrKmpQXl5ueiHiIioJWoblmn7WhmuMh3OKjL68n9+/VEA5ku+5WDpHCxHzpcx/sRpgxMc90FOIntPzvz581FeXo4ePXrA19cXWq0WL730EqZPnw4AKCgoAACoVCrR+1QqlXDPVFpaGl588UW5m0pERF7qRH45dpwqAgD4WvnXfeMQ9Pj/DoruXavWAAAyc0plbR8A9EuQPpeq1gGBSkq8xO7P7kb2npwvvvgCn3zyCdatW4fMzEx89NFH+Ne//oWPPvqo2c9csGABysrKhJ/c3FwZW0xERN7mpe9PCNfWJh4b395yXPpfxh0hOEC6H+LnhnDmCMa9R44YgnM22Xty/va3v2H+/PnC3Jo+ffrg4sWLSEtLw4MPPojY2FgAQGFhIeLi4oT3FRYWon///pLPVCqVUCodd0YHERF5lz3nrgrX1pZ/t7Yv+2vVtdYrNZPxb+qIydTOJntPTnV1NXxMltL5+vpC17ArZFJSEmJjY7F9+3bhfnl5OdLT05GSkiJ3c4iIiJpkrSdn2pBEJ7XENr3jpYex5GD8p2ht4a45ZO/JmTx5Ml566SUkJibixhtvxKFDh/Daa6/h4YcfBlDfFTZ37lwsXboUXbt2RVJSEhYtWoT4+HhMmTJF7uYQERGJ6ExO9bb2ZZ7SOdqRzbHbyG5tnfI5ntCTI3vIeeONN7Bo0SL8+c9/RlFREeLj4/HYY49h8eLFQp1nn30WVVVVmDVrFkpLSzFixAhs2bIFgYGuOauDiIi8x2WTTfasr65yZGvsd2e/9g57tqgnx9qMbDcge8gJCwvDihUrsGLFCot1FAoFlixZgiVLlsj98URERE0qqRTPabG2T05rG7ax1t6WMN4M0BN6ctw/phEREdnh0wM5otfWenIs7VdjrF8Hx82TcSZPm5PDkENERF5lXbo45NTpmt53xpYv+7ceGNiiNrVGv18qdXUTWowhh4iIvFpOSXWT923p0Ahx5FELRnrEhjnlcwCgoMz9z5NkyCEiIq92o5Ul2daWmAO2DWnJQRXu2AU6zvo9nIUhh4iIvFqQlV4YW0JOeKDs63gAANEhAaLXjs4gRUYrzyztuOxOGHKIiMgrtQ0NgCpciRvjw5usZ8ucHEf1gDw3oYfo9e6zxQ75HIN3d10Qrp+5tZtDP8sZGHKIiMhrbD9ZKFz/OHcUdj83Bko/az05TT/z6bFd5WiapMggf9HrOp0DjyAH8OdbugjXcRHuv3ed+/dFERER2WjXmSvCdUSQP/xs2PDOWi9Nx+jgFreruZ8tN+OTx7lPDhERkRtJ6dJ4RIMtAccWN3drJ8tzpDg7Zxj3E3GfHCIiIjdSU1e/J86wLvKdR+XIASRnL3bS6xt/G09YacWQQ0REXqO6VgsACLZzX5uktiGOaI5VxscsAMCgjm0c+nl6x075cTqGHCIi8hqGkBNk5/Jo0z6NMT1ihGtrx0K0hOmjbVnO3hIOntfsdJx4TEREXmPbifrVVVorRzmYMs0W/RMicUNMKHQ6PdqY7GUjJ7NQ4+ARpBFd20KhAHpb2SDRXTDkEBGRV/j8QA72XbgKALhSUWPXe43npyj9fDBzZGermwjKwTTjzBzZ2aGfFxHkjxMv3oYAP88Y6GHIISIir/Dc10eF69v7xtv1XuOs8dq9/Z0ScABxT87u50ajQxvHLVc3cNbv5gyeEdWIiIjsEGbnMQxniyqFa5lWntvEuCfHGQHH0zDkEBGRx9OZzKi9eLXpk8eb4syl1Y6eaOzpGHKIiMjjXddoRa9HtWADP0eupjLFkNMyDDlEROTxqmrrRK/jI5t/LpMzdwL2gE2HXYohh4iIPF51jbgnJ8Lk4Et7+DgxeThyebo34OoqIiLyeF9nXhKuF93eC8F2bgZozJm9K13ahWLhpJ5oG6p03od6EIYcIiLySNnFVfgiIxcPDuuEN3acE8ofGZHUouc6c04OADzq4L1xPBlDDhEReaS3fjmHLzIuYePv+bI+1xMOrvQWnJNDREQe6YuM+iGq3JLrsj73eH6ZrM8jx2HIISIiskOt1r5zr8h1GHKIiMhrhCo5S8ObMOQQEZFH6hoTalZWWVMnUZM8FUMOERF5JKm9cOSYM6wAJx67C4YcIiLySP4SJ2kun9q3xc/VQ2+9ErUKDDlEROSR/HzNe1w6tQ1xQUvIVRhyiIjIayj9+LXnTfjfNhEReSSd3nxYSenn64KWkKsw5BARUavw/dHLeHPHWeglwklz6CS2swmQoSdHpuaRE3DDACIiahX+/EkmACClSzQGdoxq8fOkenL8Jebp2Cs2PLDFzyDnYE8OERHZTK/XIyO7BBVqjezPNbhaWSvLM6VCTqB/y4er7h7QvsXPIOdgTw4REdls7ueH8e3h+gMvs1+eJNtza+oax5Z8ZDoAUycxrNQ2VNni5/KATvfBnhwiIrKZIeAAkG3uDABU12qFa7kyhFRPDnkXhhwiImqWf/10WrZnVRkdt2Dcq9MSOpOunBcm95LlueQ+GHKIiKhZVv18XrZnGZ8pdd2oV6clTIerIoMDZHkuuQ+GHCIislmSyY7BB7JLZHmucU/OdY1cIUeccnx8OJfG2zDkEBGRzXxNgsJ3h/Px8+kiAObDQ7YqKFPjntX7hNdN9eS8u+s8Zq7NgEZrfUjLtDm+nDDsdRhyiIjIZqbHIvzvt4t4aM0B/HyqCJ3//j36/ONHuyckL/r2mOh1Uz05y74/ha0nCrH9ZJHV55qGrsSoYLvaRe7PISEnLy8PDzzwAKKjoxEUFIQ+ffogIyNDuK/X67F48WLExcUhKCgIqampOHv2rCOaQkREMrI0KfihDw8AACpq6vDDsQK7npl37bro9eUytWS9a1WN++f42TD0ZBiuenpsVyy/py/6dIiwq13k/mQPOdeuXcPw4cPh7++PH374ASdOnMC///1vtGnTRqizfPlyrFy5EqtXr0Z6ejpCQkIwfvx4qNXS/8MmIiLXU2u0OFdUabXeoZxrdj/X2Kf7cyTrXShu/Ox9F65i64nCJp9rCDnDukTj3kEJdrWJPIPsmwG+8sorSEhIwJo1a4SypKQk4Vqv12PFihVYuHAh7rzzTgDA2rVroVKpsGHDBkybNk3uJhERkQwOXrQtvNi7q/CF4iqb6pWrGycnf7A7Cx/szsKe+WMQHxEouUGfYbSKE469l+w9Od999x0GDRqE//u//0NMTAySk5Px3nvvCfezsrJQUFCA1NRUoSwiIgJDhw7Fvn37pB6JmpoalJeXi36IiMi5bN1cTyXD2U6m83qKK2vw0JoDZvWGv7wDk9/cLfkMQ3vl2kGZ3I/sIefChQt4++230bVrV/z444944okn8NRTT+Gjjz4CABQU1I/VqlQq0ftUKpVwz1RaWhoiIiKEn4QEdjsSEbVWppOTjVXW1OHbw3mifXFGdm1rVm/OukOiFVSDlm6z+Mxjeeb/4vvOzvO4eLUaAMCOHO8le8jR6XQYMGAAli1bhuTkZMyaNQszZ87E6tWrm/3MBQsWoKysTPjJzc2VscVERGSJWqNFp/mb0Wn+ZhSV1wjlE3rHWnyPtoml5BP+swtPf3YYj//vIPR6PbQ6PX49WwwAiIto7AHafPQy1h/Ka3a70344JVzLte8OuR/ZQ05cXBx69RJvnd2zZ0/k5NRPJIuNrf8/RmGheMJYYWGhcM+UUqlEeHi46IeIiBzvM6NJwH/58ggAoEdsGJ6f1NPie7QNw0Sbf7+Mzb9fFt3LLalfSbX7XDHGr9iFDUZB5q/juovqGm8QaE1ZteVT0eXaQZncj+whZ/jw4Th9WnyeyZkzZ9CxY0cA9ZOQY2NjsX37duF+eXk50tPTkZKSIndziIioBSrU5kHjVEEFOrSxvOfMt4fyUVVTh9nrMjF7XaZoaMrYmcJKLN18QngdHCCesGzPBOaP9mVbvNenPZeOeyvZQ84zzzyD3377DcuWLcO5c+ewbt06vPvuu5g9ezaA+iPq586di6VLl+K7777D0aNHMWPGDMTHx2PKlClyN4eIiJxsf3aJKNisz7wEAKipM+9RuWbUAxNoEnIMU2lKq2thzWtbz1i8FyPDRGhyT7IvIR88eDDWr1+PBQsWYMmSJUhKSsKKFSswffp0oc6zzz6LqqoqzJo1C6WlpRgxYgS2bNmCwED+D5GIqDXR2rl7sUFGduNy80XfHkeXmFCrOw6XXxcPOaka5uhMWbXHps/ceqIQt/ZSobiyxnpl8goO2fH49ttvx9GjR6FWq3Hy5EnMnDlTdF+hUGDJkiUoKCiAWq3Gtm3b0K1bN0c0hYiIWkBquMoWs9dlil7/4b10XKloOnz0T4jEQqO5PoaenOyGVVLWzFxbv7P+nW/aForI8/HsKiIisqhjtOXel73zx9j8nAGJkahuYgLw7X3j0DE6BI+O7Iy+DccvNLMTCXmljcdEBDSxnN0eT465AUD970HugyGHiIgsig5RmpWpwuvL4iODEKq0bdZDnU7f5Cqn5MTGo38Muxfr9HqzTQGn9I+3+llDkqKE6wBfeb7m/jKuO3b9bTS+fHyYLM8j52DIISIii3JKzIeKlH6NE4QtrZwy9fulMlQ3sV+N8Twaw+nhtXU6/OWLI6J6cZFBwvWwLtGSz2oX1hjM/Hzl2wkwMToYvtxZ0K0w5BARkUWvbDllVvbYzZ0l6379RNPbgDS1Smrf+avC9dG8MgDA0s0n8Y3RPjrf/HkYAo0CVt8OkXh/xiDMHt0FABAVEgAAUBr13jS1aSF5PoYcIiKyyx+GJEqWD+wYJVkOAG1DlWarp4z9bXx3szLjuTUAEBnkD+PRp8dv7ozUXircldweQONZVcbBaP4Ey5sWkudjyCEiIoukJtpKnfhtjdLPR5h4/MBN5iHJ2vJygzqjIyMig+t7bnx96r/KTI+T8FEAEUH+dreVPAdDDhERSVJrtMjMKW3RM169py+A+l6Zd3ZdAAAoYB6SggKs727cuV0o6rTmS658G0KXVqeH2mjeTzdVWLPaTJ6DIYeIiCQ98H66zXUD/aW/TgZ0bFw1Zehp2fh7vlk9W1dpje0ZAwCINdrF2LdhcnGdTo//7bsolL92b3+bnkmeiyGHiIgkZVy8ZlbWLyFS9HrerfUbub58d32PzYbZwzGqWzsA9Zv7WRouMqyMCgv0w5I7bxSdU2V4prGYhhVTyYlt8MPTI/HjM6OEe34NK550Oj1e+v6kUN4rnoc5ezvZj3UgIiLP9eb9yaLXT43tigdTOiEiuD7M9E+IxNqHh+B6rRYBfj4SA1PAlP7t8dfx3XEo5xpSOkfDz2QvmxtiQs3e88PTI4XrnnHi8OKjaOzJITLGnhwiIpI0smtbAEDv9o2hIkRiWMkQcIwFBfjC10cBH4l9ZR67uTNClX4Y2bWdWcABzM+wOvKPcYgONd+U0MCPe9eQBQw5REQk6dezxQCA1J4qocy/GZvrPZMqHn6yNv9mQp844fqzWTdZXSElFaSIAA5XERGRhDqtTrjee65xo77m7Pj7dGpXnLtSiY1H8tFdFWY15EQE+WNualdkFVdhSCfLe+8YSPXk3D8kwe52kudhyCEiIpFjeWW4/Y3dwuvxvWMRovRFUIAvggOa97Xxxv3JWHFffwC27bMzN9V88rElUsFr/m3cBJAYcoiIyIRxwAGAyf3i8MiIpBY/11HnPkk9NzSQX2/EOTlERGRFc3tvnMVXomeIB2kSwJBDRERN6NshwuaN+lzFdOLxtMGcj0P1GHKIiMii1xvm0biTZXf1cXUTqJVgyCEiIotaey+OFC4pJwOGHCIissgdQw6RAUMOEREBAGrqtLjn7b2iMqkdjluzzu1CXN0EakUYcoiICACw9/xVyUM53cmFK1WubgK1Igw5REQEAKjTig+4/OrxFBe1hEgeDDlERAQAiAoJEL1u6lDM1uajh4cgOMAXu58b7eqmUCviXoOtRETkMFqduCcnyN/XRS2x383d2uHEkttc3QxqZdiTQ0REAIDKGo3otbXTv4laO4YcIiKCRqvDwx9miMqCAtynJ4dICkMOEREhu1i8KmnO6Btc1BIi+TDkEBER9p6/Knr9zK3dXNQSIvkw5BAREYKNhqYm9YnjKd7kERhyiIgIxZW1wvWyu3nAJXkGhhwiIkJRhRoAMGtUZ66qIo/BkENERDjfcBwCAw55EoYcIiIvV1VTh11nrgAAfrtw1UptIvfBkENE5OUycxoP5Qzw5dcCeQ7+r5mIyMsp/RpXVs0a1dmFLSGSF0MOEZGX0+kbz6wa2LGNC1tCJC+GHCIiL1enrQ853VVh8ONwFXkQ/q+ZiMjLaXQ6AICfLzcAJM/CkENE5OUMPTnsxSFP4+fqBhARkWvo9XokLfheeB3AnhzyMIztRERe6kpljei1j4IhhzwLe3KIiNxYhVqDZd+fAqDHX8Z1R9tQpc3vbZiKI0jPKpG3cUQu5vCenJdffhkKhQJz584VytRqNWbPno3o6GiEhoZi6tSpKCwsdHRTiIg8zj++O45P9+fg0/25ePjDA3a9t6q2zkGtImodHBpyDhw4gHfeeQd9+/YVlT/zzDPYuHEjvvzyS+zcuRP5+fm4++67HdkUIiKP9E1mnnD9+6WyJuterayB3mhPnI/2ZjuqWUStgsNCTmVlJaZPn4733nsPbdo0bi5VVlaGDz74AK+99hrGjBmDgQMHYs2aNdi7dy9+++03RzWHiMjjaHV665Ua7D5bjIFLt+Hv64+Kyog8mcNCzuzZszFp0iSkpqaKyg8ePAiNRiMq79GjBxITE7Fv3z7JZ9XU1KC8vFz0Q0Tk7SprzIebSqtrJes+8EE6AODT/blC2ZgeMaI6a/40WMbWEbmeQ0LOZ599hszMTKSlpZndKygoQEBAACIjI0XlKpUKBQUFks9LS0tDRESE8JOQkOCIZhMRuZUKtcas7KGGeTkbDuXhaMPw1emCClGdgjI1ACD7ahUAoEdsGPbOH4PRJqGHyN3JHnJyc3Px9NNP45NPPkFgYKAsz1ywYAHKysqEn9zcXOtvIiLyYHq9Hk98nGlWfiinFHvOFWPu54cx+c3dAIB958XDUjelbUdhuRrbThYBAFJ7qhAfGeT4RhM5mewh5+DBgygqKsKAAQPg5+cHPz8/7Ny5EytXroSfnx9UKhVqa2tRWloqel9hYSFiY2Mln6lUKhEeHi76ISLyZj8eL8TRPOmJxl9miP9F8IWNJ8zqDF22XbjuERcmb+OIWgnZ98kZO3Ysjh49Kip76KGH0KNHDzz33HNISEiAv78/tm/fjqlTpwIATp8+jZycHKSkpMjdHCIij/Txbxct3su+Wm3Xsyb1iWtpc4haJdlDTlhYGHr37i0qCwkJQXR0tFD+yCOPYN68eYiKikJ4eDiefPJJpKSk4KabbpK7OUREHimruMrivcO5pZLlL93VG0s3ncR1jVZUruBOx+ShXHKsw+uvv47bb78dU6dOxahRoxAbG4tvvvnGFU0hInJLeaXXhesJvWNxZPE4yXoHLzbuYhwfEYS7BrQX3X8wpaNjGkjUCjjlWIdffvlF9DowMBCrVq3CqlWrnPHxREQe5d1d54XrXnHheP2+/gj095Ws+9zXjdMHEqOD8diozliXniOUDewU5biGErkYD+gkInIjJ/LLG86qqjd1YAeLAQcAzhVVCted24agY3QI7h+SKJQNYcghD8aQQ0TkRhZuEC/s8PdtnE/z1NiuFt+XGBUszL15dGSSUB4ayHOayXMx5BARuZFytXiX41NGG/3d0S/e4vv+fEsX4TouonEPs+AmeoGI3B0jPBGRG7l3UAfRcNUfb2qcOBzeRK9MuzClcB0c4If9fx8LXx8FfHy4soo8F0MOEZEb8fURd8D3iG3cyC8i2N/i+6pqxcvGY8Ll2ZGeqDXjcBURkRtZse2McP3uHweK9rhR+vliaJL0RGJL5USejD05RERupMJoTs64G82Pwvl05k2oqdOhqEKNm1/9RShXseeGvBBDDhGRmziQXWK1jo+PAkEBvugYHYKstInQaPUI8GOnPXknhhwiIjfxqdEmfuN6qazWVygUCPDjxGLyXoz3RERu4ptDecL1f6Ylu7AlRO6BIYeIyA1kmxzIGRTA/W2IrGHIISJyA1uOF7i6CURuhyGHiMgNvPxD4waAPG+KyDYMOURErVzO1WrR6/sGJ7ioJUTuhSGHiKiVO5R7TfT67gHtXdQSIvfCkENE5AQ6nR6ZOdeg1mitVzax3mhV1cCObUS7HBORZQw5REROsGZvNu5+ay8eeD/d7vdqtDrh+qOHh8jZLCKPxpBDROQE7+w8DwDIuHgNVTV1VmqL7Tl3FQAwN7UrQpXcw5XIVgw5REROUFRRI1yfK6q0+X11Rr04dVq9rG0i8nQMOURETuZj45yacrUGf/4kU3g9e/QNjmoSkUdivycRkZP523ieVN8XfhK95i7HRPZhTw4RkZN9tj/X1U0g8goMOURETlZd2/TE4wPZJeg0f7Oo7JERSY5sEpFHYsghInKw2jqd6PUXGZdwPL/MYv3/W73PrGzR7b1kbxeRp2PIISJysMyca2Zlk1buxsnL5Wblx/LMw8+qPwxwSLuIPB1DDhGRg1kantr8+2Wzsj+tOWBWNrFPrOxtIvIGDDlERA5WUFYjWf7mz+dEe+aoNVoUV5rX5TEORM3DkENE5GAFZdcBAN1UoWb3pqzaI1y/u+uC09pE5A0YcoiIHOzbI/kAgP4JkWb3KhuOeNDp9EjPuiqUhzUc3/DUGG4ASNRc3AyQiMjBLl6tBgBcLlNjZNe2+PVssei+6XJxANj397E8p4qohdiTQ0TkJHclt8f/HhmK/0zrb7UuAw5RyzHkEBE5WHxEIACgS7v6OTl39m/fZP2/juvm8DYReQOGHCIiB9p2ohD5ZWoAQIiy8eypx27ubPE9k/vFO7xdRN6AIYeIyEFq6rR4dG2G8NrPp/Efub3iwi2+LzI4wKHtIvIWDDlERA7SfeEW0esObYKE6wBfy//4DQ/kfBwiOTDkEBE5gFanF71+f8Yg+BkFGz8LIef5iT25+R+RTBhyiIgc4ImPDwrXXz6egtReKtF9f9/GIDP+xsZ7V6tqHd84Ii/BkENE5AA/nSgUrgd3ijK7H+DX+I/fcb0az6Y6kF3i2IYReREO/BIRyUin0+NUQYXw+rYbpQ/XVPo1rrQKM5qD86dhnRzWNiJvw54cIiIZLdl0AhNX/iq8njYkQbKe0qgnp2dcOJLahgAARnVr59gGEnkR9uQQEcnow73Zotcdo0Mk64UH+gvX7cKU+OHpkaip0yEiyF+yPhHZjyGHiEgmBQ2b/hlrHxkkURNIjA7G6/f1Q9tQJQL964euDP9JRPKQfbgqLS0NgwcPRlhYGGJiYjBlyhScPn1aVEetVmP27NmIjo5GaGgopk6disLCQgtPJCJq/a5W1uCmtO2iskl94kQTjE3dldwBI7tyeIrIUWQPOTt37sTs2bPx22+/YevWrdBoNBg3bhyqqqqEOs888ww2btyIL7/8Ejt37kR+fj7uvvtuuZtCRORQ1bV1+OrgJRy8WILF3x43u+/jw/1uiFxJodfr9darNd+VK1cQExODnTt3YtSoUSgrK0O7du2wbt063HPPPQCAU6dOoWfPnti3bx9uuukmq88sLy9HREQEysrKEB5ueWt0IiJHSvvhJN7ZecHi/Z+eGYVuqjAntoiodXP297fDV1eVlZUBAKKi6veJOHjwIDQaDVJTU4U6PXr0QGJiIvbt2yf5jJqaGpSXl4t+iMix9p2/ilHLf8bus8Wicp1Oj0M515D2w0mMXL4DVypqXNRC19t4OF+y/O8Te2D/82MZcIhczKEhR6fTYe7cuRg+fDh69+4NACgoKEBAQAAiIyNFdVUqFQoKCiSfk5aWhoiICOEnIUF6SSYRyaOwXI373/sNOSXVeOCDdNG9j9Mv4q639uKdnReQW3Ida/ZkuaiVrtfDwiGbQf6+iAkLdHJriMiUQ0PO7NmzcezYMXz22Wctes6CBQtQVlYm/OTm5srUQiKSMnSZeALtjP/ux8rtZwEAa/Zki+75etG8k5+OF2DtvmzhdXVtnWQ9443+iMh1HLaEfM6cOdi0aRN27dqFDh06COWxsbGora1FaWmpqDensLAQsbEWdgZVKqFUKh3VVCKyYteZK9h15grmjL4BOpNpfP5NnKbtaWb9r/48KqlJxsaU/t7zNyFqzWT/f6Jer8ecOXOwfv167NixA0lJSaL7AwcOhL+/P7Zvb/w3xdOnTyMnJwcpKSlyN4eI7KDWaNFp/maL9ytr6zDe5JiC17aewcy1GRZ7NbwRe3KIWgfZe3Jmz56NdevW4dtvv0VYWJgwzyYiIgJBQUGIiIjAI488gnnz5iEqKgrh4eF48sknkZKSYtPKKiJynDd2nG3yflm1Bn4Sw1NbTxRi1c/n8LfxPRzVNJezdSFqN1UobunOvW+IWgPZQ87bb78NALjllltE5WvWrMGf/vQnAMDrr78OHx8fTJ06FTU1NRg/fjzeeustuZtCRHZa9fP5Ju+/suWU5K6+hvf+dVx3KBSeOUdHZ0PGWTipJx4ZkeSxfwMidyN7yLHl33YCAwOxatUqrFq1Su6PJ6JmMv3/7jt/HIjDuaV4+5fG4LPp98vCdUyYEkUmy8dzS64jMTrYsQ11EbVGa/He57NuQvbVKtw7KIEBh6gV4dlVRAQAuG70JT5zZBLG3xiLcb1U+L+BHTDm3zvN6idGBSP972ORtOB7oayoQu1xIUev1+O1rWfwxo5zQlnGwlRkF1ehuLIWfTtEID4yCEM7R7uwlUQkhUsAiAgAoDUaj/nLuO4AAIVCgc7tQuHva947sWJafygUCmSlTRTK7lktvaGnu9p7rhhJC74XBRwAaBuqxKBOUbitdyziLRzASUSux5BD5EGqa+vw+YEcu3Yhzi2pRqf5m9HnhZ+EMtPJxWdfmogAo6Xigzq2QYc29T02psMzneZvxq2v7USFWtOcX6FV+cP76dYrEVGrxZBD5EFe++kMnvv6KB7+8IDN7xm5/GezMqkN/gKN9n7JuHhNdG/bvJtFr88WVYpCkzsqqap1dROIqIUYcog8yHdH6s9SOppXZlP9y2XXJculJs+Wqy3vg9OlXYhNn+dOBvxzq3DdNrRxM9KvnxjmiuYQUTNw4jGRh9Dr9aissW9DvqWbT5qVDUiMtPq+z2eJ97Ty9BVF3zwxDDHhSgT6c5M/InfCnhwiD7Hq53Oorm1cIVVYLr2fjbHS6sYhGX9fBW7p3g6rHxgoWTcmrLE3Y2DHNja16afj0ofuupvE6GAGHCI3xJBD5AH0ej3+9dMZUdnTnx0Srsuua3DLqz/j17NXRHViw+tXBiVGBePsSxPx4UNDEBMufXr2pidHYGDHNnh7+gD4SZxXNX1oIgDg7gHthbJZ/zuIGf/dj0FLtyIjuwRl1a1vMrJer8dLm09gw6E8oexqZePE7S1zR7qiWUQkAw5XEXmALzMumZX9dqEEK7efxZzRN6Dfi/WTgP/4wX6c+udtQq/E15n177NliComPLDJ+Sgv3dUHT43tipgwJb7JbAwMu87UByvD8vITS8YjOMD1/+jR6fT461dHRG29s388FAoFXv3xtFDWpV2oK5pHRDJgTw6RB1j83THJ8te2nsHnGbmish6LtmBdeg50RvviDOwUJUs7VOGBUCgU2PGXmy3W6bX4R9TUWd492Fm2nSwUBRygcXL1Zwca/2bedMo6kafh/3uJPIChtyHAzwe39lKJ7i345qhZ/b+vP4qdZxqHru4d1EHW9nS20vvRfeEWWT/PXjV1Wjz56SGz8rvf2oOPf7sovH5oeCcntoqI5MaQQ+TmiitrcDy/HADw1h8GYOGknja97yGjvXSUfvJPqm0bGiB6PbFPrOyf0VzdF25BTZ3OrPz8lSos3NDYK3ZHv3hnNouIZMaQQ+Tm/rs7S7juHhsm2tPFlVbenwwAiA4JwLmXJuCt6QMxc2SSS9t0rapWNKnYmuRE21aREVHrxJBD5Ia+O5KPTvM3Y8uxArz36wWhvEObIIQo/dChjfl5SqsfGIBR3dqZlS+f2tchbRzWpS3OLJ2Ag4tuFVZjTR/aUbi/sWHjQmf5yxdHkPzPrRi4dJtN9c8vm2i9EhG1agw5RG6mqqYOTzXMJ3n844PQaBsnEBs25dv93BhkvzxJ9D5/Xx+sfXiIWfkd/R03JBPgJ/5HTJvgxiEsqTkxjlKh1ggryYyN6RGDU/+8De/NGGR2T+poCyJyLww5RG7m3V0XJMvfl/iifnv6AOF6WJe2wvX+58ciIsgf9w1KcOomd2GB4qXjlo6VkNuaPdmS5f/902AE+vvi1l4qZL88CcNviAYAJLX1vGMqiLyR6zerICKbabQ6/Gf7Wcl7UkNRE/rE4eNHhiIy2B9BAY1hJiYsEEf+Mc5h7bTEx0eBSX3isPnoZQDAkdxSxEWYD63JacW2M1ixzfxv9kbDnCFjqx8YiIzsa7ilu/nfkojcD3tyiNzIR3uzJctfmdrHbGjIYETXtujdPsKBrbLPm39IhuGoq8c/zkS52jG7IB/LK0On+ZslA84Tt3TBZImVU2GB/hjdI8bjz+Ii8hbsySFq5WrrdNBodTiaV4blRjvxnl82EWv2ZCGpbQjG9lQ18YTWRaFQQN84jQh9X/gJWWkTZQ8Wt7+x26xs05MjWlXgIyLHYsghasWeX38Un6TnmJW/cX8yfH0UeHRkZxe0quXe/EMy5qxrnHi8bn+OaOVVS1TX1qHX4h/Nyr98PIUBh8jLcLiKqBWTCjiA9Pwbd3LbjeKNAZ9ffwyd5m/Gt4fzsD+rBGv2ZImOnbDHLa/+IlnOycRE3oc9OUSt1N/Xmx/HYBAR5O/ElshP6hRzAHj6s8PCdW7JdSye3MvuZxdVNG72FxLgiwdu6oiktiGtZpNEInIehhyiVkit0WKdUS9O/4RIjO4eg1Hd2qJnXLgLWyaf5ff0xbLvT6K0Wnri8X/3ZKFLTAi6q8IwyMYDRDVa8VENG58cYfUcLSLyXAw5RK1Iful1DHt5h6jsx7mj0D02zEUtcpx7ByXg3kEJ+PMnB/H90QLJOs+vrz9Hqk/7CHw7ezh8rGzQV1iuFq5//ustHKIi8nKck0PUCuj1ehzKuWYWcACga4xn90SsuC8Zqx8Y2GSdo3ll2Hay0OL9y2XXUV1bh5yr1UIZAw4RsSeHqBV47uvf8UWG+bEDXz2eYrX3wt0F+Pngtt6xeGFyL7yw8YTFevsuXMW4G81PMv/9UinueHOPqCwkwHm7OBNR68WeHCIXO1tYYRZwhnWJxrmXJtg8F8UTPDisE359djRO/fM2yftbjkkPaX110DwcVtVqZW0bEbkn9uQQOUlNnRYvbjwBpZ8P/jquOzJzruGPH+w3q7dn/hi0j3TsUQetkUKhQEJUMAAgyN8X1zX1QeXu5Pb45lAeiipqcL1WKzqeAgB+v1Rm9qxQJf/RRkTsySEvodPp8d6uCzh48Rqqa+vQaf5mDJeY/2Krbw/nodP8zfjiQC5mrc3Ah3uyrL6n+8ItWJeegzV7sjFo6TazgJPaMwZZaRO9MuCY+vChwWgXpsTr9/XD9JsSAQBanR73vrNPVE+v10v+vfp24KZ/RMSeHPISD67Zj1/PFovK8kqvo9P8zch+eRIAoLKmDr4KhVlPgcHZwgq8suW0aALss1//DgD46UQhokKVuKNfPA7nlmLKqj2Y3C8eK+7rDx8FcM1kmbShl8IgLNAPq6YP4JlJDYZ2jsaB51MBAOeKKoTyo3llot6cIcu244rRvjh/ubUbfj5dhKVTeju3wUTUKjHkkNsru67B0k0nMCW5PYbf0FYoP5ZXBlV4INqFKc0CjrGiCjXaBAeg9z/qjwLYOGcE+pj0BEhNbjW14OvfcXO3dpiyqr7exiP52HgkH4+OSML7uy339Pz67GhhmIbMhQeKNz4srqwR/l7GAadDmyA8ObYrnhzb1antI6LWS6HX65u3d7oLlZeXIyIiAmVlZQgP94yN0ahRQZkaao0WnWxcArxi2xnhpOmstInIzLmGqW/XD2sM7tQGB7Kv2d0GQ++Owb2r92F/dondz5Hi66OAtuHIAqlARWJqjRY9Fm0RXt/aS4VL167j5OVyUb30v4+FKjzQ2c0jIjs4+/ubPTnUqly4Uokx/94JAIgND8THjw7BDTFNb4RnCDgAcFPadhSWN/7bfXMCDgD89csjWD61L/67JwtLN580u3/kH+Og0eqw9UQhBndqg9TXdtn0XPba2C/QXzx8uPWE+X45G+eMYMAhIjMMOdSqGAIOABSUq5H62i5kpU2UnKui0+nR+e/fi8qMA46U7JcnoUKtQajSD+eKKnHr69Lh5KuDl6DWaLHp98ui8nUzh2JYl8YhsfuHJEKqM/T1+/phZNd2GLR0GwBAFa7ET3NvRkSwe5855SrvzxiER9dmWLzP3jAiksKQQ63GoRzpXheNVo8AP/OQs/zH0zY/e93MobgpKRoAENYwx6OrKgyrHxiIxz8+CABITozEtMEJeO7r+oMxTQMOAFHAMVAoFPjpmVF4fesZPDmmK3rFN3bBmg57UfOk9lKhX4cIHJFYLu7n4ZslElHzMeSQw7248Ti+zLiEI/8YB18LX0g/ny7CQ2sOSN4zzF8BgLX7srH42+OYM/oGrN553uJnzru1G6YNScB/d2djbmpXsyEPg9t6x5oFkatVtVi+RRygfH0UFjepA4BuqjC8beVoAmqZpLYhQsj56OEhuFpZg3d3XcCfhnVybcOIqNXixGNyqC3HLuPxjzMBAEM6ReGLx1OEe2cKKzDOwnDR7udGY8QrPwMAVtzXH+NuVOHDvdlm4QMA/ja+Ox64qSP6vfiTUNbSHpRO8zc3tnPpBAT4cUspV8svvY5HP8rAjJSOmDYk0dXNIaJm4MRjcgs1dVoE+PpIzpXJLanGyOU/m5UbVifV1ukwavnPKDA6MdrYr8+ORlxE4wZvcz8/3GRbpg7ogIggf1xYNhHfHcnHyK7mQ0r2em/GIMxcm4F3/jiQAaeViI8MwvdPj3R1M4jIjTDkeLmy6xqcKazAwMQ2TR4EqdfrkXHxGv7902n8dqFxKfX+58eipKoWa/ddxHPje2D7qULM++KIxed0mr8Z7SODLAYcS5OMm6IKVwIAfHwUmJLc3q73WnJrLxXn0xARuTkOV3mx1346jZU7zonKXpnaR5h4u3BSTzwyIgkVNXUYtHQbaut0zfqct6cPwBOfZEreuyu5PdLu7oMXvjuO6UM7mq2SefC/+7HzzBVR2aYnR6BLu1BcrapBhzZcjk1E5C6c/f3NkOMlXvvpND49kIu4iEDcEBOKbzLzHPp5k/rEYeX9ycJE4x2nCvHwh+IlwGseGozR3WOafI5Gq8Mtr/6C0T3a4a7k9uif0Mbi5GUiImrdOCeHbKbV6VGprgMAfHkwF+N6xeLDvdk4cbkMfxnXHYM7RaGoQo0hL20X3nOlokby1GZb3dK9HT54cDB8fRT49nAenv7sMADgoeGdsGZPNnrGheO7OcPh7yuexzKmhwrBAb6orq0/s2lC71irAQcA/H19sGf+mGa3l4iIvJdLe3JWrVqFV199FQUFBejXrx/eeOMNDBkyxOr7PKEnp7BcDY1Wh0M5pZjYJw7XNVpo6nSIDPaHQqGARqszCwpA/QZ4204W4qnPDkGtad7wkbGvnxiGgR3bAACKytUYsmw7xt+owr/v7Y/3dl3Af7bX7yZ8/5BEPDX2BtGEYAO9Xm/zPJpDOdfg7+uD3u25eRsRkbfxmuGqzz//HDNmzMDq1asxdOhQrFixAl9++SVOnz6NmJim/w3fWX8kw5e3Xq/HuaJKlF3XoLiyBu3ClNDrgfNXKqHW6HDycjkuFFehQl2HhDZBuFBchXNFlcJzBnZsg+paLbqrQpGeVYLLZdKTbqUkNhwBEB8ZiLzS68gtud6s3yWpbQi2z7sZAHAw5xq+PngJiyf3QnAAO/OIiMg5vCbkDB06FIMHD8abb74JANDpdEhISMCTTz6J+fPnN/leR/2RDl4swcYjl3EguwTVtVpkFVfJ9mxHiAoJwB394nFH/3jkllTjpxOFeOLmLugRG4aFG47hswO5AIDPZ92EoZ2jXdxaIiLydl4RcmpraxEcHIyvvvoKU6ZMEcoffPBBlJaW4ttvvxXVr6mpQU1N45lE5eXlSEhIkP2P9L992Vj07XGL90OVfoiLCER1rRZanR6+PgokRgWjT4cIxEcEoqZOh6AAXygUChRX1EAVHojTBeU4W1SJdmFKRIcocelaNfLLrmPmyM64ISYUseGBOHjxGvolRKKqpg5v/3Iepwoq8I/JvXC5TA09gH3nixETFois4iqUqzV4MKUTRvewPp+FiIioNfGKicfFxcXQarVQqVSicpVKhVOnTpnVT0tLw4svvujwdg1OisJDwzuhTXAA2kcGwccHSGobigBfHyREBQlnHslt3I2xwvWr/9fP7P4d/eId8rlERESezC0mZCxYsADz5s0TXht6cuTWIzYc/5h8o+zPJSIiIudzSchp27YtfH19UVhYKCovLCxEbGysWX2lUgmlUums5hEREZEHcMmhPAEBARg4cCC2b2/cv0Wn02H79u1ISUlp4p1EREREtnHZcNW8efPw4IMPYtCgQRgyZAhWrFiBqqoqPPTQQ65qEhEREXkQl4Wc++67D1euXMHixYtRUFCA/v37Y8uWLWaTkYmIiIiag2dXERERkVM4+/vbJXNyiIiIiByNIYeIiIg8EkMOEREReSSGHCIiIvJIDDlERETkkRhyiIiIyCMx5BAREZFHYsghIiIij+QWp5CbMuxfWF5e7uKWEBERka0M39vO2ofYLUNORUUFACAhIcHFLSEiIiJ7VVRUICIiwuGf45bHOuh0OuTn5yMsLAwKhULWZ8+ePRsff/yxrM8kIiJyR7m5ubIev6DX61FRUYH4+Hj4+Dh+xoxb9uT4+PigQ4cODnl2QECAQ55LRETkbsLDw2U/Y8oZPTgGnHhMREREHokhh4iIiDwSQ46J4cOHu7oJRERELjdhwgQolUpXN6NF3HLiMREREZE17MkhIiIij8SQQ0RERB6JIYeIiIg8EkMOEREReSSXbQYYHx+Py5cvu+rjiYiIyM34+/ujtrbW5vou68mprq521UcTERGRG9JoNPjxxx9trt8qlpDLff4UEREReaZRo0Zh586dNtXlnBwiIiJyG9evX7e5LkMOERERuQ17Rn8YcoiIiMhtsCeHiIiIPNLVq1dtrsuQQ0RERG5DpVLZXNdlIeerr75CZGQkV1YRERGRzWbMmGFzXZctIY+NjUVhYaErPpqIiIjc1PDhw7F7926b6raKfXKIiIiI5MY5OUREROSRGHKIiIjIIzHkEBERkUdiyCEiIiKPxJBDREREHokhh4iIiDwSQw4RERF5JIYcIiIi8kgMOUREROSRGHKIiIjIIzHkEBERkUdiyCEiIiKP9P++WOpiFPgXCAAAAABJRU5ErkJggg==", + "text/plain": [ + "
" + ] + }, + "metadata": {}, + "output_type": "display_data" + } + ], + "source": [ + "df3 = pd.read_csv(\"../data/Starbucks Dataset.csv\")\n", + "df3.info()\n", + "print(df3.isnull().sum())\n", + "print(df3.describe())\n", + "\n", + "plt.plot(df3[\"Date\"], df3[\"High\"])\n", + "plt.show()" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Зашумленность: Возможны случайные колебания цен, которые могут быть вызваны внешними факторами.\n", + "\n", + "Смещение: Нет явного смещения, так как данные представляют собой временной ряд.\n", + "\n", + "Актуальность: Данные актуальны до 2021 года, но для более точного прогнозирования могут потребоваться более свежие данные.\n", + "\n", + "Выбросы: Возможны выбросы в данных, например, резкие скачки цен, вызванные внешними событиями (кризисы, слияния и поглощения).\n", + "\n", + "Просачивание данных: Не должно быть просачивания данных, так как целевой признак (цена закрытия на следующий день) не должен использоваться в качестве признака." + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Примеры их решений:\n", + "\n", + "Зашумленность: Использование методов сглаживания временных рядов, таких как скользящее среднее или экспоненциальное сглаживание.\n", + "\n", + "Выбросы: Удаление выбросов или использование техники обработки выбросов, такой как Winsorization.\n", + "\n", + "Актуальность: Обновление данных до последней доступной даты." + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Оценка набора данных:\n", + "\n", + "Информативность: Высокая, так как данные содержат много релевантных признаков для прогнозирования цен на акции.\n", + "\n", + "Степень покрытия: Высокая, так как данные охватывают длительный период времени (1992-2021).\n", + "\n", + "Соответствие реальным данным: Высокое, так как данные взяты из реальной торговой платформы.\n", + "\n", + "Согласованность меток: Высокая, так как данные имеют четко определенные метки." + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Выборки сбалансированы, так как данные представляют собой временной ряд, и каждая строка соответствует одному торговому дню.\n", + "Данные представлены в виде временного ряда, поэтому не требуется исмпользовать методы приращения данных." + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Для временных рядов методы oversampling и undersampling обычно не применяются, так как они могут нарушить временную структуру данных." + ] + }, + { + "cell_type": "code", + "execution_count": 78, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Обучающая выборка: (4821, 4)\n", + "Volume_Grouped\n", + " 0 2802\n", + " 1 1460\n", + " 2 369\n", + " 3 111\n", + " 4 40\n", + " 5 18\n", + "-1 10\n", + " 6 7\n", + " 7 4\n", + "Name: count, dtype: int64\n", + "Контрольная выборка: (1607, 4)\n", + "Volume_Grouped\n", + " 0 934\n", + " 1 487\n", + " 2 123\n", + " 3 37\n", + " 4 13\n", + " 5 6\n", + "-1 4\n", + " 6 2\n", + " 7 1\n", + "Name: count, dtype: int64\n", + "Тестовая выборка: (1608, 4)\n", + "Volume_Grouped\n", + " 0 934\n", + " 1 487\n", + " 2 124\n", + " 3 37\n", + " 4 14\n", + " 5 6\n", + "-1 3\n", + " 6 2\n", + " 7 1\n", + "Name: count, dtype: int64\n" + ] + } + ], + "source": [ + "data = df3[[\"Volume\", \"High\", \"Low\"]].copy()\n", + "data[\"Volume_Grouped\"] = pd.cut(data[\"Volume\"], bins=50, labels=False)\n", + "\n", + "interval_counts = data[\"Volume_Grouped\"].value_counts().sort_index()\n", + "\n", + "min_samples_per_interval = 5\n", + "for interval, count in interval_counts.items():\n", + " if count < min_samples_per_interval:\n", + " data.loc[data[\"Volume_Grouped\"] == interval, \"Volume_Grouped\"] = -1\n", + "\n", + "\n", + "df_coffee_train, df_coffee_val, df_coffee_test = split_stratified_into_train_val_test(\n", + " data, stratify_colname=\"Volume_Grouped\", frac_train=0.60, frac_val=0.20, frac_test=0.20)\n", + "\n", + "print(\"Обучающая выборка: \", df_coffee_train.shape)\n", + "print(df_coffee_train[\"Volume_Grouped\"].value_counts())\n", + "\n", + "print(\"Контрольная выборка: \", df_coffee_val.shape)\n", + "print(df_coffee_val[\"Volume_Grouped\"].value_counts())\n", + "\n", + "print(\"Тестовая выборка: \", df_coffee_test.shape)\n", + "print(df_coffee_test[\"Volume_Grouped\"].value_counts())" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Вывод:\n", + "\n", + "Данные хорошо подходят для построения модели прогнозирования цен на акции Starbucks.\n", + "\n", + "Возможны проблемы с зашумленностью и выбросами в данных.\n", + "\n", + "Для улучшения качества модели можно использовать методы сглаживания временных рядов и обработки выбросов." + ] + } + ], + "metadata": { + "kernelspec": { + "display_name": "aimvenv", + "language": "python", + "name": "python3" + }, + "language_info": { + "codemirror_mode": { + "name": "ipython", + "version": 3 + }, + "file_extension": ".py", + "mimetype": "text/x-python", + "name": "python", + "nbconvert_exporter": "python", + "pygments_lexer": "ipython3", + "version": "3.12.6" + } + }, + "nbformat": 4, + "nbformat_minor": 2 +}