diff --git a/.gitignore b/.gitignore index 207d123..8b52d1a 100644 --- a/.gitignore +++ b/.gitignore @@ -12,3 +12,6 @@ ipython_config.py # Remove previous ipynb_checkpoints # git rm -r .ipynb_checkpoints/ +# virtual +aimenv/ +static/ \ No newline at end of file diff --git a/lab_2/lab2.ipynb b/lab_2/lab2.ipynb new file mode 100644 index 0000000..81b5f6b --- /dev/null +++ b/lab_2/lab2.ipynb @@ -0,0 +1,330 @@ +{ + "cells": [ + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "## Лабораторная работа №2" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Выгрузка данных из csv файла \"Цены на автомобили\" в датафрейм" + ] + }, + { + "cell_type": "code", + "execution_count": 1, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Index(['ID', 'Price', 'Levy', 'Manufacturer', 'Model', 'Prod. year',\n", + " 'Category', 'Leather interior', 'Fuel type', 'Engine volume', 'Mileage',\n", + " 'Cylinders', 'Gear box type', 'Drive wheels', 'Doors', 'Wheel', 'Color',\n", + " 'Airbags'],\n", + " dtype='object')\n" + ] + } + ], + "source": [ + "import pandas as pd \n", + "df = pd.read_csv(\"..//static//csv//car_price_prediction.csv\")\n", + "print(df.columns)" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Выгрузка данных из csv файла \"Данные о клиентах\" в датафрейм" + ] + }, + { + "cell_type": "code", + "execution_count": 2, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Index(['ID\\tYear_Birth\\tEducation\\tMarital_Status\\tIncome\\tKidhome\\tTeenhome\\tDt_Customer\\tRecency\\tMntWines\\tMntFruits\\tMntMeatProducts\\tMntFishProducts\\tMntSweetProducts\\tMntGoldProds\\tNumDealsPurchases\\tNumWebPurchases\\tNumCatalogPurchases\\tNumStorePurchases\\tNumWebVisitsMonth\\tAcceptedCmp3\\tAcceptedCmp4\\tAcceptedCmp5\\tAcceptedCmp1\\tAcceptedCmp2\\tComplain\\tZ_CostContact\\tZ_Revenue\\tResponse'], dtype='object')\n" + ] + } + ], + "source": [ + "import pandas as pd \n", + "df = pd.read_csv(\"..//static//csv//marketing_campaign.csv\")\n", + "print(df.columns)" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Выгрузка данных из csv файла \"Онлайн обучение\" в датафрейм" + ] + }, + { + "cell_type": "code", + "execution_count": 8, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Index(['Education Level', 'Institution Type', 'Gender', 'Age', 'Device',\n", + " 'IT Student', 'Location', 'Financial Condition', 'Internet Type',\n", + " 'Network Type', 'Flexibility Level'],\n", + " dtype='object')\n" + ] + } + ], + "source": [ + "import pandas as pd \n", + "df = pd.read_csv(\"..//static//csv//students_adaptability_level_online_education.csv\")\n", + "print(df.columns)" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "### **Проблемная область**\n", + "#### 1. Первый набор данных (Автомобили):\n", + "Ценообразование: Как цена автомобиля связана с его характеристиками (год выпуска, пробег, тип двигателя и т.д.)? \\\n", + "Рыночная стоимость: Как оценить рыночную стоимость автомобиля на основе его характеристик? \\\n", + "Анализ спроса: Какие модели и марки автомобилей наиболее популярны? \\\n", + "Прогнозирование продаж: Как прогнозировать продажи автомобилей на основе их характеристик и рыночных тенденций?\\\n", + "Оптимизация инвентаря: Как оптимизировать инвентарь, учитывая характеристики автомобилей и их спрос?\n", + "\n", + "#### 2. Второй набор данных (Клиенты компании):\n", + "Поведенческий анализ: Как демографические данные клиентов влияют на их покупательское поведение?\\\n", + "Целевая реклама: Как определить целевую аудиторию для рекламных кампаний?\\\n", + "Прогнозирование отклика: Как прогнозировать отклик клиентов на маркетинговые предложения?\\\n", + "Удержание клиентов: Какие факторы влияют на удержание клиентов и их лояльность?\\\n", + "Анализ доходов: Как доход клиента связан с его покупками и откликом на предложения?\n", + "\n", + "#### 3. Третий набор данных (Студенты):\n", + "Анализ успеваемости: Как условия учебы (тип учреждения, финансовое положение, тип интернета и т.д.) влияют на успеваемость студентов?\\\n", + "Оптимизация учебного процесса: Как оптимизировать учебный процесс для разных групп студентов?\\\n", + "Прогнозирование успеха: Как прогнозировать успешность студентов на основе их демографических данных и условий учебы?\\\n", + "Анализ потребностей: Какие потребности у студентов в зависимости от их финансового положения и местоположения?\\\n", + "Оценка ресурсов: Как распределить ресурсы (например, финансовые или технические) для наиболее эффективного обучения?" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "### **Анализ содержимого**\n", + "\n", + "Давайте проанализируем каждый набор данных, определим объекты наблюдения, их атрибуты и связи между объектами.\n", + "\n", + "#### 1. Первый набор данных:\n", + "##### Объект наблюдения: Автомобиль.\n", + "##### Атрибуты объекта:\n", + "Уникальный идентификатор автомобиля, Цена автомобиля, Сбор или налог на автомобиль, Производитель автомобиля, Модель автомобиля, Год производства, Категория автомобиля (например, \"Jeep\"), Наличие кожаного салона (Yes/No), Тип топлива (например, \"Hybrid\"), Объем двигателя, Пробег, Количество цилиндров, Тип коробки передач (например, \"Automatic\"), Привод (например, \"4x4\"), Количество дверей, Расположение руля (например, \"Left wheel\"), Цвет автомобиля, Количество подушек безопасности.\n", + "\n", + "##### Связи между объектами:\n", + "Данные одного автомобиля связаны с его характеристиками.\\\n", + "Можно анализировать связи между различными атрибутами, например, между ценой и годом производства, или между типом топлива и объемом двигателя.\n", + "\n", + "#### 2. Второй набор данных:\n", + "##### Объект наблюдения: Клиент компании.\n", + "\n", + "##### Атрибуты объекта: \n", + "Уникальный идентификатор клиента, Год рождения клиента, Уровень образования (например, \"Graduation\"), Семейное положение (например, \"Single\"), Доход клиента, Количество детей дошкольного возраста, Количество подростков, Дата регистрации клиента, Количество дней с последнего контакта, Сумма потраченная на вино, Сумма потраченная на фрукты, Сумма потраченная на мясные продукты, Сумма потраченная на рыбные продукты, Сумма потраченная на сладкие продукты, Сумма потраченная на золото, Количество покупок со скидкой, Количество покупок через веб-сайт, Количество покупок через каталог, Количество покупок в магазине, Количество визитов на веб-сайт в месяц, Принял ли клиент предложение 3, Принял ли клиент предложение 4, Принял ли клиент предложение 5, Принял ли клиент предложение 1, Принял ли клиент предложение 2, Подал ли клиент жалобу, Стоимость контакта, Доход от клиента, Ответ клиента на последнее предложение.\n", + "\n", + "##### Связи между объектами:\n", + "Данные одного клиента связаны с его демографическими данными и покупательским поведением.\\\n", + "Можно анализировать связи между различными атрибутами, например, между доходом и количеством покупок, или между уровнем образования и ответами на предложения.\n", + "\n", + "#### 3. Третий набор данных:\n", + "##### Объект наблюдения: Студент.\n", + "\n", + "##### Атрибуты объекта:\n", + "Уровень образования (например, \"University\"), Тип учреждения (например, \"Private\"), Пол (например, \"Male\"), Возраст, Устройство, используемое для учебы (например, \"Tab\"), Является ли студент IT-специалистом (Yes/No), Местоположение (например, \"Town\"), Финансовое положение (например, \"Mid\"), Тип интернета (например, \"Wifi\"), Тип сети (например, \"4G\"), Уровень гибкости (например, \"Moderate\").\n", + "\n", + "##### Связи между объектами:\n", + "Данные одного студента связаны с его демографическими данными и условиями учебы.\\\n", + "Можно анализировать связи между различными атрибутами, например, между типом учреждения и финансовым положением, или между возрастом и уровнем гибкости." + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "### **Бизнес-цели**\n", + "Давайте рассмотрим примеры бизнес-целей для каждого набора данных и оценим потенциальный эффект для бизнеса.\n", + "\n", + "#### 1. Первый набор данных (Автомобили):\n", + "##### Бизнес-цели:\n", + "Оптимизация ценообразования\\\n", + "Увеличение продаж\\\n", + "Прогнозирование рыночной стоимости\n", + "\n", + "##### Эффект для бизнеса:\n", + "Повышение прибыли\\\n", + "Улучшение клиентского опыта\\\n", + "Снижение рисков\n", + "\n", + "#### 2. Второй набор данных (Клиенты компании):\n", + "##### Бизнес-цели:\n", + "Повышение конверсии\\\n", + "Удержание клиентов\\\n", + "Оптимизация маркетинговых расходов\n", + "\n", + "##### Эффект для бизнеса:\n", + "Увеличение доходов\\\n", + "Снижение затрат\\\n", + "Улучшение клиентского опыта\n", + "\n", + "#### 3. Третий набор данных (Студенты):\n", + "##### Бизнес-цели:\n", + "Повышение успеваемости\\\n", + "Оптимизация учебного процесс\\\n", + "Улучшение инфраструктуры\n", + "\n", + "##### Эффект для бизнеса:\n", + "Повышение качества образования\\\n", + "Увеличение прибыли\\\n", + "Снижение затрат" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "### **Цели технического проекта**\n", + "#### 1. Первый набор данных (Автомобили):\n", + "##### Бизнес-цель: Оптимизация ценообразования.\n", + "**Цель технического проекта:** Разработка модели машинного обучения для прогнозирования цены автомобиля на основе его характеристик.\n", + "\n", + "**Входные данные:** Уникальный идентификатор автомобиля, Сбор или налог на автомобиль, Производитель автомобиля, Модель автомобиля, Год производства, Категория автомобиля, Наличие кожаного салона, Тип топлива, Объем двигателя, Пробег, Количество цилиндров, Тип коробки передач. Привод, Количество дверей, Расположение руля, Цвет автомобиля, Количество подушек безопасности.\n", + "\n", + "**Целевой признак:** Цена автомобиля.\n", + "\n", + "##### Бизнес-цель: Увеличение продаж.\n", + "**Цель технического проекта:** Разработка модели классификации для определения наиболее популярных моделей и марок автомобилей.\n", + "\n", + "**Входные данные:** Производитель автомобиля, Модель автомобиля, Год производства, Категория автомобиля, Тип топлива, Объем двигателя, Пробег, Тип коробки передач, Привод, Цвет автомобиля.\n", + "\n", + "**Целевой признак:** Популярность модели или марки автомобиля (например, бинарный признак: популярная/непопулярная).\n", + "\n", + "##### Бизнес-цель: Прогнозирование рыночной стоимости.\n", + "\n", + "**Цель технического проекта:** Разработка модели регрессии для прогнозирования рыночной стоимости автомобиля.\n", + "\n", + "**Входные данные:** Сбор или налог на автомобиль, Производитель автомобиля, Модель автомобиля, Год производства, Категория автомобиля, Наличие кожаного салона, Тип топлива, Объем двигателя, Пробег, Количество цилиндров, Тип коробки передач, Привод, Количество дверей, Расположение руля, Цвет автомобиля, Количество подушек безопасности.\n", + "\n", + "**Целевой признак:** Рыночная стоимость автомобиля.\n", + "\n", + "#### 2. Второй набор данных (Клиенты компании):\n", + "##### Бизнес-цель: Повышение конверсии.\n", + "\n", + "**Цель технического проекта:** Разработка модели классификации для определения целевой аудитории для маркетинговых кампаний.\n", + "\n", + "**Входные данные:**\n", + "Год рождения клиента, Уровень образования, Семейное положение, Доход клиента, Количество детей дошкольного возраста, Количество подростков, Дата регистрации клиента, Количество дней с последнего контакта, Сумма потраченная на вино, Сумма потраченная на фрукты, Сумма потраченная на мясные продукты, Сумма потраченная на рыбные продукты, Сумма потраченная на сладкие продукты, Сумма потраченная на золото, Количество покупок со скидкой, Количество покупок через веб-сайт, Количество покупок через каталог, Количество покупок в магазине, Количество визитов на веб-сайт в месяц, Принял ли клиент предложение 3, Принял ли клиент предложение 4, Принял ли клиент предложение 5, Принял ли клиент предложение 1, Принял ли клиент предложение 2, Подал ли клиент жалобу, Стоимость контакта, Доход от клиента.\n", + "\n", + "**Целевой признак:** Ответ клиента на последнее предложение (например, бинарный признак: откликнулся/не откликнулся).\n", + "\n", + "##### Бизнес-цель: Удержание клиентов.\n", + "\n", + "**Цель технического проекта:** Разработка модели классификации для прогнозирования вероятности ухода клиента.\n", + "\n", + "**Входные данные:** Год рождения клиента, Уровень образования, Семейное положение, Доход клиента, Количество детей дошкольного возраста, Количество подростков, Дата регистрации клиента, Количество дней с последнего контакта, Сумма потраченная на вино, Сумма потраченная на фрукты, Сумма потраченная на мясные продукты, Сумма потраченная на рыбные продукты, Сумма потраченная на сладкие продукты, Сумма потраченная на золото, Количество покупок со скидкой, Количество покупок через веб-сайт, Количество покупок через каталог, Количество покупок в магазине, Количество визитов на веб-сайт в месяц, Принял ли клиент предложение 3, Принял ли клиент предложение 4, Принял ли клиент предложение 5, Принял ли клиент предложение 1, Принял ли клиент предложение 2, Подал ли клиент жалобу, Стоимость контакта, Доход от клиента.\n", + "\n", + "**Целевой признак:** Вероятность ухода клиента (например, бинарный признак: ушел/не ушел).\n", + "\n", + "##### Бизнес-цель: Оптимизация маркетинговых расходов.\n", + "\n", + "**Цель технического проекта:** Разработка модели регрессии для прогнозирования эффективности маркетинговых кампаний.\n", + "\n", + "**Входные данные:** Год рождения клиента, Уровень образования, Семейное положение, Доход клиента, Количество детей дошкольного возраста, Количество подростков, Дата регистрации клиента, Количество дней с последнего контакта, Сумма потраченная на вино, Сумма потраченная на фрукты, Сумма потраченная на мясные продукты, Сумма потраченная на рыбные продукты, Сумма потраченная на сладкие продукты, Сумма потраченная на золото, Количество покупок со скидкой, Количество покупок через веб-сайт, Количество покупок через каталог, Количество покупок в магазине, Количество визитов на веб-сайт в месяц, Принял ли клиент предложение 3, Принял ли клиент предложение 4, Принял ли клиент предложение 5, Принял ли клиент предложение 1, Принял ли клиент предложение 2, Подал ли клиент жалобу, Стоимость контакта.\n", + "\n", + "**Целевой признак:** Эффективность маркетинговой кампании (например, количество откликов или доход от кампании).\n", + "\n", + "#### 3. Третий набор данных (Студенты):\n", + "##### Бизнес-цель: Повышение успеваемости.\n", + "\n", + "**Цель технического проекта:** Разработка модели регрессии для прогнозирования успеваемости студентов на основе их демографических данных и условий учебы.\n", + "\n", + "**Входные данные:** Уровень образования, Тип учреждения, Пол, Возраст,Устройство, используемое для учебы.Является ли студент IT-специалистом.Местоположение, Финансовое положение, Тип интернета, Тип сети, Уровень гибкости.\n", + "\n", + "**Целевой признак:** Успеваемость студента (например, оценка или процент выполненных заданий).\n", + "\n", + "\n", + "Бизнес-цель: Оптимизация учебного процесса.\n", + "\n", + "Цель технического проекта: Разработка модели классификации для определения наиболее эффективных методов обучения для разных групп студентов.\n", + "\n", + "Входные данные:\n", + "\n", + "Education Level: Уровень образования.\n", + "\n", + "Institution Type: Тип учреждения.\n", + "\n", + "Gender: Пол.\n", + "\n", + "Age: Возраст.\n", + "\n", + "Device: Устройство, используемое для учебы.\n", + "\n", + "IT Student: Является ли студент IT-специалистом.\n", + "\n", + "Location: Местоположение.\n", + "\n", + "Financial Condition: Финансовое положение.\n", + "\n", + "Internet Type: Тип интернета.\n", + "\n", + "Network Type: Тип сети.\n", + "\n", + "Flexibility Level: Уровень гибкости.\n", + "\n", + "Целевой признак:\n", + "\n", + "Effective Method: Наиболее эффективный метод обучения для студента (например, онлайн-курсы, практические занятия, лекции).\n", + "\n", + "Эффект для бизнеса: Позволяет оптимизировать учебный процесс для разных групп студентов, повышая эффективность обучения и удовлетворенность студентов.\n", + "\n", + "Бизнес-цель: Улучшение инфраструктуры.\n", + "\n", + "**Цель технического проекта:** Разработка модели регрессии для определения потребностей студентов в ресурсах (например, финансовых или технических) и оптимизации их распределения.\n", + "\n", + "**Входные данные:** Уровень образования, Тип учреждения, Пол, Возраст, Устройство, используемое для учебы, Является ли студент IT-специалисто, Местоположение, Финансовое положение, Тип интернета, Тип сети, Уровень гибкости.\n", + "\n", + "**Целевой признак:** Потребность в ресурсах (например, финансовые средства, технические устройства)." + ] + } + ], + "metadata": { + "kernelspec": { + "display_name": "aimenv", + "language": "python", + "name": "python3" + }, + "language_info": { + "codemirror_mode": { + "name": "ipython", + "version": 3 + }, + "file_extension": ".py", + "mimetype": "text/x-python", + "name": "python", + "nbconvert_exporter": "python", + "pygments_lexer": "ipython3", + "version": "3.12.5" + } + }, + "nbformat": 4, + "nbformat_minor": 2 +}