diff --git a/lab_2/lab2.ipynb b/lab_2/lab2.ipynb index edf0d7a..e8cf84b 100644 --- a/lab_2/lab2.ipynb +++ b/lab_2/lab2.ipynb @@ -191,6 +191,80 @@ " - **Вход**: Площадь магазина (Store_Area), Среднее количество клиентов (Daily_Customer_Count), Количество товаров (Items_Available).\n", " - **Цель**: Прогнозировать объем продаж (Store_Sales)." ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "# Датасет 3. Прогнозирование стоимости медицинского страхования\n", + "https://www.kaggle.com/datasets/harishkumardatalab/medical-insurance-price-prediction\n", + "## Анализ сведений о датасете\n", + "\n", + "### **Проблемная область**: \n", + "Задача прогнозирования медицинских расходов на основе различных факторов, влияющих на стоимость страхования. Это важно для компаний медицинского страхования для оптимизации ценообразования и управления рисками.\n", + "\n", + "### **Актуальность**: \n", + "Прогнозирование медицинских расходов является ключевым элементом для страховых компаний, чтобы правильно оценить риски, установить справедливые страховые взносы и обеспечить финансовую устойчивость компании. Актуальность такого анализа возрастает с увеличением потребности в персонализированном страховании.\n", + "\n", + "### **Объекты наблюдений**: \n", + "Каждый объект наблюдения представляет собой запись о человеке, который является клиентом медицинской страховой компании.\n", + "\n", + "### **Атрибуты объектов**:\n", + "- **Age (возраст)** — числовой атрибут, показывает возраст клиента.\n", + "- **Sex (пол)** — категориальный атрибут (мужчина/женщина), который может повлиять на тип медицинских услуг и расходы.\n", + "- **BMI (индекс массы тела)** — числовой атрибут, который может быть важным для оценки здоровья клиента и возможных заболеваний.\n", + "- **Children (дети)** — числовой атрибут, который может показывать потребность в медицинских услугах для детей.\n", + "- **Smoker (курящий)** — булев атрибут, показывающий, является ли человек курильщиком, что влияет на его здоровье и расходы.\n", + "- **Region (регион)** — текстовый атрибут, который может учитывать различия в стоимости медицинских услуг в разных регионах.\n", + "- **Charges (расходы)** — целевой числовой атрибут, показывающий медицинские расходы, которые следует предсказать.\n", + "\n", + "### **Связь между объектами**:\n", + " Атрибуты данных взаимосвязаны. Например, возраст, ИМТ и курение могут быть связанными с увеличением медицинских расходов, так как старение и ожирение повышают риски заболеваний. Регион может определять базовый уровень расходов, а наличие детей может указывать на дополнительные расходы на медицинские услуги для детей.\n", + "\n", + "## Качество набора данных\n", + "\n", + "### **Информативность**: \n", + "Набор данных содержит важные параметры для оценки медицинских расходов, такие как возраст, ИМТ, статус курящего и наличие детей. Однако дополнительные параметры, такие как хронические заболевания, история медицинских визитов или история страховки, могут улучшить модель.\n", + "\n", + "### **Степень покрытия**: \n", + "Набор данных охватывает несколько ключевых факторов (возраст, пол, ИМТ, количество детей, курение, регион), которые являются важными для прогнозирования расходов. Однако для более точных прогнозов могут быть полезны дополнительные данные, такие как образ жизни или медицинская история.\n", + "\n", + "### **Соответствие реальным данным**: \n", + "Данные вполне могут соответствовать реальной ситуации в медицинском страховании, так как параметры, такие как курение, возраст и ИМТ, действительно влияют на здоровье и, следовательно, на расходы на лечение. Однако важно, чтобы данные были сбалансированы и не содержали искажений.\n", + "\n", + "### **Согласованность меток**: \n", + "Метки, такие как пол, курящий/не курящий, и регион, должны быть корректно представлены. Необходимо убедиться в отсутствии противоречий в данных (например, отсутствие значений для категориальных переменных или неверных числовых значений).\n", + "\n", + "## Бизнес-цели, которые может решить этот датасет\n", + "\n", + "1. **Оптимизация ценообразования на медицинское страхование**\n", + " - **Эффект на бизнес**: Компании смогут более точно оценивать потенциальные расходы на медицинские услуги для клиентов, что позволит устанавливать адекватные страховые взносы, минимизируя риски и обеспечивая прибыльность.\n", + "\n", + "2. **Оценка рисков клиентов**\n", + " - **Эффект на бизнес**: Страховые компании смогут выявлять группы клиентов с высоким риском, что поможет предсказать, какие клиенты могут потребовать больше затрат на лечение, и соответственно, предлагать им более высокие премии или дополнительные услуги.\n", + "\n", + "3. **Разработка персонализированных предложений для клиентов**\n", + " - **Эффект на бизнес**: Возможность предложить клиентам индивидуальные страховые планы и дополнительные услуги, основанные на их рисках и потребностях, повысит их удовлетворенность и лояльность, а также улучшит финансовые результаты компании.\n", + "\n", + "## Примеры целей технического проекта для каждой бизнес-цели\n", + "\n", + "1. **Оптимизация ценообразования на медицинское страхование**\n", + " - **Цель технического проекта**: Построить модель регрессии для прогнозирования медицинских расходов на основе демографических данных (возраст, пол, ИМТ, курение и т.д.).\n", + " - **Что поступает на вход**: Возраст, пол, ИМТ, количество детей, курение, регион.\n", + " - **Целевой признак**: Расходы (charges).\n", + "\n", + "2. **Оценка рисков клиентов**\n", + " - **Цель технического проекта**: Разработать модель классификации для оценки уровня риска клиента (низкий, средний, высокий риск).\n", + " - **Что поступает на вход**: Возраст, пол, ИМТ, количество детей, курение, регион.\n", + " - **Целевой признак**: Риск (классификация на категории: низкий, средний, высокий).\n", + "\n", + "3. **Разработка персонализированных предложений для клиентов**\n", + " - **Цель технического проекта**: Создать систему рекомендаций, которая будет предлагать персонализированные страховые планы и услуги на основе характеристик клиента.\n", + " - **Что поступает на вход**: Все атрибуты клиента (возраст, пол, ИМТ, дети, курение, регион).\n", + " - **Целевой признак**: Рекомендуемый план страхования или дополнительная услуга.\n", + "\n", + "Каждый из этих проектов направлен на повышение прибыльности компании, улучшение персонализированного подхода к клиентам и снижение финансовых рисков." + ] } ], "metadata": {