diff --git a/lab_2/lab2.ipynb b/lab_2/lab2.ipynb new file mode 100644 index 0000000..e957ff7 --- /dev/null +++ b/lab_2/lab2.ipynb @@ -0,0 +1,104 @@ +{ + "cells": [ + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "# Датасет 1. Зарплата специалистов по обработке данных в 2023 году\n", + "https://www.kaggle.com/datasets/henryshan/2023-data-scientists-salary\n", + "## Анализ сведений\n", + "### Краткое описание\n", + "Этот датасет посвящен анализу факторов, влияющих на уровень заработных плат специалистов в области Data Science. Включенные данные позволяют исследовать взаимосвязь между различными характеристиками сотрудников и их доходами.\n", + "### Проблемная область\n", + "Датасет касается анализа факторов, влияющих на заработную плату специалистов в области Data Science, что является важным аспектом для понимания экономических и профессиональных тенденций на рынке труда в этой сфере. Проблемная область включает:\n", + "- Анализ влияния опыта, типа занятости, географического положения и других факторов на размер заработной платы специалистов.\n", + "- Определение ключевых факторов, влияющих на рост зарплаты в профессии Data Scientist.\n", + "- Выявление тенденций, которые могут помочь работодателям и специалистам принимать решения о карьере, зарплате и условиях работы.\n", + "\n", + "### Актуальность\n", + "- **Рост профессии**: Data Science — это одна из самых востребованных и динамично развивающихся областей на рынке труда. Понимание факторов, влияющих на зарплату, важно для профессионалов и компаний.\n", + "- **Тенденции на рынке труда**: В условиях глобализации и удаленной работы важно понять, как тип занятости и местоположение компании влияют на оплату труда.\n", + "- **Оптимизация карьерных решений**: Анализ данных поможет специалистам принимать обоснованные решения при выборе карьерных путей, а работодателям — разрабатывать конкурентоспособные предложения по зарплате и условиям работы.\n", + "\n", + "### Объекты наблюдений\n", + "Объектами наблюдения являются **Data Scientists**, то есть специалисты, занимающиеся анализом данных. Каждый объект представляет собой запись, которая отражает характеристики работы конкретного специалиста в определенный год.\n", + "\n", + "### Атрибуты объектов\n", + "Каждый объект имеет следующие атрибуты:\n", + "- **work_year** — год, в котором была выплачена зарплата. Позволяет отслеживать изменения зарплат в разные годы.\n", + "- **experience_level** — уровень опыта сотрудника (Entry-level, Mid-level, Senior-level, Executive-level). Это важный атрибут, который влияет на зарплату.\n", + "- **employment_type** — тип занятости (Part-time, Full-time, Contract, Freelance). Определяет, является ли работа постоянной или временной.\n", + "- **job_title** — должность, занимаемая сотрудником. Важно для анализа различий между зарплатами для разных специализаций.\n", + "- **salary** — общая сумма заработной платы.\n", + "- **salary_currency** — валюта, в которой выплачена зарплата.\n", + "- **salaryinusd** — зарплата в долларах США. Этот атрибут используется для стандартизации данных.\n", + "- **employee_residence** — страна проживания сотрудника. Влияет на размер зарплаты и может быть важным для анализа глобальных различий.\n", + "- **remote_ratio** — доля работы, выполняемой удаленно. Важно для анализа влияния удаленной работы на уровень зарплаты.\n", + "- **company_location** — страна, где находится основная офисная локация компании. Это атрибут, который позволяет анализировать региональные различия в зарплатах.\n", + "- **company_size** — размер компании, выраженный через медиану числа сотрудников. Размер компании может влиять на оплату труда, так как крупные компании часто предлагают более высокие зарплаты.\n", + "\n", + "### Связь между объектами\n", + "Связь между объектами заключается в том, что все атрибуты в совокупности описывают профессиональную деятельность и условия работы каждого специалиста. Например:\n", + "- **experience_level** и **job_title** могут быть взаимосвязаны, так как более высокие должности (например, Senior или Executive) соответствуют большему опыту.\n", + "- **salary** напрямую зависит от **experience_level**, **employment_type**, **employee_residence**, **company_location**, и **company_size**, а также от уровня удаленности работы (**remote_ratio**).\n", + "- **salaryinusd** служит для нормализации и сопоставления зарплат между различными странами и валютами.\n", + "- **employee_residence** и **company_location** могут быть связаны с различиями в заработной плате, так как зарплаты могут варьироваться в зависимости от страны проживания и местоположения компании.\n", + "\n", + "## Качество набора данных\n", + "### Информативность\n", + "Датасет содержит разнообразные атрибуты, которые предоставляют полезную информацию для анализа факторов, влияющих на зарплату специалистов в области Data Science. Включенные переменные, такие как **уровень опыта**, **тип занятости**, **зарплата**, **географическое расположение** и **удаленная работа**, позволяют провести многогранный анализ и выявить значимые закономерности. Однако, отсутствие информации о дополнительной квалификации или навыках специалистов (например, знание конкретных технологий или инструментов) может ограничить глубину анализа.\n", + "\n", + "### Степень покрытия\n", + "Датасет охватывает достаточно широкий спектр факторов, влияющих на зарплату, включая географические данные (страна проживания, местоположение компании) и рабочие условия (удаленная работа, тип занятости). Однако степень покрытия может быть ограничена:\n", + "- Данные охватывают только одну профессиональную категорию (Data Science), что не позволяет делать выводы о других областях.\n", + "- Пропущенные данные по некоторым атрибутам могут снизить полноту информации (например, отсутствие данных по размеру компании или типу работы для некоторых записей).\n", + "\n", + "### Соответствие реальным данным\n", + "Датасет в целом отражает реальные условия рынка труда для специалистов в области Data Science. Он содержит важные атрибуты, такие как уровень опыта и зарплата, которые широко используются в исследованиях зарплат. Однако стоит учитывать, что в реальной жизни могут существовать дополнительные переменные, которые не учтены в наборе данных, такие как текущее состояние отрасли или специфические тренды (например, спрос на специалистов в определенных областях).\n", + "\n", + "### Согласованность меток\n", + "Метки в датасете, такие как **experience_level** (уровень опыта), **employment_type** (тип занятости), и **company_size** (размер компании), имеют четкие и логичные категории, что способствует легкости их интерпретации. Однако для некоторых меток могут возникнуть проблемы с точностью классификации, например:\n", + "- В разных странах или компаниях могут существовать различные способы определения уровней опыта, и это может не всегда совпадать с метками в датасете.\n", + "- Некоторые метки могут требовать дополнительного пояснения, например, категориальные значения для **remote_ratio** или **job_title** могут быть варьироваться в зависимости от контекста.\n", + "\n", + "## Бизнес-цели\n", + "### 1. **Определение конкурентоспособных уровней зарплат для специалистов в области Data Science**\n", + "\n", + "**Эффект на бизнес:**\n", + "Датасет поможет компаниям, работающим в сфере Data Science, определять конкурентоспособные уровни зарплат для специалистов в зависимости от уровня опыта, типа занятости и географического положения. Это способствует привлечению и удержанию талантливых специалистов, улучшая стратегию найма и оптимизируя расходы на оплату труда.\n", + "\n", + "**Примеры целей технического проекта:**\n", + "- **Цель проекта:** Создание модели для предсказания конкурентоспособных зарплат для специалистов по Data Science в зависимости от их уровня опыта и местоположения.\n", + " - **Что поступает на вход:** Данные о годе работы, уровне опыта, типе занятости, местоположении компании и специалиста.\n", + " - **Целевой признак:** Прогнозируемая зарплата (в долларах США или эквивалент в локальной валюте).\n", + "\n", + "### 2. **Определение факторов, влияющих на рост зарплат в сфере Data Science**\n", + "\n", + "**Эффект на бизнес:**\n", + "Анализ факторов, влияющих на рост зарплат, позволит компаниям лучше понимать, какие характеристики (например, удаленная работа, опыт работы в крупных компаниях) способствуют повышению заработной платы. Это может помочь в построении программ карьерного роста и мотивации для сотрудников.\n", + "\n", + "**Примеры целей технического проекта:**\n", + "- **Цель проекта:** Разработка модели для анализа факторов, которые влияют на рост зарплат в сфере Data Science.\n", + " - **Что поступает на вход:** Данные о годе работы, уровне опыта, типе занятости, удаленной работе, размере компании и других характеристиках.\n", + " - **Целевой признак:** Изменение зарплаты за год (прибавка к зарплате или её снижение).\n", + "\n", + "### 3. **Улучшение стратегии удаленной работы и гибких условий занятости**\n", + "\n", + "**Эффект на бизнес:**\n", + "Датасет поможет компаниям понять, как удаленная работа или гибкие условия занятости влияют на уровень зарплаты специалистов. Это даст возможность оптимизировать политику гибкости в работе и предложить лучшие условия для сотрудников, что повышает их удовлетворенность и снижает текучесть кадров.\n", + "\n", + "**Примеры целей технического проекта:**\n", + "- **Цель проекта:** Создание модели для анализа влияния удаленной работы и типа занятости на уровень зарплаты в сфере Data Science.\n", + " - **Что поступает на вход:** Данные о проценте удаленной работы, типе занятости (фриланс, контракт, полная или частичная занятость).\n", + " - **Целевой признак:** Зарплата в зависимости от удаленности работы и типа занятости (фиксированная сумма или разница в зарплатах для разных типов занятости)." + ] + } + ], + "metadata": { + "language_info": { + "name": "python" + } + }, + "nbformat": 4, + "nbformat_minor": 2 +}