AIM-PIbd-32-Katysheva-N-E/lab_2/lab2.ipynb

638 lines
280 KiB
Plaintext
Raw Normal View History

2024-09-28 14:49:26 +04:00
{
"cells": [
{
"cell_type": "markdown",
"metadata": {},
"source": [
2024-10-25 21:33:48 +04:00
"# Лабораторная работа №2\n",
2024-09-28 18:10:56 +04:00
"\n",
2024-10-25 21:33:48 +04:00
"## 1. Первый набор данных Forbes 2022 Billionaires data (Данные о миллиардерах Forbes за 2022 год)\n",
2024-09-28 18:10:56 +04:00
"\n",
2024-10-25 21:33:48 +04:00
"Выгрузка данных из CSV файла в датафрейм\n",
"\n"
2024-09-28 14:49:26 +04:00
]
},
{
"cell_type": "code",
2024-10-25 21:33:48 +04:00
"execution_count": 51,
2024-09-28 14:49:26 +04:00
"metadata": {},
"outputs": [
{
2024-09-28 18:10:56 +04:00
"name": "stdout",
2024-09-28 14:49:26 +04:00
"output_type": "stream",
"text": [
2024-10-25 21:33:48 +04:00
"Index(['Rank ', 'Name', 'Networth', 'Age', 'Country', 'Source', 'Industry'], dtype='object')\n",
"\n",
2024-09-28 18:10:56 +04:00
"<class 'pandas.core.frame.DataFrame'>\n",
2024-10-25 21:33:48 +04:00
"RangeIndex: 2600 entries, 0 to 2599\n",
"Data columns (total 7 columns):\n",
2024-09-28 18:10:56 +04:00
" # Column Non-Null Count Dtype \n",
"--- ------ -------------- ----- \n",
2024-10-25 21:33:48 +04:00
" 0 Rank 2600 non-null int64 \n",
" 1 Name 2600 non-null object \n",
" 2 Networth 2600 non-null float64\n",
" 3 Age 2600 non-null int64 \n",
" 4 Country 2600 non-null object \n",
" 5 Source 2600 non-null object \n",
" 6 Industry 2600 non-null object \n",
"dtypes: float64(1), int64(2), object(4)\n",
"memory usage: 142.3+ KB\n"
2024-09-28 14:49:26 +04:00
]
2024-10-25 21:33:48 +04:00
}
],
"source": [
"import pandas as pd\n",
"import matplotlib.pyplot as plt\n",
"import seaborn as sns\n",
"#import seaborn as sns\n",
"\n",
"# Загрузка данных\n",
"df = pd.read_csv(\"..//..//static//csv//Forbes Billionaires.csv\")\n",
"# Вывод колонок\n",
"print(df.columns)\n",
"\n",
"print()\n",
"\n",
"df.info()"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"### Описание набора \n",
"The World's Billionaires — ежегодный рейтинг самых богатых миллиардеров мира по документально подтвержденному состоянию, составляемый и публикуемый в марте каждого года американским деловым журналом Forbes. Общая чистая стоимость каждого человека в списке оценивается и указывается в долларах США на основе их документально подтвержденных активов с учетом задолженности и других факторов. Члены королевской семьи и диктаторы, чье богатство обусловлено их положением, исключены из этих списков. Этот рейтинг представляет собой индекс самых богатых документально подтвержденных лиц, исключая любой рейтинг тех, чье богатство не может быть полностью установлено.\n"
]
},
{
"cell_type": "code",
"execution_count": 52,
"metadata": {},
"outputs": [
2024-09-28 14:49:26 +04:00
{
2024-09-28 18:10:56 +04:00
"data": {
"text/html": [
"<div>\n",
"<style scoped>\n",
" .dataframe tbody tr th:only-of-type {\n",
" vertical-align: middle;\n",
" }\n",
"\n",
" .dataframe tbody tr th {\n",
" vertical-align: top;\n",
" }\n",
"\n",
" .dataframe thead th {\n",
" text-align: right;\n",
" }\n",
"</style>\n",
"<table border=\"1\" class=\"dataframe\">\n",
" <thead>\n",
" <tr style=\"text-align: right;\">\n",
" <th></th>\n",
2024-10-25 21:33:48 +04:00
" <th>Rank</th>\n",
2024-09-28 18:10:56 +04:00
" <th>Name</th>\n",
" <th>Networth</th>\n",
" <th>Age</th>\n",
" <th>Country</th>\n",
" <th>Source</th>\n",
2024-09-28 23:20:22 +04:00
" <th>Industry</th>\n",
2024-09-28 18:10:56 +04:00
" </tr>\n",
" </thead>\n",
" <tbody>\n",
" <tr>\n",
2024-10-25 21:33:48 +04:00
" <th>0</th>\n",
" <td>1</td>\n",
2024-09-28 18:10:56 +04:00
" <td>Elon Musk</td>\n",
" <td>219.0</td>\n",
" <td>50</td>\n",
" <td>United States</td>\n",
" <td>Tesla, SpaceX</td>\n",
2024-09-28 23:20:22 +04:00
" <td>Automotive</td>\n",
2024-09-28 18:10:56 +04:00
" </tr>\n",
" <tr>\n",
2024-10-25 21:33:48 +04:00
" <th>1</th>\n",
" <td>2</td>\n",
2024-09-28 18:10:56 +04:00
" <td>Jeff Bezos</td>\n",
" <td>171.0</td>\n",
" <td>58</td>\n",
" <td>United States</td>\n",
" <td>Amazon</td>\n",
2024-09-28 23:20:22 +04:00
" <td>Technology</td>\n",
2024-09-28 18:10:56 +04:00
" </tr>\n",
" <tr>\n",
2024-10-25 21:33:48 +04:00
" <th>2</th>\n",
" <td>3</td>\n",
2024-09-28 18:10:56 +04:00
" <td>Bernard Arnault &amp; family</td>\n",
" <td>158.0</td>\n",
" <td>73</td>\n",
" <td>France</td>\n",
" <td>LVMH</td>\n",
2024-09-28 23:20:22 +04:00
" <td>Fashion &amp; Retail</td>\n",
2024-09-28 18:10:56 +04:00
" </tr>\n",
" <tr>\n",
2024-10-25 21:33:48 +04:00
" <th>3</th>\n",
" <td>4</td>\n",
2024-09-28 18:10:56 +04:00
" <td>Bill Gates</td>\n",
" <td>129.0</td>\n",
" <td>66</td>\n",
" <td>United States</td>\n",
" <td>Microsoft</td>\n",
2024-09-28 23:20:22 +04:00
" <td>Technology</td>\n",
2024-09-28 18:10:56 +04:00
" </tr>\n",
" <tr>\n",
2024-10-25 21:33:48 +04:00
" <th>4</th>\n",
" <td>5</td>\n",
2024-09-28 18:10:56 +04:00
" <td>Warren Buffett</td>\n",
" <td>118.0</td>\n",
" <td>91</td>\n",
" <td>United States</td>\n",
" <td>Berkshire Hathaway</td>\n",
2024-09-28 23:20:22 +04:00
" <td>Finance &amp; Investments</td>\n",
2024-09-28 18:10:56 +04:00
" </tr>\n",
" </tbody>\n",
"</table>\n",
"</div>"
],
"text/plain": [
2024-10-25 21:33:48 +04:00
" Rank Name Networth Age Country \\\n",
"0 1 Elon Musk 219.0 50 United States \n",
"1 2 Jeff Bezos 171.0 58 United States \n",
"2 3 Bernard Arnault & family 158.0 73 France \n",
"3 4 Bill Gates 129.0 66 United States \n",
"4 5 Warren Buffett 118.0 91 United States \n",
2024-09-28 18:10:56 +04:00
"\n",
2024-10-25 21:33:48 +04:00
" Source Industry \n",
"0 Tesla, SpaceX Automotive \n",
"1 Amazon Technology \n",
"2 LVMH Fashion & Retail \n",
"3 Microsoft Technology \n",
"4 Berkshire Hathaway Finance & Investments "
2024-09-28 18:10:56 +04:00
]
},
2024-10-25 21:33:48 +04:00
"execution_count": 52,
2024-09-28 18:10:56 +04:00
"metadata": {},
"output_type": "execute_result"
2024-09-28 14:49:26 +04:00
}
],
"source": [
2024-10-25 21:33:48 +04:00
"# Вывод столбцов\n",
2024-09-28 14:49:26 +04:00
"df.head()"
]
},
{
"cell_type": "code",
2024-10-25 21:33:48 +04:00
"execution_count": 53,
2024-09-28 14:49:26 +04:00
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"<div>\n",
"<style scoped>\n",
" .dataframe tbody tr th:only-of-type {\n",
" vertical-align: middle;\n",
" }\n",
"\n",
" .dataframe tbody tr th {\n",
" vertical-align: top;\n",
" }\n",
"\n",
" .dataframe thead th {\n",
" text-align: right;\n",
" }\n",
"</style>\n",
"<table border=\"1\" class=\"dataframe\">\n",
" <thead>\n",
" <tr style=\"text-align: right;\">\n",
" <th></th>\n",
2024-10-25 21:33:48 +04:00
" <th>Rank</th>\n",
" <th>Networth</th>\n",
2024-09-28 14:49:26 +04:00
" <th>Age</th>\n",
" </tr>\n",
" </thead>\n",
" <tbody>\n",
" <tr>\n",
2024-10-25 21:33:48 +04:00
" <th>count</th>\n",
" <td>2600.000000</td>\n",
" <td>2600.000000</td>\n",
" <td>2600.000000</td>\n",
2024-09-28 14:49:26 +04:00
" </tr>\n",
" <tr>\n",
2024-10-25 21:33:48 +04:00
" <th>mean</th>\n",
" <td>1269.570769</td>\n",
" <td>4.860750</td>\n",
" <td>64.271923</td>\n",
2024-09-28 14:49:26 +04:00
" </tr>\n",
" <tr>\n",
2024-10-25 21:33:48 +04:00
" <th>std</th>\n",
" <td>728.146364</td>\n",
" <td>10.659671</td>\n",
" <td>13.220607</td>\n",
2024-09-28 14:49:26 +04:00
" </tr>\n",
" <tr>\n",
2024-10-25 21:33:48 +04:00
" <th>min</th>\n",
" <td>1.000000</td>\n",
" <td>1.000000</td>\n",
" <td>19.000000</td>\n",
2024-09-28 14:49:26 +04:00
" </tr>\n",
" <tr>\n",
2024-10-25 21:33:48 +04:00
" <th>25%</th>\n",
" <td>637.000000</td>\n",
" <td>1.500000</td>\n",
" <td>55.000000</td>\n",
2024-09-28 14:49:26 +04:00
" </tr>\n",
" <tr>\n",
2024-10-25 21:33:48 +04:00
" <th>50%</th>\n",
" <td>1292.000000</td>\n",
" <td>2.400000</td>\n",
" <td>64.000000</td>\n",
2024-09-28 14:49:26 +04:00
" </tr>\n",
" <tr>\n",
2024-10-25 21:33:48 +04:00
" <th>75%</th>\n",
" <td>1929.000000</td>\n",
" <td>4.500000</td>\n",
" <td>74.000000</td>\n",
2024-09-28 14:49:26 +04:00
" </tr>\n",
" <tr>\n",
2024-10-25 21:33:48 +04:00
" <th>max</th>\n",
" <td>2578.000000</td>\n",
" <td>219.000000</td>\n",
" <td>100.000000</td>\n",
2024-09-28 14:49:26 +04:00
" </tr>\n",
" </tbody>\n",
"</table>\n",
"</div>"
],
"text/plain": [
2024-10-25 21:33:48 +04:00
" Rank Networth Age\n",
"count 2600.000000 2600.000000 2600.000000\n",
"mean 1269.570769 4.860750 64.271923\n",
"std 728.146364 10.659671 13.220607\n",
"min 1.000000 1.000000 19.000000\n",
"25% 637.000000 1.500000 55.000000\n",
"50% 1292.000000 2.400000 64.000000\n",
"75% 1929.000000 4.500000 74.000000\n",
"max 2578.000000 219.000000 100.000000"
2024-09-28 14:49:26 +04:00
]
},
2024-10-25 21:33:48 +04:00
"execution_count": 53,
2024-09-28 14:49:26 +04:00
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
2024-10-25 21:33:48 +04:00
"# Краткая статистическая сводка для данных:\n",
"df.describe()"
2024-09-28 14:49:26 +04:00
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
2024-10-25 21:33:48 +04:00
"### Получение сведений о пропущенных данных"
2024-09-28 14:49:26 +04:00
]
},
{
"cell_type": "code",
2024-10-25 21:33:48 +04:00
"execution_count": 54,
2024-09-28 14:49:26 +04:00
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
2024-10-25 21:33:48 +04:00
"Rank 0\n",
"Name 0\n",
"Networth 0\n",
"Age 0\n",
"Country 0\n",
"Source 0\n",
"Industry 0\n",
"dtype: int64\n"
2024-09-28 14:49:26 +04:00
]
}
],
"source": [
2024-10-25 21:33:48 +04:00
"# Количество пустых значений признаков\n",
"print(df.isnull().sum())\n"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Нет пропущенных данных"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"### Анализ сведений о наборе данных\n",
2024-09-28 14:49:26 +04:00
"\n",
2024-10-25 21:33:48 +04:00
"**Набор данных:** \n",
2024-09-28 14:49:26 +04:00
"\n",
2024-10-25 21:33:48 +04:00
"Набор данных представляет собой информацию о самых богатых миллиардерах мира. Их состоянии, стране, источнике богатсва, отрасль, в которой они работают. По этим данным будет проводиться анализ. "
2024-09-28 14:49:26 +04:00
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
2024-10-25 21:33:48 +04:00
"**Проблемная область:**\n",
2024-09-28 14:49:26 +04:00
"\n",
2024-10-25 21:33:48 +04:00
"Анализ данных из списка миллиардеров Forbes позволяет не только понять текущее состояние богатства в мире, но и выявить более глубокие тенденции и паттерны, которые могут помочь в принятии бизнес-решений, понимании экономических процессов и определении направлений для дальнейших исследований. Эти данные могут быть основой для многочисленных статей, отчетов и аналитических исследований, что делает их ценными для широкого круга специалистов в различных областях."
2024-09-28 14:49:26 +04:00
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
2024-10-25 21:33:48 +04:00
"**Анализ содержимого**\n",
"\n",
"*Объекты наблюдения:* миллиардеры.\n",
"\n",
"*Атрибуты объектов:* имя, величина богатства, возраст, страна, источник, индустрия\n",
"\n",
"*Связи между объектами:* \n",
" 1) Зависимость между возрастом миллиардера и его состоянием. \n",
" 2) В каких странах наибольшее количество миллиардеров и насколько их состояние велико по сравнению с другими странами.\n",
" 3) Как источник богатства связан с определенными индустриями. \n",
" 4) В каких странах преобладают миллиардеры из определенных отраслей. \n",
" 5) Могут ли более молодые миллиардеры быть более склонными к успеху в определенных индустриях (например, технологии), а более старшие миллиардеры — в традиционных отраслях (например, финансы).\n",
"\n",
"\n"
2024-09-28 14:49:26 +04:00
]
},
{
2024-10-25 21:33:48 +04:00
"cell_type": "markdown",
2024-09-28 14:49:26 +04:00
"metadata": {},
"source": [
2024-10-25 21:33:48 +04:00
"### Бизнес-цель\n",
"1. Концентрация и география богатства\n",
"\n",
"**Цель:** Выявить страны с наибольшим количеством миллиардеров и наибольшей концентрацией богатства для оценки экономической стабильности и перспектив для инвестиций в эти регионы.\n",
"\n",
"**Эффект:** Выбор стратегических регионов для выхода на рынок или расширения бизнеса. Повышение вероятности успешной экспансии за счет инвестиций в страны с наиболее стабильной экономической ситуацией и высоким уровнем благосостояния.\n",
"\n",
"2. Возрастные и демографические характеристики миллиардной элиты\n",
2024-09-28 14:49:26 +04:00
"\n",
2024-10-25 21:33:48 +04:00
"**Цель:** Проанализировать возрастные и демографические характеристики миллиардеров, чтобы выявить общие черты, такие как средний возраст успешных предпринимателей, страны происхождения и индустрии, в которых они добились успеха.\n",
2024-09-28 14:49:26 +04:00
"\n",
2024-10-25 21:33:48 +04:00
"**Эффект:** Определение возрастных групп или регионов с наибольшей вероятностью для предпринимательского успеха. Возможность целенаправленного поиска бизнес-партнеров или инвесторов из этих регионов и возрастных групп.\n",
2024-09-28 14:49:26 +04:00
"\n",
2024-10-25 21:33:48 +04:00
"### Техническая цель\n",
"1. Концентрация и география богатства\n",
2024-09-28 14:49:26 +04:00
"\n",
2024-10-25 21:33:48 +04:00
"**Цель:** Построить аналитическую модель для оценки концентрации богатства по странам.\n",
2024-09-28 14:49:26 +04:00
"\n",
2024-10-25 21:33:48 +04:00
"**На вход модели подаются:** страна, количество миллиардеров, совокупное состояние миллиардеров в стране.\n",
2024-09-28 14:49:26 +04:00
"\n",
2024-10-25 21:33:48 +04:00
"**Целевые показатели:** Количество миллиардеров и общий объем состояния в стране.\n",
2024-09-28 14:49:26 +04:00
"\n",
2024-10-25 21:33:48 +04:00
"2. Возрастные и демографические характеристики миллиардной элиты\n",
2024-09-28 14:49:26 +04:00
"\n",
2024-10-25 21:33:48 +04:00
"**Цель:** Разработать модель для анализа возрастной и региональной структуры миллиардного состояния.\n",
2024-09-28 14:49:26 +04:00
"\n",
2024-10-25 21:33:48 +04:00
"**На вход подаются:** возраст, страна, индустрия, размер состояния.\n",
2024-09-28 14:49:26 +04:00
"\n",
2024-10-25 21:33:48 +04:00
"**Целевые показатели:** Средний возраст миллиардеров по странам и индустриям, распределение состояния по возрастным категориям.\n",
2024-09-28 14:49:26 +04:00
"\n",
2024-10-25 21:33:48 +04:00
"\n"
2024-09-28 14:49:26 +04:00
]
},
{
"cell_type": "code",
2024-10-25 21:33:48 +04:00
"execution_count": 55,
2024-09-28 14:49:26 +04:00
"metadata": {},
"outputs": [
{
2024-10-25 21:33:48 +04:00
"data": {
"image/png": "iVBORw0KGgoAAAANSUhEUgAAAx8AAAHWCAYAAAAW3DTwAAAAOXRFWHRTb2Z0d2FyZQBNYXRwbG90bGliIHZlcnNpb24zLjkuMiwgaHR0cHM6Ly9tYXRwbG90bGliLm9yZy8hTgPZAAAACXBIWXMAAA9hAAAPYQGoP6dpAAA0+ElEQVR4nO3deXgUVb7/8U93VpZ0AiYQoiwJg6CQEJBFlABekUVUXMBlMgrKgAqIOC4jDw5BrzuOC1xEeO4IqAwwOCqjogOyBBnCDiKrIEHQEDBiICwhIX1+f/DruulAQhKTExLer+fph+6qU6e+VXU6yYfqqnYZY4wAAAAAoJK5q7oAAAAAABcHwgcAAAAAKwgfAAAAAKwgfAAAAACwgvABAAAAwArCBwAAAAArCB8AAAAArCB8AAAAALCC8AEAAADACsIHAAAAACsIHwBwgdi7d69cLpdmzJhR1aWgirlcLo0cObKqywCACkf4AFDjzJgxQy6Xy+/RoEEDXXfddfriiy+s17Ns2TK/WoKCghQXF6f77rtPe/bsqZB1rFy5UuPHj1d2dnaF9FcVCu+n9evXnzV/8ODBqlu3brn6XrBggcaPH/8bK6xYNeGYAUBZET4A1FjPPfec3n//fb333nt66qmn9PPPP+vGG2/UZ599ViX1jBo1Su+//76mTZumfv36ae7cuerYsaMyMjJ+c98rV67Us88+W2P+kK3ooLBgwQI9++yzFdrnb1XTjhkAlEZgVRcAAJWlb9++6tChg/N6yJAhatiwoWbPnq2bbrrJej1JSUkaMGCAJOn+++/X5ZdfrlGjRmnmzJkaM2aM9XouVImJifrss8+0YcMGtW/fvqrLqXDHjx9XnTp1qroMAKgSnPkAcNGIiIhQrVq1FBjo//8ux48f1+OPP67GjRsrJCRELVu21GuvvSZjjCTp5MmTatWqlVq1aqWTJ086yx0+fFiNGjXSNddco4KCgjLX81//9V+SpPT09BLbLVmyRElJSapTp44iIiLUv39/bd++3Zk/fvx4Pfnkk5Kk2NhY56NLe/fuPW8NRT+e5nssW7bsrLaDBw8+Z9uiZyk+/PBDdejQQWFhYX7tXnvttfPWI0mPPPKI6tWrV+qzH1988YWzf8LCwtSvXz9t3brVr+7Jkyeftb2S1L59e91+++1+/cXHx8vlcmnz5s3OtLlz58rlcvnt940bN6pv377yeDyqW7eurr/+eq1atcqvL99HAFNTUzV8+HA1aNBAl112WamP2SeffKI2bdooJCRErVu31pdfflmqfQIAFyrOfACosY4cOaKsrCwZY3To0CFNmjRJx44d0x/+8AenjTFGt9xyi5YuXaohQ4YoMTFR//73v/Xkk0/qp59+0htvvKFatWpp5syZuvbaazV27Fi9/vrrkqQRI0boyJEjmjFjhgICAspc3/fffy9JuuSSS4pt89VXX6lv376Ki4vT+PHjdfLkSU2aNEnXXnutNmzYoGbNmun222/Xd999p9mzZ+uNN95QZGSkJCkqKqpUddxwww267777JElr167VxIkTi20bGRmpN954w3l97733+s1PS0vTnXfeqbZt2+rll19WeHi4srKy9Nhjj5WqFknyeDx67LHHNG7cuPOe/Xj//fc1aNAg9e7dW6+88opOnDihKVOmqGvXrtq4caOaNWumBx98UBkZGVq0aJHef/99v+WTkpI0e/Zs5/Xhw4e1detWud1uff3110pISJAkff3114qKitIVV1whSdq6dauSkpLk8Xj01FNPKSgoSFOnTlWPHj2Umpqqzp07+61n+PDhioqK0rhx43T8+HH17dv3vMdsxYoV+uijjzR8+HCFhYVp4sSJuuOOO7Rv374SxwwAXNAMANQw06dPN5LOeoSEhJgZM2b4tf3kk0+MJPP888/7TR8wYIBxuVxm9+7dzrQxY8YYt9ttli9fbubNm2ckmTfffPO89SxdutRIMu+++675+eefTUZGhvn8889Ns2bNjMvlMmvXrjXGGJOenm4kmenTpzvLJiYmmgYNGphffvnFmfbNN98Yt9tt7rvvPmfahAkTjCSTnp5e6v2Ul5dnJJmRI0c603zbtXTp0rPaJycnm9jYWL9pkkxKSorzesyYMUaSOXDggDPNt10TJkwosR7ffpo3b57Jzs429erVM7fccoszf9CgQaZOnTrO65ycHBMREWGGDh3q109mZqYJDw/3mz5ixAhzrl95vu3dtm2bMcaYf/3rXyYkJMTccsst5q677nLaJSQkmNtuu815feutt5rg4GDz/fffO9MyMjJMWFiY6datmzPNNxa7du1qTp8+7bfuko6ZJBMcHOw3/r755hsjyUyaNOnsnQcA1QQfuwJQY02ePFmLFi3SokWL9MEHH+i6667TH//4R3300UdOmwULFiggIECjRo3yW/bxxx+XMcbv7ljjx49X69atNWjQIA0fPlzdu3c/a7mSPPDAA4qKilJMTIz69eun48ePa+bMmX7XpRR24MABbdq0SYMHD1b9+vWd6QkJCbrhhhu0YMGCUq/7XHJzcyVJoaGhpWqfl5enkJCQEtvk5OTI7XYrIiLiN9UWHh6u0aNH61//+pc2btx4zjaLFi1Sdna27rnnHmVlZTmPgIAAde7cWUuXLj3vepKSkiRJy5cvl3TmDEfHjh11ww036Ouvv5YkZWdna8uWLU7bgoICLVy4ULfeeqvi4uKcvho1aqTf//73WrFihY4ePeq3nqFDh5b57FjPnj3VvHlz53VCQoI8Hk+F3SENAKoC4QNAjdWpUyf17NlTPXv2VHJysj7//HNdeeWVGjlypPLy8iRJP/zwg2JiYhQWFua3rO/jNT/88IMzLTg4WO+++67S09OVk5Oj6dOnO9cOlMa4ceO0aNEiLVmyRJs3b1ZGRsZZH1sqzLfuli1bnjXviiuuUFZWlo4fP17q9ReVlZUl6cwf+qWRnZ193lvddunSRV6vV48++qi+//57ZWVl6ddffy1XfY8++qgiIiKKvfZj165dks5cOxMVFeX3WLhwoQ4dOnTedTRs2FAtWrRwgsbXX3+tpKQkdevWTRkZGdqzZ4/+85//yOv1OuHj559/1okTJ4o9Ll6vV/v37/ebHhsbW5ZNlyQ1adLkrGn16tUr9/4EgAsB13wAuGi43W5dd911euutt7Rr1y61bt26zH38+9//lnTmrMGuXbvK9EdlfHy8evbsWeZ1Vhbfxc3NmjUrVfvMzEw1bdq0xDZ33323NmzYoEmTJmnatGm/qT7f2Y/x48ef8+yH1+uVdOa6j+jo6LPmF72xQHG6du2qxYsX6+TJk1q/fr3GjRunNm3aKCIiQl9//bW2b9+uunXrql27duXellq1apV5meLOlJj/fyMEAKiOCB8ALiqnT5+WJB07dkyS1LRpU3311VfKycnxO/uxY8cOZ77P5s2b9dxzz+n+++/Xpk2b9Mc//lHffvttqc8clJVv3Tt37jxr3o4dOxQZGencsrUsZ2B81q1bJ0nFfuyrsPz8fO3evVt9+vQpsZ3b7dZrr72mb7/9Vunp6Xr77bd18OBBv4v8y2L06NF688039eyzz571US7fR5IaNGhw3lBX0v5JSkrS9OnTNWfOHBUUFOiaa66R2+1W165dnfBxzTXXOGEgKipKtWvXLva4uN1uNW7c+LzbVp5jBgDVHR+7AnDRyM/P18KFCxUcHOx8rOrGG29UQUGB/ud//sev7RtvvCGXy6W+ffs6yw4ePFgxMTF66623NGPGDB08eLBMd3Eqq0aNGikxMVEzZ870+yK6LVu2aOHChbrxxhudab4QUpYvrPvwww/VsmVLtWrV6rxt58+fr5MnTzq3By7JpEmTtGTJEs2aNUs9e/bUtddeW+qaivKd/Zg/f742bdrkN693797yeDx68cUXlZ+ff9ayP//8s/O8pP3j+zjVK6+8ooSEBCdMJiUlafHixVq3bp3TRjpzRqJXr16aP3++361xDx48qL///e/q2rWrPB7PebetPMcMAKo7znwAqLG++OIL5wzGoUOH9Pe//127du3S008/7fxxePPNN+u6667T2LF
"text/plain": [
"<Figure size 1000x500 with 1 Axes>"
]
},
"metadata": {},
"output_type": "display_data"
2024-09-28 14:49:26 +04:00
}
],
"source": [
2024-10-25 21:33:48 +04:00
"# Визуализация данных - ящик с усами.\n",
"plt.figure(figsize=(10, 5))\n",
"sns.boxplot(x=df[\"Networth\"])\n",
"plt.title(\"Box Plot для Networth\")\n",
"plt.xlabel(\"Networth\")\n",
"plt.show()"
2024-09-28 14:49:26 +04:00
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
2024-10-25 21:33:48 +04:00
"Исходя из диаграммы, можно сделать вывод, что:\n",
2024-09-28 14:49:26 +04:00
"\n",
2024-10-25 21:33:48 +04:00
"Имущественное распределение крайне неравномерное.\n",
"Лишь несколько людей обладают значительно большим состоянием, чем большинство.\n",
"Основное состояние миллиардеров сосредоточено в меньших диапазонах (до 10 миллиардов)."
]
},
{
"cell_type": "code",
"execution_count": 56,
"metadata": {},
"outputs": [
{
"data": {
"image/png": "iVBORw0KGgoAAAANSUhEUgAAA1IAAAIjCAYAAAAJLyrXAAAAOXRFWHRTb2Z0d2FyZQBNYXRwbG90bGliIHZlcnNpb24zLjkuMiwgaHR0cHM6Ly9tYXRwbG90bGliLm9yZy8hTgPZAAAACXBIWXMAAA9hAAAPYQGoP6dpAAB+GUlEQVR4nO3de3gU9d3+8XsTcibZECDZUDkERDHgCRSMgFqLAiJq1YpWPFQfrRTbCtpWbBWiVcQ+VWurWH38aRUtaj3iIS2CoJRIEMQagxRoAJUsCCEHAgkhO78/0l2z5LCzye7O7Ob9uq5clzv7nZnP7o7Jfpj53uMwDMMQAAAAAMC0OKsLAAAAAIBoQyMFAAAAAEGikQIAAACAINFIAQAAAECQaKQAAAAAIEg0UgAAAAAQJBopAAAAAAgSjRQAAAAABIlGCgAAAACCRCMFAOj2tm3bJofDof/93/+1uhQAQJSgkQKAbuyZZ56Rw+FQcnKyvv7661bPn3XWWRoxYkSntv3CCy/o4Ycf7mKFofXOO+9o3rx5VpfRJY899pgcDofGjBljdSkA0K3RSAEA1NDQoPvvvz+k27RrI1VYWGh1GV3y/PPPa9CgQSopKdGWLVusLgcAui0aKQCATjrpJD355JPauXOn1aWERV1dndUlhER5eblWr16tBx98UH379tXzzz9vdUkA0G3RSAEAdMcdd6ipqcn0WalFixZp1KhRSklJUVZWli6//HJ9+eWXvufPOussvf3229q+fbscDoccDocGDRokwzDUp08fzZ492zfW4/EoMzNT8fHxqqqq8i1fsGCBevToof379/uWLV++XOPHj1daWpoyMzN14YUXauPGjX61zZs3Tw6HQ2VlZfrhD3+oXr16ady4cbr22mv16KOPSpKvJofD0eq1PfHEExoyZIiSkpJ06qmnau3atR2+Fx9//LEcDof+8pe/tHru73//uxwOh9566y1JUm1trW655RYNGjRISUlJys7O1jnnnKP169d3uA+v559/Xr169dKUKVN06aWXtttI7d27V1dddZUyMjKUmZmpa665Rp9++qkcDoeeeeYZv7FffPGFLr30UmVlZSk5OVmnnHKK3nzzTVP1AEB31sPqAgAA1svLy9PVV1+tJ598Urfffrv69evX7th7771Xd955py677DL9z//8j7755hv98Y9/1BlnnKFPPvlEmZmZ+vWvf63q6mp99dVXeuihhyRJPXv2lMPh0NixY/XBBx/4tvevf/1L1dXViouL0z//+U9NmTJFkvThhx/q5JNPVs+ePSVJ7733niZPnqzBgwdr3rx5OnjwoP74xz9q7NixWr9+vQYNGuRX5w9+8AMNHTpU9913nwzD0Mknn6ydO3dq6dKleu6559p8bS+88IJqa2v14x//WA6HQw888IAuvvhi/ec//1FCQkKb65xyyikaPHiwXnrpJV1zzTV+z7344ovq1auXJk6cKEm66aab9Le//U0333yz8vPztXfvXq1atUobN27UyJEjO/iEmj3//PO6+OKLlZiYqCuuuEILFy7U2rVrdeqpp/rGeDweTZ06VSUlJZoxY4aGDRumN954o1VtkvT5559r7Nix+s53vqPbb79daWlpeumll3TRRRfplVde0fe///2ANQFAt2UAALqtp59+2pBkrF271ti6davRo0cP42c/+5nv+TPPPNMYPny47/G2bduM+Ph449577/XbzmeffWb06NHDb/mUKVOMgQMHttrn7373OyM+Pt6oqakxDMMwHnnkEWPgwIHG6NGjjV/96leGYRhGU1OTkZmZacyaNcu33kknnWRkZ2cbe/fu9S379NNPjbi4OOPqq6/2LZs7d64hybjiiita7XvmzJlGW3/6ysvLDUlG7969jcrKSt/yN954w5BkLFmypPWb18KcOXOMhIQEv3UbGhqMzMxM47rrrvMtczqdxsyZMzvcVns+/vhjQ5KxdOlSwzAMw+PxGEcddZTx85//3G/cK6+8YkgyHn74Yd+ypqYm4+yzzzYkGU8//bRv+fe+9z3j+OOPN+rr633LPB6PcfrppxtDhw7tVJ0A0F1waR8AQJI0ePBgXXXVVXriiSdUUVHR5phXX31VHo9Hl112mfbs2eP7cblcGjp0qN5///2A+xk/fryampq0evVqSc1nnsaPH6/x48frww8/lCSVlpaqqqpK48ePlyRVVFRow4YNuvbaa5WVleXb1gknnKBzzjlH77zzTqv93HTTTUG/B9OmTVOvXr38apWk//znPwHXa2xs1Kuvvupb9o9//ENVVVWaNm2ab1lmZqbWrFnTqblozz//vHJycvTd735XUvPlidOmTdPixYvV1NTkG1dUVKSEhATdcMMNvmVxcXGaOXOm3/YqKyu1fPlyXXbZZaqtrfV9lnv37tXEiRO1efPmNpMcAQDNaKQAAD6/+c1vdPjw4XbnSm3evFmGYWjo0KHq27ev38/GjRu1e/fugPsYOXKkUlNTfU2Tt5E644wz9PHHH6u+vt733Lhx4yRJ27dvlyQde+yxrbZ33HHHac+ePa0CJfLy8sy/8P8aMGCA32NvU7Vv374O1zvxxBM1bNgwvfjii75lL774ovr06aOzzz7bt+yBBx5QaWmp+vfvr9GjR2vevHkBmzRJampq0uLFi/Xd735X5eXl2rJli7Zs2aIxY8Zo165dWrZsmW/s9u3blZubq9TUVL9tHH300X6Pt2zZIsMwdOedd7b6LOfOnStJpj5PAOiumCMFAPAZPHiwpk+frieeeEK33357q+c9Ho8cDofeffddxcfHt3reO5+pIwkJCRozZow++OADbdmyRW63W+PHj1dOTo4aGxu1Zs0affjhhxo2bJj69u3b6deSkpIS9DptvSZJMgwj4LrTpk3Tvffeqz179ig9PV1vvvmmrrjiCvXo8e2f2ssuu0zjx4/Xa6+9pn/84x/63e9+pwULFujVV1/V5MmT29328uXLVVFRocWLF2vx4sWtnn/++ed17rnnmniF3/J4PJKk2267zTeH60hHNl8AgG/RSAEA/PzmN7/RokWLtGDBglbPDRkyRIZhKC8vT8ccc0yH22krEc9r/PjxWrBggd577z316dNHw4YNk8Ph0PDhw/Xhhx/qww8/1Pnnn+8bP3DgQEnSpk2bWm3riy++UJ8+fZSWlhbwtXVUU1dNmzZNhYWFeuWVV5STk6Oamhpdfvnlrcbl5ubqJz/5iX7yk59o9+7dGjlypO69994OG6nnn39e2dnZvtTBll599VW99tprevzxx5WSkqKBAwfq/fff14EDB/zOSh15z6nBgwdLam5sJ0yY0NmXDQDdFpf2AQD8DBkyRNOnT9ef//xnud1uv+cuvvhixcfHq7CwsNVZGsMwtHfvXt/jtLQ0VVdXt7mP8ePHq6GhQQ8//LDGjRvna3DGjx+v5557Tjt37vTNT5Kam4+TTjpJf/nLX/wi0ktLS/WPf/xD5513nqnX5m22Wm4jVI477jgdf/zxevHFF/Xiiy8qNzdXZ5xxhu/5pqamVu9Hdna2+vXrp4aGhna3e/DgQb366qs6//zzdemll7b6ufnmm1VbW+uLLJ84caIaGxv15JNP+rbh8XhaNWHZ2dk666yz9Oc//7nNOXHffPNNp94HAOguOCMFAGjl17/+tZ577jlt2rRJw4cP9y0fMmSIfvvb32rOnDnatm2bLrroIqWnp6u8vFyvvfaabrzxRt12222SpFGjRunFF1/U7Nmzdeqpp6pnz56aOnWqJKmgoEA9evTQpk2bdOONN/q2f8YZZ2jhwoWS5NdISdLvfvc7TZ48WQUFBbr++ut98edOp1Pz5s0z9bpGjRolSfrZz36miRMnKj4+vs2zRp01bdo03XXXXUpOTtb111+vuLhv/72ytrZWRx11lC699FKdeOKJ6tmzp9577z2tXbtWv//979vd5ptvvqna2lpdcMEFbT5/2mmn+W7OO23aNF100UUaPXq0br31Vm3ZskXDhg3Tm2++qcrKSkn+Z+UeffRRjRs3Tscff7xuuOEGDR48WLt27VJxcbG++uorffrppyF6ZwA
"text/plain": [
"<Figure size 1000x600 with 1 Axes>"
]
},
"metadata": {},
"output_type": "display_data"
}
],
"source": [
"# Визуализируем отношение возраста и состояния\n",
"plt.figure(figsize=(10, 6))\n",
"plt.scatter(df[\"Networth\"], df[\"Age\"])\n",
"plt.xlabel(\"Networth\")\n",
"plt.ylabel(\"Age\")\n",
"plt.title(\"Networth vs Age\")\n",
"plt.show()"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Данные показывают, что в группе миллиардеров нет прямой зависимости между возрастом и величиной состояния, но большинство людей с огромным состоянием (выше 100 миллиардов) — это исключения, а не правило."
]
},
{
"cell_type": "code",
"execution_count": 57,
"metadata": {},
"outputs": [
{
"data": {
"image/png": "iVBORw0KGgoAAAANSUhEUgAAA80AAATYCAYAAAAlCiVTAAAAOXRFWHRTb2Z0d2FyZQBNYXRwbG90bGliIHZlcnNpb24zLjkuMiwgaHR0cHM6Ly9tYXRwbG90bGliLm9yZy8hTgPZAAAACXBIWXMAAA9hAAAPYQGoP6dpAAEAAElEQVR4nOzde3zP9f//8dt7wzY7mtNGs5nNYcacy5nis4V9ENFyWkIISSuWHOZMEVKKyuSsj0MOtWIoIXOaQ1uLMVQTkc2wme39+8PP++ttBya8F/fr5fK6XPZ6Pp+v5+vxeq0uF489n6/n02A0Go2IiIiIiIiISA5Wlg5AREREREREpLBS0iwiIiIiIiKSByXNIiIiIiIiInlQ0iwiIiIiIiKSByXNIiIiIiIiInlQ0iwiIiIiIiKSByXNIiIiIiIiInlQ0iwiIiIiIiKSByXNIiIiIiIiInlQ0iwiIiL/CklJSRgMBt577z1LhyIiIo8RJc0iIiKFXGRkJAaDAVtbW37//fcc9S1atMDf3/+e+l66dCkzZ878hxHeX19//TVjx461dBj3LDExkVdeeQVvb29sbW1xcnKicePGzJo1i6tXr1o6PAA++ugjIiMjLR2GiMi/gpJmERGRf4mMjAymTJlyX/ssrElzRESEpcO4Jxs3bqRGjRqsXLmS4OBgPvjgAyZPnkyFChV48803ee211ywdIqCkWUSkIIpYOgARERG5O7Vq1WL+/PmEh4dTrlw5S4dz312+fBl7e3tLh3HPTpw4wQsvvICnpydbtmzB3d3dVPfqq69y7NgxNm7caMEI782//fciIvJPaaRZRETkX+Ltt98mKyvrrkebFy9eTN26dbGzs8PV1ZUXXniB06dPm+pbtGjBxo0bOXnyJAaDAYPBgJeXF0ajkVKlSjFs2DBT2+zsbFxcXLC2tubixYum8qlTp1KkSBHS0tJMZVu2bKFp06bY29vj4uJC+/btiY+PN4tt7NixGAwG4uLiePHFFylRogRNmjQhNDSUDz/8EMAUk8FgyPFs8+bNo1KlStjY2FC/fn327NmT77vYu3cvBoOBhQsX5qj79ttvMRgMbNiwAYBLly4xdOhQvLy8sLGxoUyZMrRu3Zr9+/fne49p06aRlpbGZ599ZpYw3+Tj42M20nz9+nXGjx9veg4vLy/efvttMjIyzK4zGAy5Tlf38vIiNDTUdH5zGv+OHTsYNmwYpUuXxt7eno4dO3Lu3Dmz637++We+//570/tt0aKFWR/ff/89AwcOpEyZMjzxxBNs3boVg8HAmjVrcsSxdOlSDAYDu3btyvf9iIj8W2mkWURE5F+iYsWK9OzZk/nz5zNixIh8R5snTpzIqFGj6NKlC3369OHcuXN88MEHNGvWjAMHDuDi4sLIkSNJSUnht99+4/333wfAwcEBg8FA48aN+eGHH0z9HTp0iJSUFKysrNixYwdt27YFYPv27dSuXRsHBwcANm/ezLPPPou3tzdjx47l6tWrfPDBBzRu3Jj9+/fj5eVlFufzzz+Pr68vkyZNwmg0Urt2bf744w82bdrEokWLcn22pUuXcunSJV555RUMBgPTpk3jueee4/jx4xQtWjTXa+rVq4e3tzcrV66kV69eZnUrVqygRIkSBAYGAtC/f3/+97//MWjQIPz8/Dh//jw//vgj8fHx1KlTJ893vn79ery9vWnUqFGebW7Vp08fFi5cSOfOnXnjjTfYvXs3kydPJj4+Ptfk9G4NHjyYEiVKMGbMGJKSkpg5cyaDBg1ixYoVAMycOZPBgwfj4ODAyJEjAShbtqxZHwMHDqR06dKMHj2ay5cv06JFCzw8PFiyZAkdO3Y0a7tkyRIqVapEw4YN7zlmEZFCzSgiIiKF2oIFC4yAcc+ePcbExERjkSJFjEOGDDHVN2/e3Fi9enXTeVJSktHa2to4ceJEs34OHz5sLFKkiFl527ZtjZ6enjnu+e677xqtra2NqampRqPRaJw9e7bR09PT2KBBA+Pw4cONRqPRmJWVZXRxcTG+/vrrputq1aplLFOmjPH8+fOmsoMHDxqtrKyMPXv2NJWNGTPGCBhDQkJy3PvVV1815vZPlBMnThgBY8mSJY0XLlwwlX/11VdGwLh+/fqcL+8W4eHhxqJFi5pdm5GRYXRxcTH27t3bVObs7Gx89dVX8+3rdikpKUbA2L59+7tqHxsbawSMffr0MSsPCwszAsYtW7aYygDjmDFjcvTh6elp7NWrl+n85n8nrVq1MmZnZ5vKX3/9daO1tbXx4sWLprLq1asbmzdvnqPPm300adLEeP36dbO68PBwo42NjVk/Z8+eNRYpUiTX+EREHhWani0iIvIv4u3tTY8ePZg3bx7Jycm5tlm9ejXZ2dl06dKFv/76y3S4ubnh6+vL1q1b73ifpk2bkpWVxc6dO4EbI8pNmzaladOmbN++HYAjR45w8eJFmjZtCkBycjKxsbGEhobi6upq6qtmzZq0bt2ar7/+Osd9+vfvX+B30LVrV0qUKGEWK8Dx48fveF1mZiarV682lX333XdcvHiRrl27mspcXFzYvXs3f/zxx13HlJqaCoCjo+Ndtb/5Lm6dAg/wxhtvAPyjb5/79etnNqX95u/y5MmTd91H3759sba2Nivr2bMnGRkZ/O9//zOVrVixguvXr9O9e/d7jldEpLBT0iwiIvIv884773D9+vU8v20+evQoRqMRX19fSpcubXbEx8dz9uzZO96jTp06FC9e3JQg30yamzVrxt69e0lPTzfVNWnSBMCUlFWpUiVHf9WqVeOvv/7i8uXLZuUVK1a8+wf//ypUqGB2fjOB/vvvv/O9LiAggKpVq5qmKcONpK9UqVI8/fTTprJp06Zx5MgRPDw8aNCgAWPHjr1jQu7k5ATc+B76bpw8eRIrKyt8fHzMyt3c3HBxcSlQgnu7e30/t8rt91K1alXq16/PkiVLTGVLlizhqaeeyvEcIiKPEn3TLCIi8i/j7e1N9+7dmTdvHiNGjMhRn52djcFg4JtvvskxWgiYvj/OT9GiRXnyySf54YcfOHbsGGfOnKFp06aULVuWzMxMdu/ezfbt26latSqlS5e+52exs7Mr8DW5PROA0Wi847Vdu3Zl4sSJ/PXXXzg6OrJu3TpCQkIoUuT//knUpUsXmjZtypo1a/juu+949913mTp1KqtXr+bZZ5/NtV8nJyfKlSvHkSNHCvQsuS1ydreysrJyLf8n7+emvH4vPXv25LXXXuO3334jIyODn376iTlz5tx1vyIi/0YaaRYREfkXujnaPHXq1Bx1lSpVwmg0UrFiRVq1apXjeOqpp0xt80vamjZtSkxMDJs3b6ZUqVJUrVoVV1dXqlevzvbt29m+fTvNmjUztff09AQgISEhR1+//PILpUqVuquti/5JInknXbt25fr166xatYpvvvmG1NRUXnjhhRzt3N3dGThwIGvXruXEiROULFmSiRMn5tt3u3btSExMvKtVpD09PcnOzubo0aNm5X/++ScXL140vUu4MVJ864rlANeuXctzev7duNd3/MILL2Btbc2yZctYsmQJRYsWNZvaLiLyKFLSLCIi8i9UqVIlunfvzieffMKZM2fM6p577jmsra2JiIjIMbpoNBo5f/686dze3p6UlJRc79G0aVMyMjKYOXMmTZo0MSVaTZs2ZdGiRfzxxx+m74nhRqJZq1YtFi5caJbkHTlyhO+++442bdrc1bPdTKxvTxTvh2rVqlGjRg1WrFjBihUrcHd3N0v8s7KycryPMmXKUK5cuRxbQd3urbfewt7enj59+vDnn3/mqE9MTGTWrFkApncxc+ZMszYzZswAMK1ODjd+17euZA43ttzKa6T5btjb29/T+y1VqhTPPvssixcvZsmSJQQFBVGqVKl7jkNE5N9A07NFRET+pUaOHMmiRYtISEigevXqpvJKlSoxYcIEwsPDSUpKokOHDjg6OnLixAnWrFlDv379CAsLA6Bu3bqsWLGCYcOGUb9+fRwcHAgODgagYcOGFClShISEBPr162fqv1mzZsydOxfALGkGePfdd3n22Wdp2LAhL7/
"text/plain": [
"<Figure size 1000x1500 with 1 Axes>"
]
},
"metadata": {},
"output_type": "display_data"
}
],
"source": [
"# Визуализируем отношение страны и состояния\n",
"plt.figure(figsize=(10, 15))\n",
"plt.scatter(df[\"Networth\"], df[\"Country\"])\n",
"plt.xlabel(\"Networth\")\n",
"plt.ylabel(\"Country\")\n",
"plt.title(\"Networth vs Country\")\n",
"plt.show()"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Эта диаграмма указывает на значительное неравенство в распределении состояния между странами, с явным доминированием США, Китая, Индии и нескольких других крупных экономик. Большинство других стран имеют гораздо меньше миллиардных состояний, и их концентрация богатства значительно ниже."
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"### Проблема выбранного набора данных \n",
2024-09-28 14:49:26 +04:00
"\n",
2024-10-25 21:33:48 +04:00
"**Зашумленность данных:** \n",
"Если данные собирались из разных источников, возможно наличие некорректных значений, таких как неправильные оценки состояния, неверные возрастные данные или ошибки в указании стран и индустрий. Это может привести к ошибочным выводам.\n",
2024-09-28 14:49:26 +04:00
"\n",
2024-10-25 21:33:48 +04:00
"**Смещение данных:** \n",
"Набор данных может быть смещен в пользу определенных стран или индустрий. Например, список может включать больше американских миллиардеров или миллиардеров из технологической индустрии, что не отражает равномерно весь глобальный бизнес-контекст.\n",
2024-09-28 14:49:26 +04:00
"\n",
2024-10-25 21:33:48 +04:00
"**Выбросы:** \n",
"Супербогатые миллиардеры (например, с состоянием более 100 миллиардов) могут сильно выделяться и смещать средние значения, делая общие выводы менее репрезентативными для большинства людей в выборке. \n",
2024-09-28 14:49:26 +04:00
"\n",
2024-10-25 21:33:48 +04:00
"**Актуальность данных:** \n",
"Если данные о состоянии миллиардеров собирались несколько лет назад, то они могут уже не быть актуальными. Изменения на рынках, политические события или пандемии могут значительно повлиять на текущее состояние бизнеса и богатство людей."
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"### Борьба с выбросами"
2024-09-28 14:49:26 +04:00
]
},
{
"cell_type": "code",
2024-10-25 21:33:48 +04:00
"execution_count": 58,
2024-09-28 14:49:26 +04:00
"metadata": {},
"outputs": [
{
"data": {
2024-10-25 21:33:48 +04:00
"image/png": "iVBORw0KGgoAAAANSUhEUgAAAx8AAAHWCAYAAAAW3DTwAAAAOXRFWHRTb2Z0d2FyZQBNYXRwbG90bGliIHZlcnNpb24zLjkuMiwgaHR0cHM6Ly9tYXRwbG90bGliLm9yZy8hTgPZAAAACXBIWXMAAA9hAAAPYQGoP6dpAAAtvUlEQVR4nO3de5xVdb34//fMMMNwm0F0AAkEtFIxCQ30ITehUAQvmWmZmKJmngQJ7VRw6ACa1yxvkAQnA+96NBIfhCWi4K2OKOIVlBRFRbmEXAXBmf37g+/sH8Mw3P1sGJ/Px2MezV5r7b0+s9cO12vWZfIymUwmAAAAPmf5uR4AAADwxSA+AACAJMQHAACQhPgAAACSEB8AAEAS4gMAAEhCfAAAAEmIDwAAIAnxAQAAJCE+AACAJMQHwB7inXfeiby8vJgwYUKuh0KO5eXlxcCBA3M9DIDdTnwAtc6ECRMiLy+vylfTpk2jZ8+e8cgjjyQfz/Tp06uMpbCwMA488MA455xz4u23394t63j22Wdj5MiRsXz58t3yermw6fv0wgsvVJvfv3//aNiw4U699pQpU2LkyJG7OMLdqzZsM4AdJT6AWuuKK66IO++8M+644474xS9+EUuWLIm+ffvG5MmTczKeQYMGxZ133hnjxo2LE088Me6///7o1KlTLFy4cJdf+9lnn43LL7+81uzI7u5QmDJlSlx++eW79TV3VW3bZgDbo06uBwDweenTp0907Ngx+/iCCy6IZs2axb333hsnnXRS8vF069YtTj/99IiIOO+88+KrX/1qDBo0KG6//fYYOnRo8vHsqTp06BCTJ0+OWbNmxZFHHpnr4ex2a9asiQYNGuR6GAA54cgH8IXRuHHjqFevXtSpU/X3LmvWrImf/exn0apVq6hbt24cfPDB8dvf/jYymUxERKxduzYOOeSQOOSQQ2Lt2rXZ5y1btiz233//6Ny5c5SXl+/weL75zW9GRMT8+fO3utzjjz8e3bp1iwYNGkTjxo3j29/+dsyZMyc7f+TIkfHzn/88IiLatm2bPXXpnXfe2eYYNj89rfJr+vTp1Zbt37//Fpfd/CjFgw8+GB07doxGjRpVWe63v/3tNscTEXHJJZfEPvvss91HPx555JHs+9OoUaM48cQT47XXXqsy7t///vfVft6IiCOPPDJOO+20Kq93+OGHR15eXrz88svZaffff3/k5eVVed9ffPHF6NOnT5SUlETDhg3jW9/6Vvzzn/+s8lqVpwDOmDEjLr744mjatGm0bNlyu7fZQw89FF/72teibt26cdhhh8Xf/va37XpPAPZUjnwAtdaKFSti6dKlkclkYvHixTFq1KhYvXp1nH322dllMplMnHLKKfHEE0/EBRdcEB06dIi///3v8fOf/zw++OCDuPHGG6NevXpx++23R5cuXWLYsGFxww03RETEgAEDYsWKFTFhwoQoKCjY4fG99dZbERGx77771rjMY489Fn369IkDDzwwRo4cGWvXro1Ro0ZFly5dYtasWdGmTZs47bTT4s0334x77703brzxxthvv/0iIqKsrGy7xnHcccfFOeecExERM2fOjFtuuaXGZffbb7+48cYbs49/+MMfVpn/j3/8I773ve/F17/+9bj22mujtLQ0li5dGpdeeul2jSUioqSkJC699NIYPnz4No9+3HnnnXHuuedG796947rrrotPPvkkxowZE127do0XX3wx2rRpExdddFEsXLgwpk6dGnfeeWeV53fr1i3uvffe7ONly5bFa6+9Fvn5+fHUU09F+/btIyLiqaeeirKysjj00EMjIuK1116Lbt26RUlJSfziF7+IwsLCGDt2bPTo0SNmzJgRRx99dJX1XHzxxVFWVhbDhw+PNWvWRJ8+fba5zZ5++umYOHFiXHzxxdGoUaO45ZZb4rvf/W4sWLBgq58ZgD1aBqCWGT9+fCYiqn3VrVs3M2HChCrLPvTQQ5mIyFx55ZVVpp9++umZvLy8zL/+9a/stKFDh2by8/MzTz75ZOaBBx7IRETmpptu2uZ4nnjiiUxEZP70pz9llixZklm4cGHmr3/9a6ZNmzaZvLy8zMyZMzOZTCYzf/78TERkxo8fn31uhw4dMk2bNs38+9//zk576aWXMvn5+ZlzzjknO+3666/PRERm/vz52/0+rV+/PhMRmYEDB2anVf5cTzzxRLXl+/Xrl2nbtm2VaRGRGTFiRPbx0KFDMxGR+fDDD7PTKn+u66+/fqvjqXyfHnjggczy5csz++yzT+aUU07Jzj/33HMzDRo0yD5etWpVpnHjxpkLL7ywyut89NFHmdLS0irTBwwYkNnSf/Iqf97XX389k8lkMg8//HCmbt26mVNOOSXz/e9/P7tc+/btM9/5zneyj0899dRMUVFR5q233spOW7hwYaZRo0aZ7t27Z6dVfha7du2a+eyzz6qse2vbLCIyRUVFVT5/L730UiYiMqNGjar+5gHsJZx2BdRav//972Pq1KkxderUuOuuu6Jnz57xox/9KCZOnJhdZsqUKVFQUBCDBg2q8tyf/exnkclkqtwda+TIkXHYYYfFueeeGxdffHEce+yx1Z63Neeff36UlZVFixYt4sQTT4w1a9bE7bffXuW6lE19+OGHMXv27Ojfv380adIkO719+/Zx3HHHxZQpU7Z73Vuybt26iIgoLi7eruXXr18fdevW3eoyq1ativz8/GjcuPEuja20tDQGDx4cDz/8cLz44otbXGbq1KmxfPny+MEPfhBLly7NfhUUFMTRRx8dTzzxxDbX061bt4iIePLJJyNi4xGOTp06xXHHHRdPPfVUREQsX748Xn311eyy5eXl8eijj8app54aBx54YPa19t9//zjrrLPi6aefjpUrV1ZZz4UXXrjDR8d69eoVBx10UPZx+/bto6SkZLfdIQ0gF8QHUGsdddRR0atXr+jVq1f069cv/vrXv0a7du1i4MCBsX79+oiIePfdd6NFixbRqFGjKs+tPL3m3XffzU4rKiqKP/3pTzF//vxYtWpVjB8/PnvtwPYYPnx4TJ06NR5//PF4+eWXY+HChdVOW9pU5boPPvjgavMOPfTQWLp0aaxZs2a717+5pUuXRsTGHf3tsXz58m3e6vaYY46JioqK+OlPfxpvvfVWLF26ND7++OOdGt9Pf/rTaNy4cY3XfsybNy8iNl47U1ZWVuXr0UcfjcWLF29zHc2aNYuvfOUr2dB46qmnolu3btG9e/dYuHBhvP322/HMM89ERUVFNj6WLFkSn3zySY3bpaKiIt57770q09u2bbsjP3pERBxwwAHVpu2zzz47/X4C7Alc8wF8YeTn50fPnj3j5ptvjnnz5sVhhx22w6/x97//PSI2HjWYN2/eDu1UHn744dGrV68dXufnpfLi5jZt2mzX8h999FG0bt16q8uceeaZMWvWrBg1alSMGzdul8ZXefRj5MiRWzz6UVFREREbr/to3rx5tfmb31igJl27do1p06bF2rVr44UXXojhw4fH1772tWjcuHE89dRTMWfOnGjYsGEcccQRO/2z1KtXb4efU9ORksz/uxECwN5IfABfKJ999llERKxevToiIlq3bh2PPfZYrFq1qsrRj7lz52bnV3r55ZfjiiuuiPPOOy9mz54dP/rRj+KVV17Z7iMHO6py3W+88Ua1eXPnzo399tsve8vWHTkCU+n555+PiKjxtK9NbdiwIf71r3/FCSecsNXl8vPz47e//W288sorMX/+/Lj11ltj0aJFVS7y3xGDBw+Om266KS6//PJqp3JVnpLUtGnTbUbd1t6fbt26xfjx4+O+++6L8vLy6Ny5c+Tn50fXrl2z8dG5c+dsDJSVlUX9+vVr3C75+fnRqlWrbf5sO7PNAPZ2TrsCvjA2bNgQjz76aBQVFWVPq+rbt2+Ul5fH6NGjqyx74403Rl5eXvTp0yf73P79+0eLFi3i5ptvjgkTJsSiRYt26C5OO2r//fePDh06xO23317lD9G9+uqr8eijj0bfvn2z0yojZEf+YN2DDz4YBx98cBxyyCHbXHbSpEmxdu3a7O2Bt2bUqFH
2024-09-28 14:49:26 +04:00
"text/plain": [
2024-10-25 21:33:48 +04:00
"<Figure size 1000x500 with 1 Axes>"
2024-09-28 14:49:26 +04:00
]
},
"metadata": {},
2024-10-25 21:33:48 +04:00
"output_type": "display_data"
2024-09-28 14:49:26 +04:00
}
],
"source": [
2024-10-25 21:33:48 +04:00
"# Статистический анализ для определения выбросов\n",
"Q1 = df[\"Networth\"].quantile(0.25)\n",
"Q3 = df[\"Networth\"].quantile(0.75)\n",
"IQR = Q3 - Q1\n",
"\n",
"# Определение порога для выбросов\n",
"threshold = 1.5 * IQR\n",
"outliers = (df[\"Networth\"] < (Q1 - threshold)) | (\n",
" df[\"Networth\"] > (Q3 + threshold)\n",
")\n",
2024-09-28 14:49:26 +04:00
"\n",
2024-10-25 21:33:48 +04:00
"# Обработка выбросов\n",
"# В данном случае мы уберем выбросы\n",
"df.loc[outliers, \"Networth\"] = 0\n",
"df1 = df[df.Networth != 0]\n",
"\n",
"# Визуализация данных - ящик с усами.\n",
"plt.figure(figsize=(10, 5))\n",
"sns.boxplot(x=df[\"Networth\"])\n",
"plt.title(\"Box Plot для Networth\")\n",
"plt.xlabel(\"Networth\")\n",
"plt.show()\n"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"### Разбиение датасета на три части: обучающую, контрольную и тестовую выборки"
]
},
{
"cell_type": "code",
"execution_count": 59,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"Размер обучающей выборки: 1560\n",
"Размер контрольной выборки: 520\n",
"Размер тестовой выборки: 520\n"
]
}
],
"source": [
"from sklearn.model_selection import train_test_split\n",
2024-09-28 14:49:26 +04:00
"\n",
2024-10-25 21:33:48 +04:00
"# Выделим признаки (все столбцы, кроме целевого, например \"Networth\") и целевой признак (например, \"Networth\")\n",
"X = df.drop(columns=[\"Networth\"]) # Признаки (все столбцы, кроме целевого признака 'Networth')\n",
"y = df[\"Networth\"] # Целевая переменная (Networth)\n",
2024-09-28 14:49:26 +04:00
"\n",
2024-10-25 21:33:48 +04:00
"# 1. Разделяем данные на обучающую (60%) и временную (40%) выборки\n",
"X_train, X_temp, y_train, y_temp = train_test_split(X, y, test_size=0.4, random_state=42)\n",
2024-09-28 14:49:26 +04:00
"\n",
2024-10-25 21:33:48 +04:00
"# 2. Разделяем временную выборку пополам на контрольную (20%) и тестовую (20%) выборки\n",
"X_val, X_test, y_val, y_test = train_test_split(X_temp, y_temp, test_size=0.5, random_state=42)\n",
2024-09-28 14:49:26 +04:00
"\n",
2024-10-25 21:33:48 +04:00
"# Выводим размеры выборок\n",
"print(f\"Размер обучающей выборки: {len(X_train)}\")\n",
"print(f\"Размер контрольной выборки: {len(X_val)}\")\n",
"print(f\"Размер тестовой выборки: {len(X_test)}\")\n"
2024-09-28 14:49:26 +04:00
]
}
],
"metadata": {
"kernelspec": {
"display_name": ".venv",
"language": "python",
"name": "python3"
},
"language_info": {
"codemirror_mode": {
"name": "ipython",
"version": 3
},
"file_extension": ".py",
"mimetype": "text/x-python",
"name": "python",
"nbconvert_exporter": "python",
"pygments_lexer": "ipython3",
"version": "3.12.6"
}
},
"nbformat": 4,
"nbformat_minor": 2
}