diff --git a/lab_2/lab2.ipynb b/lab_2/lab2.ipynb index 72e0a00..8db1389 100644 --- a/lab_2/lab2.ipynb +++ b/lab_2/lab2.ipynb @@ -4,7 +4,7 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "Загрузка данных в DataFrame \"Список форбс\"\n", + "Загрузка данных в DataFrame \"Список форбс\"\n", "\n", "О рейтинге\n", "The World's Billionaires (\"Миллиардеры мира\") - ежегодный рейтинг самых богатых миллиардеров мира, составляемый и публикуемый в марте американским деловым журналом Forbes. Общее состояние каждого человека, включенного в список, оценивается в долларах США на основе его документально подтвержденных активов, а также с учетом долгов и других факторов. Этот рейтинг представляет собой список самых богатых людей, зарегистрированных по документам, за исключением тех, чье благосостояние не может быть полностью установлено.\n", @@ -23,7 +23,7 @@ }, { "cell_type": "code", - "execution_count": 3, + "execution_count": 8, "metadata": {}, "outputs": [ { @@ -31,17 +31,17 @@ "output_type": "stream", "text": [ "\n", - "Index: 2600 entries, Automotive to Food & Beverage \n", + "Index: 2600 entries, 1 to 2578\n", "Data columns (total 6 columns):\n", " # Column Non-Null Count Dtype \n", "--- ------ -------------- ----- \n", - " 0 Rank 2600 non-null int64 \n", - " 1 Name 2600 non-null object \n", - " 2 Networth 2600 non-null float64\n", - " 3 Age 2600 non-null int64 \n", - " 4 Country 2600 non-null object \n", - " 5 Source 2600 non-null object \n", - "dtypes: float64(1), int64(2), object(3)\n", + " 0 Name 2600 non-null object \n", + " 1 Networth 2600 non-null float64\n", + " 2 Age 2600 non-null int64 \n", + " 3 Country 2600 non-null object \n", + " 4 Source 2600 non-null object \n", + " 5 Industry 2600 non-null object \n", + "dtypes: float64(1), int64(1), object(4)\n", "memory usage: 142.2+ KB\n", "(2600, 6)\n" ] @@ -67,15 +67,15 @@ " \n", " \n", " \n", - " Rank\n", " Name\n", " Networth\n", " Age\n", " Country\n", " Source\n", + " Industry\n", " \n", " \n", - " Industry\n", + " Rank\n", " \n", " \n", " \n", @@ -86,73 +86,73 @@ " \n", " \n", " \n", - " Automotive\n", - " 1\n", + " 1\n", " Elon Musk\n", " 219.0\n", " 50\n", " United States\n", " Tesla, SpaceX\n", + " Automotive\n", " \n", " \n", - " Technology\n", - " 2\n", + " 2\n", " Jeff Bezos\n", " 171.0\n", " 58\n", " United States\n", " Amazon\n", + " Technology\n", " \n", " \n", - " Fashion & Retail\n", - " 3\n", + " 3\n", " Bernard Arnault & family\n", " 158.0\n", " 73\n", " France\n", " LVMH\n", + " Fashion & Retail\n", " \n", " \n", - " Technology\n", - " 4\n", + " 4\n", " Bill Gates\n", " 129.0\n", " 66\n", " United States\n", " Microsoft\n", + " Technology\n", " \n", " \n", - " Finance & Investments\n", - " 5\n", + " 5\n", " Warren Buffett\n", " 118.0\n", " 91\n", " United States\n", " Berkshire Hathaway\n", + " Finance & Investments\n", " \n", " \n", "\n", "" ], "text/plain": [ - " Rank Name Networth Age \\\n", - "Industry \n", - "Automotive 1 Elon Musk 219.0 50 \n", - "Technology 2 Jeff Bezos 171.0 58 \n", - "Fashion & Retail 3 Bernard Arnault & family 158.0 73 \n", - "Technology 4 Bill Gates 129.0 66 \n", - "Finance & Investments 5 Warren Buffett 118.0 91 \n", + " Name Networth Age Country \\\n", + "Rank \n", + "1 Elon Musk 219.0 50 United States \n", + "2 Jeff Bezos 171.0 58 United States \n", + "3 Bernard Arnault & family 158.0 73 France \n", + "4 Bill Gates 129.0 66 United States \n", + "5 Warren Buffett 118.0 91 United States \n", "\n", - " Country Source \n", - "Industry \n", - "Automotive United States Tesla, SpaceX \n", - "Technology United States Amazon \n", - "Fashion & Retail France LVMH \n", - "Technology United States Microsoft \n", - "Finance & Investments United States Berkshire Hathaway " + " Source Industry \n", + "Rank \n", + "1 Tesla, SpaceX Automotive \n", + "2 Amazon Technology \n", + "3 LVMH Fashion & Retail \n", + "4 Microsoft Technology \n", + "5 Berkshire Hathaway Finance & Investments " ] }, - "execution_count": 3, + "execution_count": 8, "metadata": {}, "output_type": "execute_result" } @@ -160,7 +160,7 @@ "source": [ "import pandas as pd\n", "\n", - "df = pd.read_csv(\"..//..//static//csv//Forbes Billionaires.csv\", index_col=\"Industry\")\n", + "df = pd.read_csv(\"..//..//static//csv//Forbes Billionaires.csv\", index_col=\"Rank\")\n", "\n", "df.info()\n", "\n", @@ -169,6 +169,52 @@ "df.head()" ] }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "2. Проблемная область\n", + "

\n", + "Анализ данных из списка миллиардеров Forbes позволяет не только понять текущее состояние богатства в мире, но и выявить более глубокие тенденции и паттерны, которые могут помочь в принятии бизнес-решений, понимании экономических процессов и определении направлений для дальнейших исследований. Эти данные могут быть основой для многочисленных статей, отчетов и аналитических исследований, что делает их ценными для широкого круга специалистов в различных областях." + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "3. Анализ содержимого\n", + "

\n", + "\n", + "1. Объектами наблюдения являются миллиардеры.\n", + "2. В качестве атбирутов вредставлены: имя, величина богатства, возраст, страна, источник, индустрия\n", + "3. Связей между объектами нет" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "4. Бизнес-цели\n", + "

\n", + "1. Сравнив свой бизнес с другими успешными компаниями, основанными миллиардерами, можно извлечь ценные уроки о сильных сторонами и недостатках своей компании.\n", + "2. Анализируя, в каких секторах работают миллиардеры и какие компании они развивают, можно выявить растущие рынки и индустрии, в которые стоит инвестировать.\n" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Привести примеры целей технического проекта для каждой выделенной ранее\n", + "бизнес-цели. Что поступает на вход, что является целевым признаком?\n" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": {}, + "outputs": [], + "source": [] + }, { "cell_type": "markdown", "metadata": {}, @@ -188,42 +234,29 @@ }, { "cell_type": "code", - "execution_count": 2, + "execution_count": 7, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ - "Survived 0\n", - "Pclass 0\n", - "Name 0\n", - "Sex 0\n", - "Age 177\n", - "SibSp 0\n", - "Parch 0\n", - "Ticket 0\n", - "Fare 0\n", - "Cabin 687\n", - "Embarked 2\n", + "Name 0\n", + "Networth 0\n", + "Age 0\n", + "Country 0\n", + "Source 0\n", + "Industry 0\n", "dtype: int64\n", "\n", - "Survived False\n", - "Pclass False\n", "Name False\n", - "Sex False\n", - "Age True\n", - "SibSp False\n", - "Parch False\n", - "Ticket False\n", - "Fare False\n", - "Cabin True\n", - "Embarked True\n", + "Networth False\n", + "Age False\n", + "Country False\n", + "Source False\n", + "Industry False\n", "dtype: bool\n", - "\n", - "Age процент пустых значений: %19.87\n", - "Cabin процент пустых значений: %77.10\n", - "Embarked процент пустых значений: %0.22\n" + "\n" ] } ],