From 401a5454eeb0eceeee538c196a7000993536402e Mon Sep 17 00:00:00 2001
From: DmitriyAntonov
Date: Sun, 8 Oct 2023 10:49:00 +0400
Subject: [PATCH] =?UTF-8?q?=D0=BB=D0=B0=D0=B1=D0=B0=203=20=D1=80=D0=B5?=
=?UTF-8?q?=D0=B0=D0=B4=D0=B8?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit
---
antonov_dmitry_lab_3/README.md | 85 ++++++++++++++++++++
antonov_dmitry_lab_3/lab3.py | 2 +-
antonov_dmitry_lab_3/screens/mydataset1.png | Bin 0 -> 13813 bytes
antonov_dmitry_lab_3/screens/mydataset2.png | Bin 0 -> 16053 bytes
antonov_dmitry_lab_3/screens/titanic.png | Bin 0 -> 10846 bytes
5 files changed, 86 insertions(+), 1 deletion(-)
create mode 100644 antonov_dmitry_lab_3/README.md
create mode 100644 antonov_dmitry_lab_3/screens/mydataset1.png
create mode 100644 antonov_dmitry_lab_3/screens/mydataset2.png
create mode 100644 antonov_dmitry_lab_3/screens/titanic.png
diff --git a/antonov_dmitry_lab_3/README.md b/antonov_dmitry_lab_3/README.md
new file mode 100644
index 0000000..1f8db32
--- /dev/null
+++ b/antonov_dmitry_lab_3/README.md
@@ -0,0 +1,85 @@
+# Лаб 3
+
+Деревья решений
+
+Часть 1. По данным о пассажирах Титаника решите задачу классификации
+(с помощью дерева решений), в которой по различным характеристикам
+пассажиров требуется найти у выживших пассажиров два наиболее важных
+признака из трех рассматриваемых (по варианту). Пример решения задачи
+можно посмотреть здесь: [1] (стр.188). Скачать данные можно по ссылке:
+https://www.kaggle.com/datasets/heptapod/titanic
+
+Часть 2. Решите с помощью библиотечной реализации дерева решений
+задачу из лабораторной работы «Веб-сервис «Дерево решений» по предмету
+«Методы искусственного интеллекта» на 99% ваших данных. Проверьте
+работу модели на оставшемся проценте, сделайте вывод.
+
+# Вариант 3
+
+Признаки Sex,Age,SibSp
+
+# Запуск
+
+Выполнением скрипта файла (вывод в консоль).
+
+# Описание модели:
+
+DecisionTreeClassifier - это алгоритм машинного обучения, используемый для задач классификации и регрессии.
+Он представляет собой дерево решений, где на каждом узле дерева решается, какой вопрос задать дальше
+(признак для дальнейшего разбиения данных), а в листьях находятся окончательные ответы.
+
+# Результаты
+
+На данных для Титаника модель определяет важность признаков с точность 75% (исключает 'sibsp').
+Эти два признака обладают статистической важностью.
+
+
Титаник
+
+
+
+На данных моего датасета модель справляется на 52.768%, если в качестве предлагаемых параметров
+на вход идут ['Gender', 'Debtor', 'International'] (исключает 'International').
+
+
+
Мой датасет 1
+
+
+
+И на 70.961, если на вход идут ['Gender', 'Debtor', 'Curricular units 2nd sem (approved)']
+(исключает 'Gender').
+
+
+
Мой датасет 2
+
+
+
+Такой результат можно объяснить большей значимостью признака 'Curricular units 2nd sem (approved)'
+вместо 'International' (было показано в предыдущей лабораторной).
+
+Из-за того, что мы взяли статистически более значимый признак, модель выдает нам большую точность.
+
+Точность 52.768% указывает на то, что модель работает на уровне случайности, что означает, что она
+работает не лучше, чем случайное угадывание. Для этого может быть несколько причин:
+
+1. Признаки все имеет малое значение: то есть для сравнения подаются признаки статистически малозначимые.
+
+2. Недостаточно данных: Набор данных может содержать недостаточно информации или примеров для
+изучения моделью. Если набор данных невелик или нерепрезентативен, модель, возможно, не сможет
+хорошо обобщить новые данные.
+
+3. Несбалансированные классы: Если классы в вашей целевой переменной несбалансированы
+(например, случаев, не связанных с отсевом, гораздо больше, чем случаев отсева), модель может
+быть смещена в сторону прогнозирования класса большинства.
+
+4. Переобучение: Модель может быть переобучена обучающими данным, что означает, что она изучает шум
+в данных, а не лежащие в их основе закономерности. Это может произойти, если модель слишком сложна по
+сравнению с объемом доступных данных.
+
+5. Недостаточное соответствие: С другой стороны, модель может быть слишком простой, чтобы отразить
+взаимосвязи в данных. Важно выбрать соответствующий уровень сложности модели.
+
+
+При отборе признаков должна учитываться их статистическая значимость, вычисленная различными способами
+(например с помощью лин регрессии, Random Forest Regressor, линейной корреляции f_regression или других).
+Так же должно быть достаточно данных, в модели должно быть сведено к минимуму переобучение.
+
\ No newline at end of file
diff --git a/antonov_dmitry_lab_3/lab3.py b/antonov_dmitry_lab_3/lab3.py
index 27223cd..e2c9d22 100644
--- a/antonov_dmitry_lab_3/lab3.py
+++ b/antonov_dmitry_lab_3/lab3.py
@@ -8,7 +8,7 @@ data = pd.read_csv('dataset.csv')
# определение признаков
# целевая переменная - Target
-X = data[['Gender', 'Debtor', 'International']]
+X = data[['Gender', 'Debtor', 'Curricular units 2nd sem (approved)']]
y = data['Target'] # Assuming 'Dropout' is the target variable
# разделили данные на тренировочную и тестовую выборки
diff --git a/antonov_dmitry_lab_3/screens/mydataset1.png b/antonov_dmitry_lab_3/screens/mydataset1.png
new file mode 100644
index 0000000000000000000000000000000000000000..0c4d8f2ea098be1c59ae8ea5e4323de7fb072116
GIT binary patch
literal 13813
zcmc(mbyQnh*RSE=?k<61!Ao&Mq0p94D8(u6T7nkWHnHBj7L3ba57E~U7;
z-SnLIeeXBEaqoXu#>mLX&QA8;Yt6Ohn)CO}6`}S9OoUI5kA{Xu^h)uC1{xX$4E5O%
z7aR3XW_3-7h9=tb>V=$^m+@YPohIer%z2iehDsGC3#$Mti$!=NA*&;9Ak|AwN*9Jc
ztcw^kEk>;uX3sF`(R1voI<5CY3&q{jZ+wkZt+XraMYIu+ZSSKfy02qHWr@F}c<=DY15jzsTUN|)xI_)v>f8Rp~lhukqX?wBb*Oe+Edy$Jx
z+_|yThJeFIt)Ne8=}Puk5u&wjv1=cJO^#;Ipo
zvkg_@#^da3ILg(Gcg3a%=&-+Q)&Yr>bL*!AnH_Xt_!ysbta8l3(ID6T;$~0cL-`_D
zPvB2`KY79lG|{i3j@M^#%Yxp#<{wHDN4}>Dv5Nqtvf!?Q<*FdvU;8HnkKlUK;sL!y
zIlq_oVNPlV25+V{S$Z(d2Qj#)dyikYH^=6d^&ABKB!>lzie8Z&*ipL^Vnbq@77y2^YpM39K14+Xds~!Z(
z2+ZjZfE83lr4^N!e$XeI;w_mp1lw89EMB5(Jg3S`^<-34Xjc;a9h=Hu;)WW$vKZQX
zWhWOaTj~}W53Z){r23+fjuzqmtnOlKA3mb_|HLeK^lWhP4o9j`&xeLyDKT(sd&7b<
z)6}B=@w=V+4qL=5ukeRbv?
zD4NV5kYv1i@{f(;A+k-GD@RPm22RpHW9=qlPyFA;H{g4$lf&$aq?XADBu{F{?IPt1
zne0Q9Ti~-gc})tWm`B2g!URg^R*k3C%6|9bp|X6(1Vej`QazKBF13oXM!9HKYrPkf
zb@N+AVC}6D^1=Q9K)Z9xgBLXBXIF9g%wKs{6s`g*Olf+eh+y*GR30-`492qk>q-j>
z@IpEJPJx4P^qhXw+3u2A^z5~-S8Ng|ovd!8<;}zyVcfytoc{F(u}c*tPy5eDZY|Du
zL-Ub0UWm!iv$nKtcSpqzm}?bi)c#pQJGbGnMQ_y-O79&~
zh(+_W2<{`d6LwrkxGsMvXa><@RB&M)G8W}E1h9V9pu_?LzWytdV)fFy-y#!86~A0OeG&b0$Mn<
z3b&Jcf@He3?g`_NAtZZ567Z**NeW6fhz~}hYdPb-KIlp4z9S3I``G5C)k_28I|T*}p?9AQlPCk+N@DJ6O`-O24q>Axf5h+Bx>
zCTCt!H}9KPI<7$E-;gZmUVWi4gg#*frwXy@lx&WE8PJ-w9FV!iWP@yL9rFI_!LMxt
zeDvRsvSg_|5xp-mn5kbTg+U9R?GE^B;F!182tVox{$V~}Rej_A-BpQya+KUI+L6mgey3qw
z^!dr;K+VzxUc<##hJ3naJno$Ai8Fkw9EBoE7@`QYLLAWj?2gzSQTG>!sq@%qR;osf
zH?&g^vDgGXCdxd;Ue2Tkn>+wznk)@&jGkVqxU@hsv-uj|1--4Sj>Ebv@grW%?w
zsd1fXTUXBvC-xR?U98(}k?6wnurx(njk!#}&U&gYS=7;Crv&3QiMfcwtB>8Z#C
zO=g!p#?5U_af2wLTxB`1+a7*U_7td__e|S|#Mj_~4u;&ze}g|mktEYrNMn$!t}1jg
zy4)LSH};Kruy7wPToR`(e=T%7D%0rOFS*nWCq!Xcm1{CoLm!0?qRV*_su7L8;2!mLS&IMgjhwmyTC9D=|C*L9OV5M0fpGcr}}
zvB_aS4qrHx%z{qd^}C_x`9j2t9n%s>OS5tRFvhal_}*C&Mh~R7J>z8Y{#VAWrD|xx
zUX^}L@L_ptCoIX`G15;g*x0&aztjaJNWkqaF+=s~*gMd@*+a%UGpyV56w}IQ%OYAx
z=*b!V1`pXgnXJas9rxhLJ-P8LaJA6w>JTCh1V|YVeEv{xvO1LyTiIf4ZoqM%@nmH?
zCH!ijy8P-v+S+}4GdZKcWlei@ta#x?;LRP=PNi%VdcF^PO2ZwlK}FZlkdWK(VN;AH
zW&s)bb$x91dbI(2mZW&oJ>PT3;x{4b1ydfhG()GB&YO=e5-u;x+?T*lIVBQFu1Yd^p2A!1p}*`CtEvg8KrW
ze9f&VJ$4$Hvgv0o3Hop-+Dk*pYQ+#a%;UViT%q_9T)||QEQNoNChU^LPoN~o{5I;N
z8p{V7t|tX(n?0py)JsNPUy@mpmDQdc3tn{dCtLhFa~eSSkY(`MzIV@4I_eFfc`CCq?c`FX_u~!ii66}Kt2^RGc97%Z6h#9^U53`
z=$;ADq>B`37c++%F%5~FL{D&Vz4`hv%N
zJcfD9^&s_~9KE;Bw5st_?AawzOy;!xL1VF~y*c|u?>SYk?RcGsy#6Li7^6p2`4q*_
zmIhARI}!fsMJ3!5=eXO|JwX4y)de1fwHl+3c0IFK#Yz
zU+ObKfTZLaJv0x$#V>a+sw|N1Ei(gP0#*)&v~$B3QHkY6>0SOIfJ153N2mT=#%eW{
zYXvdKS~IHSs>PUV8oxJcbyCP-LiW*YGv}dMoAS5AkOzxz#3I)(R-RE5ifnT+2J^vn
zN{2tWqi68N^bu$`jZFju(EjPZ)^lDXg1Gs){p@G`0t!JfFAn-<{f^h>40RQY9Y+3|
zUt+&$KFnr!SzHoUlA|L=TPwVh%rZT2z3P;LAnmts6z+TrR;u0k3NxQWO3PyX%%27$
z^FHat=)|S;pDqEl{SG%GNhEGf>zB7n-7+=5C{zMsZaw~3uHnVF1*T?OEuo($RAbhU
zd_3bJ61{|hUppd*Nca%5D*CibX&%B9>OV=K`s^v#kj`xgdd#5zrf_IV!iXOT8fk+@
zue_7DWf*!k2!$#eqb=m&XrcK{j16(A;drZ-w=GYKArQ~NZHgruQSxxh--)|
zK$!aMuJ+_SyV#3Hj91}h0J|2{^}Q%Po8~R!q{4e1xo`6URecV={C6G2ft4aY=Z4$*
zw8G=8x*j2g+6tb(M@j;C`I($W7}Z9LC!)~FjnV8x5Vh_v}L#>RjMBL2b
z!_1a)l(DhgOb(NuMxST0)|AJnnto_1>ts~z#q%}~N~B&1=$_~D9VrxfgfW$HsqV49
zVq|QfTBK}3(jO$?<{p?3TIZ=Rwjxi`oTaZeH1&AuQ}PJ`@wB_LmC^4jqd8YU?)ciA
zRqdX5|JWj+Uf&pKl6FmOW9#{NHbt#D>Hd3!nhAZoCT-jT?G_dPWGaCb8;pK69|)YH
z%#dq@aEeub&w7&{
z$ok}CY_?7XU0PI*;TA+(uN-9z;1)O$A3Wcnx46KSa0zTb|1GI1W8dpT32WP`zPyg+
z=+vjH-QzmO^1k$#f4ljj%tp?x&k^rLh!mHONbGc5N?k@7FCq)QAUnF5`uebt3;21I
zWV-QBAWeIAkfbo4scb}GaV~jWL8x5o)CWk4{Obu$ySpFtl;^zvYw6
zLhwa|CL_dpzS8L_s*Z=>bWs>H{Ib0Uhygw8C$|Q=p*439xYyEi+w_E>qN7j@A>yxG
zz>W55qKJ3R2$3#kEgMd1N%=7sktpxW)*!F%wiH1(PP7gZEs&4S`9klaNiFxBf@30-
zgl3~M1Uf9lJ<60+Xl_yt@x&v|i&_eE>RhOgh4_v`pO)0vxl>9Joi$h0M{KU7PLkjI
zZhBk7WO`p5@|L+Dhe|2qDRDr2wkob!w+Ob(FE$!SwY@UK#yx-71M|Sz(p>@@O?YE|
z(~(IOuwO;*LW<73j5BnS%(%Vg;ywisGnFx#o3;sd9;{B56=V}4uNMjielboiN$wWT
z1Qgg~7rsMTgS?Hw{a8<#wc0qGks-G_&*_KLnkUzrArkT{Bz^sV4G(I^S=S>E{NOIk
zX{)Ke%o)26dlzcO6C}>PIMM;6K3Tjtf30F;5r)GH{`N`2>h%1{lrU)z-b`nW-^%c5$
z<8k&du*fc>avmEHWG}8ntgdSuM(}xCO=lpp7A=tQN!V*XAl*aaF>_Cdp?`dLk6N!X
zoO+7@+i6!09~o{5jbP(q=20N>e#H*Nib??xklry#kZIaTdst}lhs_pBKXso}G@CD!
zZlCX}@^YB)`FZ)-;O`t}uIGfW{`A~5Y1RTNp~xxk8^u@RR%vul
z5nFj1<2NEr^7+6PSIGnSpx5}yI7r;1RLVXRWfv+67-QP27h=q`jTP5(eEAMNzi#E%
zod(rg(Y%pyrdL!KT=$7HI$^P-`jPdNFb2Uknk9<|v+Y-Ue)Po6FOQErmK%@r!at6(
z6N?W5Y(L|RkvqD%JhRD*5~U>H!D8JcU#vFD*E6lW1!~`-d01<1?EfCT{HSnO=8iO0
zmet)e)hA=r^y+2sN`Y&h+VCG!YPax|eK?duB4V7@yAjzghV8mR=?2A}JEuUe#gT
zyLNH__11vjKs+(djf+c@j4HasvmV{M&%Pg?x0r=dJPGLhB7S_{vIee14ZZWP
z+4GxM$J@e6vi+U*8P-(8MnW)DK|l{u)?bhDNhXJN^(nQaQwNG8`C5xlU%c_Urez4>
zCQcGO8F=qK0bd(Tm>P`!q^K4O2Hpv;5{Tk8SE~dlF>K~%Uu{GX#ryU!GiV@3A?$5+
z9xo3*AHFR8FM-^i+`$_D`a1~0m_mR3@t6I*&)ef3HcmYUXP8!U3%;+%#w>o@Sy>_-
zwl0L&VE3KZm&*}r-XqtshS>GlFknlpOy#9#C6Rmki<9M1u4H##NO*Gj8FUPm=S9A_
ze=mRf8wM-yKe8O)QoYf>Ht@1P?chsQb&Sib<;70+bwuXdjR=qPXmw&c-IxJ3h^4LN
zPfbpZVr1#%;_As^h~B_#i_ndouDr?9OH=|AwO;!>~cqQ4lGMY3OWEkEuKWm^dvL7?YaRGs%Sv&==}_abEE7qQ%$Hq89uh9f?<
zkyOoDKi(wCJ=o%vJe($j9SD?&mzrhFotY)KCuduN;>1=bYKdF2tRK$vZjRq