Compare commits

...

4 Commits

Author SHA1 Message Date
ElEgEv
440a5e42a5 Finish commit. 2023-11-23 18:07:47 +04:00
ElEgEv
e26d19c3d1 Merge branch 'LabWork5' into LabWork6
# Conflicts:
#	LabWork01/LoadDB.py
2023-11-23 18:06:35 +04:00
ElEgEv
3f9d09dfb6 LabWork5 completed. 2023-11-23 15:16:21 +04:00
ElEgEv
5d6a44a23b Теперь расчёты без библы. 2023-11-23 00:25:01 +04:00
3 changed files with 70 additions and 204 deletions

View File

@ -1,202 +0,0 @@
import os
import numpy as np
import pandas as pd
import matplotlib
import matplotlib.pyplot as plt
import sns
from sklearn import metrics
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
# INCH = 25.4
def create_plot_jpg(df: pd.DataFrame, nameFile):
# для сохранения диаграммы в конкретной папке
script_dir = os.path.dirname(__file__)
results_dir = os.path.join(script_dir, '../static/')
if not os.path.isdir(results_dir):
os.makedirs(results_dir)
# набор атрибутов - независимых переменных - площадь
_X = df["Store_Area"].array
# набор меток - зависимых переменных, значение которых требуется предсказать - выручка
_Y = df["Store_Sales"].array
# делим датафрейм на набор тренировочных данных и данных для тестов, test_size содержит определние соотношения этих наборов
X_train, X_test, y_train, y_test = train_test_split(_X, _Y, test_size=0.01, random_state=0)
regressor = LinearRegression()
X_train = X_train.reshape(-1, 1)
X_test = X_test.reshape(-1, 1)
regressor.fit(X_train, y_train)
# массив numpy, который содержит все предсказанные значения для входных значений в серии X_test
y_pred = regressor.predict(X_test)
df.plot(x='Store_Sales', y='Store_Area', style='o')
plt.title('Зависимость продаж от площади магазина')
plt.xlabel('Продажи')
plt.ylabel('Площадь')
plt.savefig(results_dir + nameFile + '.jpg')
plt.close()
# MAE это среднее абсолютное значение ошибок
# MSE это среднее значение квадратов ошибок
# RMSE это квадратный корень из среднего квадрата ошибок
listMessages = ['Средняя абсолютная ошибка (MAE): ' + str(metrics.mean_absolute_error(y_test, y_pred)),
'Среднеквадратичная ошибка (MSE): ' + str(metrics.mean_squared_error(y_test, y_pred)),
'Среднеквадратичная ошибка (RMSE): ' + str(np.sqrt(metrics.mean_squared_error(y_test, y_pred)))]
return listMessages
# def graph_regression_plot_sns(
# X, Y,
# regression_model,
# Xmin=None, Xmax=None,
# Ymin=None, Ymax=None,
# display_residuals=False,
# title_figure=None, title_figure_fontsize=None,
# title_axes=None, title_axes_fontsize=None,
# x_label=None,
# y_label=None,
# label_fontsize=None, tick_fontsize=12,
# label_legend_regr_model='', label_legend_fontsize=12,
# s=50, linewidth_regr_model=2,
# graph_size=None,
# file_name=None):
# X = np.array(X)
# Y = np.array(Y)
# Ycalc = Y - regression_model(X)
#
# if not (Xmin) and not (Xmax):
# Xmin = min(X) * 0.99
# Xmax = max(X) * 1.01
# if not (Ymin) and not (Ymax):
# Ymin = min(Y) * 0.99
# Ymax = max(Y) * 1.01
#
# # график с остатками
# # ------------------
# if display_residuals:
# if not (graph_size):
# graph_size = (297 / INCH, 420 / INCH / 1.5)
# if not (title_figure_fontsize):
# title_figure_fontsize = 18
# if not (title_axes_fontsize):
# title_axes_fontsize = 16
# if not (label_fontsize):
# label_fontsize = 13
# if not (label_legend_fontsize):
# label_legend_fontsize = 12
# fig = plt.figure(figsize=graph_size)
# fig.suptitle(title_figure, fontsize=title_figure_fontsize)
# ax1 = plt.subplot(2, 1, 1)
# ax2 = plt.subplot(2, 1, 2)
#
# # фактические данные
# ax1.set_title(title_axes, fontsize=title_axes_fontsize)
# sns.scatterplot(
# x=X, y=Y,
# label='data',
# s=s,
# color='red',
# ax=ax1)
# ax1.set_xlim(Xmin, Xmax)
# ax1.set_ylim(Ymin, Ymax)
# ax1.axvline(x=0, color='k', linewidth=1)
# ax1.axhline(y=0, color='k', linewidth=1)
# # ax1.set_xlabel(x_label, fontsize = label_fontsize)
# ax1.set_ylabel(y_label, fontsize=label_fontsize)
# ax1.tick_params(labelsize=tick_fontsize)
#
# # график регрессионной модели
# nx = 100
# hx = (Xmax - Xmin) / (nx - 1)
# x1 = np.linspace(Xmin, Xmax, nx)
# y1 = regression_model(x1)
# sns.lineplot(
# x=x1, y=y1,
# color='blue',
# linewidth=linewidth_regr_model,
# legend=True,
# label=label_legend_regr_model,
# ax=ax1)
# ax1.legend(prop={'size': label_legend_fontsize})
#
# # график остатков
# ax2.set_title('Residuals', fontsize=title_axes_fontsize)
# ax2.set_xlim(Xmin, Xmax)
# # ax2.set_ylim(Ymin, Ymax)
# sns.scatterplot(
# x=X, y=Ycalc,
# # label='фактические данные',
# s=s,
# color='orange',
# ax=ax2)
#
# ax2.axvline(x=0, color='k', linewidth=1)
# ax2.axhline(y=0, color='k', linewidth=1)
# ax2.set_xlabel(x_label, fontsize=label_fontsize)
# ax2.set_ylabel(r'$ΔY = Y - Y_{calc}$', fontsize=label_fontsize)
# ax2.tick_params(labelsize=tick_fontsize)
#
# # график без остатков
# # -------------------
# else:
# if not (graph_size):
# graph_size = (297 / INCH, 210 / INCH)
# if not (title_figure_fontsize):
# title_figure_fontsize = 18
# if not (title_axes_fontsize):
# title_axes_fontsize = 16
# if not (label_fontsize):
# label_fontsize = 14
# if not (label_legend_fontsize):
# label_legend_fontsize = 12
# fig, axes = plt.subplots(figsize=graph_size)
# fig.suptitle(title_figure, fontsize=title_figure_fontsize)
# axes.set_title(title_axes, fontsize=title_axes_fontsize)
#
# # фактические данные
# sns.scatterplot(
# x=X, y=Y,
# label='фактические данные',
# s=s,
# color='red',
# ax=axes)
#
# # график регрессионной модели
# nx = 100
# hx = (Xmax - Xmin) / (nx - 1)
# x1 = np.linspace(Xmin, Xmax, nx)
# y1 = regression_model(x1)
# sns.lineplot(
# x=x1, y=y1,
# color='blue',
# linewidth=linewidth_regr_model,
# legend=True,
# label=label_legend_regr_model,
# ax=axes)
#
# axes.set_xlim(Xmin, Xmax)
# axes.set_ylim(Ymin, Ymax)
# axes.axvline(x=0, color='k', linewidth=1)
# axes.axhline(y=0, color='k', linewidth=1)
# axes.set_xlabel(x_label, fontsize=label_fontsize)
# axes.set_ylabel(y_label, fontsize=label_fontsize)
# axes.tick_params(labelsize=tick_fontsize)
# axes.legend(prop={'size': label_legend_fontsize})
#
# plt.show()
# if file_name:
# fig.savefig(file_name, orientation="portrait", dpi=300)
#
# return

View File

@ -0,0 +1,69 @@
import os
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.metrics import r2_score
def create_plot_jpg(df: pd.DataFrame, nameFile):
# для сохранения диаграммы в конкретной папке
script_dir = os.path.dirname(__file__)
results_dir = os.path.join(script_dir, '../static/')
if not os.path.isdir(results_dir):
os.makedirs(results_dir)
# набор атрибутов - независимых переменных - площадь
X = df["Store_Area"].array
# набор меток - зависимых переменных, значение которых требуется предсказать - выручка
Y = df["Store_Sales"].array
n = df.shape[0]
# делим датафрейм на набор тренировочных данных и данных для тестов, test_size содержит определние соотношения этих наборов
n_test = int(n * 0.01)
n_train = n - n_test
X_train, Y_train = X[:n_train], Y[:n_train]
X_test, Y_test = X[n_train:], Y[n_train:]
sumY_train = sum(Y_train)
sumX_train = sum(X_train)
sumXY_train = sum(X_train * Y_train)
sumXX_train = sum(X_train * X_train)
b1 = (sumXY_train - (sumY_train * sumX_train) / n_train) / (sumXX_train - sumX_train * sumX_train / n_train)
b0 = (sumY_train - b1 * sumX_train) / n_train
# Построение модели на обучающем наборе
plt.scatter(X_train, Y_train, alpha=0.8)
plt.axline(xy1=(0, b0), slope=b1, color='r', label=f'$y = {b1:.5f}x {b0:+.5f}$')
# Оценка производительности модели на тестовом наборе
Y_pred = b0 + b1 * X_test
first_half = sum((Y_pred - Y_test.mean()) ** 2)
second_half = sum((Y_test - Y_pred) ** 2) + first_half
plt.scatter(X_test, Y_test, alpha=0.8, color='g')
plt.legend()
plt.savefig(results_dir + nameFile + '.jpg')
r2 = r_squared(Y_test, Y_pred)
listMessages = [f"Коэффициент по странной формуле (по википедии): {first_half/second_half}",
f"Истинный коэффициент (по википедии): {r2}",
f"Подсчёт по библиотеке: {r2_score(Y_test, Y_pred)}"]
return listMessages
def r_squared(y_true, y_pred):
# Вычисляем среднее значение целевой переменной
mean_y_true = np.mean(y_true)
# Вычисляем сумму квадратов отклонений от среднего
ss_total = np.sum((y_true - mean_y_true) ** 2)
# Вычисляем сумму квадратов остатков
ss_residual = np.sum((y_true - y_pred) ** 2)
# Вычисляем коэффициент детерминации
return 1 - (ss_residual / ss_total)

View File

@ -13,8 +13,7 @@ from LabWork01.LabWork3.CreateGraphics import createGraphics
from LabWork01.LabWork3.CustomGraphics import createCusGraphics
from LabWork01.LabWork3.DeletePng import deleteAllPng
from LabWork01.LabWork4.SiteSearch import SiteSearch
from LabWork01.LabWork5.create_plot import create_plot_jpg
from LabWork01.LabWork6.ConvertorDataFrame import CovertorDataFrame
from LabWork01.LabWork5.Сreate_plot import create_plot_jpg
from LabWork01.LabWork6.Tree import getStringTree
app = Flask(__name__)