Merge pull request 'romanova_adelina_lab_7 is ready' (#290) from romanova_adelina_lab_7 into main

Reviewed-on: http://student.git.athene.tech/Alexey/IIS_2023_1/pulls/290
2024-01-10 09:39:54 +04:00 · 2024-01-10 09:39:54 +04:00 · ea025d0b4a
commit ea025d0b4a
parent 43ec6863e4 7d5463198a
8 changed files with 3575 additions and 0 deletions
--- a/romanova_adelina_lab_7/README.md
+++ b/romanova_adelina_lab_7/README.md
@ -0,0 +1,52 @@
 # Лабораторная работа №7. Вариант 21
 ## Тема
 Рекуррентная нейронная сеть и задача генерации текста
 ## Задание 
 - Выбрать художественный текст и обучить на нем рекуррентную нейронную сеть для  решения  задачи  генерации.  
 - Подобрать  архитектуру  и  параметры  так, чтобы  приблизиться  к  максимально  осмысленному  результату.
 ## Используемые ресурсы
 &nbsp;1. &nbsp;Художественный текст на английском языке ```wonderland.txt```
 &nbsp;2. &nbsp;Python-скрипты: ```generate.py```, ```model.py```, ```train.py```.
 ## Описание работы
 ### Подготовка данных:
 В файле ```train.py``` реализована функция ```get_data```, которая загружает художественный текст, приводит его к нижнему регистру, и создает сопоставление символов числовым значениям.
 Текст разбивается на последовательности фиксированной длины ```seq_length```, и каждая последовательность связывается с символом, следующим за ней.
 Данные приводятся к тензорам PyTorch и нормализуются для обучения модели.
 ### Архитектура модели:
 В файле ```model.py``` определен класс ```CharModel```, наследуемый от ```nn.Module``` и представляющий собой рекуррентную нейронную сеть.
 Архитектура модели включает в себя один слой LSTM с размером скрытого состояния 256, слой dropout для регуляризации и линейный слой для вывода результатов.
 ### Обучение модели:
 В файле ```train.py``` реализован скрипт для обучения модели. Выбрана оптимизация Adam, функция потерь - ```CrossEntropyLoss```.
 Обучение происходит на GPU, если он доступен. Обучение проводится в течение нескольких эпох, с валидацией на каждой эпохе. Сохраняется лучшая модель.
 Процесс обучения модели:
 ![](train_process.png "")
 ### Генерация текста:
 В файле ```generate.py``` модель загружается из сохраненного состояния. Генерируется случайный промпт из исходного текста, и модель используется для предсказания следующего символа в цикле.
 ## Вывод:
 ![](generated_text.png "")
 В сгенерированном тексте можно найти осмысленные участки, поэтому можно сделать вывод, что модель действительно хорошо обучилась.
--- a/romanova_adelina_lab_7/generate.py
+++ b/romanova_adelina_lab_7/generate.py
@ -0,0 +1,46 @@
 import torch
 from model import CharModel
 import numpy as np
 if __name__ == "__main__":
    best_model, char_to_int = torch.load("single-char.pth")
    n_vocab = len(char_to_int)
    int_to_char = dict((i, c) for c, i in char_to_int.items())
    model = CharModel()
    model.load_state_dict(best_model)
    # randomly generate a prompt
    filename = "wonderland.txt"
    seq_length = 100
    raw_text = open(filename, 'r', encoding='utf-8').read()
    raw_text = raw_text.lower()
    start = np.random.randint(0, len(raw_text)-seq_length)
    prompt = raw_text[start:start+seq_length]
    pattern = [char_to_int[c] for c in prompt]
    model.eval()
    print(f'Prompt:\n{prompt}')
    print("==="*15, "Сгенерированный результ", "==="*15, sep=" ")
    with torch.no_grad():
        for i in range(1000):
            # format input array of int into PyTorch tensor
            x = np.reshape(pattern, (1, len(pattern), 1)) / float(n_vocab)
            x = torch.tensor(x, dtype=torch.float32)
            # generate logits as output from the model
            prediction = model(x)
            # convert logits into one character
            index = int(prediction.argmax())
            result = int_to_char[index]
            print(result, end="")
            # append the new character into the prompt for the next iteration
            pattern.append(index)
            pattern = pattern[1:]
    print()        
    print("==="*30)
    print("Done.")
--- a/romanova_adelina_lab_7/generated_text.png
+++ b/romanova_adelina_lab_7/generated_text.png
--- a/romanova_adelina_lab_7/model.py
+++ b/romanova_adelina_lab_7/model.py
@ -0,0 +1,16 @@
 import torch.nn as nn
 class CharModel(nn.Module):
    def __init__(self, n_vocab):
        super().__init__()
        self.lstm = nn.LSTM(input_size=1, hidden_size=256, num_layers=1, batch_first=True)
        self.dropout = nn.Dropout(0.2)
        self.linear = nn.Linear(256, n_vocab)
    def forward(self, x):
        x, _ = self.lstm(x)
        # take only the last output
        x = x[:, -1, :]
        # produce output
        x = self.linear(self.dropout(x))
        return x
--- a/romanova_adelina_lab_7/single-char.pth
+++ b/romanova_adelina_lab_7/single-char.pth
--- a/romanova_adelina_lab_7/train.py
+++ b/romanova_adelina_lab_7/train.py
@ -0,0 +1,86 @@
 import numpy as np
 import torch.nn as nn
 import torch.optim as optim
 import torch.utils.data as data
 import torch
 from model import CharModel
 def get_data(filename="wonderland.txt"):
    # загружаем датасет и приводим к нижнему регистру
    filename = "wonderland.txt"
    raw_text = open(filename, 'r', encoding='utf-8').read()
    raw_text = raw_text.lower()
    # делаем сопоставление текста с соответствующим ему значением
    chars = sorted(list(set(raw_text)))
    char_to_int = dict((c, i) for i, c in enumerate(chars))
    # статистика обучаемых данных
    n_chars = len(raw_text)
    n_vocab = len(chars)
    print("Total Characters: ", n_chars)
    print("Total Vocab: ", n_vocab)
    # подготовка датасета
    seq_length = 100
    dataX = []
    dataY = []
    for i in range(0, n_chars - seq_length, 1):
        seq_in = raw_text[i:i + seq_length]
        seq_out = raw_text[i + seq_length]
        dataX.append([char_to_int[char] for char in seq_in])
        dataY.append(char_to_int[seq_out])
    n_patterns = len(dataX)
    print("Total Patterns: ", n_patterns)
    # --- переводим данные к тензору, чтобы рабоать с ними внутри pytorch ---
    X = torch.tensor(dataX, dtype=torch.float32).reshape(n_patterns, seq_length, 1)
    X = X / float(n_vocab)
    y = torch.tensor(dataY)
    print(X.shape, y.shape)
    return X, y, char_to_int
 def main():
    X, y, char_to_int = get_data()
    n_epochs = 40
    batch_size = 128
    model = CharModel()
    device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
    print(f"device: {device}")
    model.to(device)
    optimizer = optim.Adam(model.parameters())
    loss_fn = nn.CrossEntropyLoss(reduction="sum")
    loader = data.DataLoader(data.TensorDataset(X, y), shuffle=True, batch_size=batch_size)
    best_model = None
    best_loss = np.inf
    for epoch in range(n_epochs):
        model.train()
        for X_batch, y_batch in loader:
            y_pred = model(X_batch.to(device))
            loss = loss_fn(y_pred, y_batch.to(device))
            optimizer.zero_grad()
            loss.backward()
            optimizer.step()
        # Validation
        model.eval()
        loss = 0
        with torch.no_grad():
            for X_batch, y_batch in loader:
                y_pred = model(X_batch.to(device))
                loss += loss_fn(y_pred, y_batch.to(device))
            if loss < best_loss:
                best_loss = loss
                best_model = model.state_dict()
            print("Epoch %d: Cross-entropy: %.4f" % (epoch, loss))
    torch.save([best_model, char_to_int], "single-char.pth")
--- a/romanova_adelina_lab_7/train_process.png
+++ b/romanova_adelina_lab_7/train_process.png
--- a/romanova_adelina_lab_7/wonderland.txt
+++ b/romanova_adelina_lab_7/wonderland.txt