Original size 1637x2340

Дообучение Stable Diffusion в стиле советских ковров

PROTECT STATUS: not protected

Цель проекта — дообучение генеративной нейросети Stable Diffusion XL создавать изображения в стиле советских ковров, сохраняя стиль, но видоизменяя их с применением метода LoRA (Low-Rank Adaptation). Итогом обучения должна стать модель, способная генерировать изображения по текстовому описанию в узнаваемом стиле советских ковров.

Подготовка модели

Original size 2856x1156

Установка зависимостей

Original size 2856x992

Создание папки для датасета и копирование изображений

Original size 2856x4036

Генерация кастомных подписей к картинкам

Original size 2856x2956

Устанавливаем главные настройки для тренировки модели

Подготовка датасета

Фотографии ковров были обрезаны до квадратной формы, в некоторых исправлен наклон или перспектива, изображения кадрированы с сохранением симметричного паттерна.

Конструктивно идея в том, чтобы оставить узнаваемые узорчатые геометрические границы ковра и добавить в середину изображения людей, животных или предметов.

Для обучения модели использовались изображения в формате 1:1, максимальное количество шагов тренировки — 500 с чекпоинтом в 250 шагов. Разрешение — 512×512 пикселей.

Original size 3500x1981

Исходный датасет изображений

Изначально изображений было 100, включая ковры с абстрактными и предметными узорами, гобелены с животными (олени, павлины) и сюжетные ковры, в том числе с портретами.

В результате первой попытки обучения результат получился не очень похожим на исходные изображения и не был виден узнаваемый стиль, пример — изображение совы ниже с базовыми настройками.

Original size 2050x2048

A photo in KOVER style, an owl

После этого были убраны гобелены из датасета и ковры, которые немного отличались по стилю и могли влиять на итоговый результат, делать его менее консистентным.

Original size 3884x1075

Часть итогового датасета изображений

Стиль изображений

Характерные черты ковров в датасете — осевая симметрия, геометрические и растительные орнаменты, рамки по краям, повторяющееся паттерны, яркие цвета, чаще всего встречается и обычно является фоном красный. Эти черты важно было передать в генерациях, чтобы стиль был узнаваемым.

Original size 3500x1724

An art in KOVER style, an owl / a cat

Применение генеративной модели

Блокнот с кодом в Kaggle

Модель на HuggingFace

Для улучшения качества изображений применялся Upscayl

Дообучение Stable Diffusion в стиле советских ковров
Project created at 08.04.2025