
Кацусика Хокусай — японский художник и иллюстратор периода Эдо и автор известной «Большой волны в Канагаве». Это его произведение растаскано на постеры, дизайны канцелярии, одежды, обложек на паспорт и проч. Вы точно ее видели!

Однако за всю свою жизнь Хокусай создал более 30 тысяч картин! В них он прибегал к разным приемам, сюжетам, экспериментировал с цветом, элементами и мотивами.
Цель:
Обучить нейросеть создавать изображения в стиле художника Кацусика Хокусай для использования в различных дизайнах вместо уже давно набившей оскомину «Большой волны…».


1. Этапы работы и код
1. Я нашла в открытом доступе картинки Кацусика Хокусай, собрала датасет из 35 штук и загрузила его в среду Kaggle. Я старалась выбирать работы разных жанров и техник.
2. Запустила и проверила GPU P 100.
3. С помощью исходного кода создала промпты-описания к картинкам в датасете.
4. Получила токен на Hugging Face и, отредактировав исходный код по туториалу курса, приступила к обучению нейросети Stable Diffusion.
5. Что использовано: инструмент LoRa, максимальный шаг трекинга выставила на 1000, чекпоинт на 500, изображения 512×512.
Спасибо обучающему видео с курса и исходному коду: было интересно и легко работать в Kaggle!
2. Результаты обучения
Сначала мне стало интересно, какие промежуточные результаты (то есть на чекпоинте 500) покажет модель.
Хаотичность, неадекватность изображения — основные проблемы в изображении живых существ с деталями вроде клюва или хвоста.
ИИ плохо справляется с изображением животных, но лучше с природой — неживыми текстурами и повторяющимися хаотичными элементами.
Известные образы, вроде Мона Лизы, вообще поглощают стиль, на который обучена модель.
Здесь я уже использую финальную модель.
Сравнивая изображения автора и нейросети, я обращаю внимание, с помощью каких деталей ИИ передает эстетику и стиль художника. Композиция с большим количеством «воздуха», маленькие иероглифические подписи в уголках картинок, приглушенные цвета.






Лучше всего нейросеть справляется с пейзажами: тут ей пригождается тяга к детализации и хаосу. С изображением людей и конкретных предметов все обстоит печальнее, хотя если не обращать внимание на эту общую проблему ИИ, стиль автора очень узнается!
Паттерны
В искусстве случайности и ошибки часто становятся спасением, очаровательной деталью или вовсе — гвоздем программы.
Нагромождение деталей, хаотичность, алогичность, отсутствие сюжета — эти ошибки модели тоже имеют право превратиться в преимущества. Например, в паттерне!
Я попросила свою модель создать несколько паттернов, и стиль Кацусики Хокусая раскрылся с абсолютно новой стороны.
Модель идеально уловила настроение и эстетику автора. Когда смотришь на эти паттерны, мгновенно считываешь стиль японского художника. Тем не менее сам он паттерны не создавал!




К тому же паттерн — идеально подходит для создания дизайнов, а значит цель более чем достигнута.
3. Выводы
У меня получилось не только обучить нейросеть создавать изображения в стиле японского художника Кацусики Хокусая, но и раскрыть стиль автора с совершенно неожиданной для себя стороны. Неспроста «Большая волна в Канагаве» стала так популярна для изображения на мерче. Нейросеть раскрыла потенциал картин Хокусая быть использованными в качестве паттернов.
Я более чем довольна результатом!