Original size 736x986

Final Fantasy / Обучение нейросети под стиль иллюстраторов игры

PROTECT STATUS: not protected

Final Fantasy / Обучение нейросети под стиль игры — проект, посвященный до-обучению нейросети Stable Diffusion под создание работ в стиле первых частей игры Final Fantasy, созданных под арт-директорством художников Ёситака Амано и Хидео Минаба.

Для дообучения и генерации изображений использовались сервисы kaggle, hugging face, а также заранее собранный пользовательский датасет.

Концепция.

Работы Ёситаки Амано и других иллюстраторов игры поражают своей утончённой, почти эфемерной эстетикой, сочетающей элементы классической японской живописи с фантастическими и сюрреалистичными мотивами.

Original size 877x1113

Ёситака Амано, 2015

Характерные черты стиля — изящные, текучие линии, насыщенные цвета и атмосфера сказочности — делают его стиль идеальным для воплощения эпических фэнтезийных и фантастических сюжетов. В процессе изучения его работ можно заметить повторяющиеся образы, вдохновляющие на создание целых вселенных с уникальными персонажами, чьи судьбы переплетаются с мифами и легендами. Этот подход лёг в основу проекта, где каждая иллюстрация становится окном в другой, полный волшебства и тайн мир.

Original size 2000x1000

Ёситака Амано, год неизвестен

Подготовка датасета:

Для обучения нейросети было взято около 50 работ в стиле первых частей игры Final Fantasy, часть из которых принадлежат арт-директорам Ёситака Амано и Хидео Минаба, также была взята часть работ других иллюстраторов, работающих в похожей стилистике для более точное обучения нейросети.

0

Результирующая серия изображений

Фэнтэзи-арт.

Самая близкая тематика генераций, которую можно взять — Фэнтэзи арт, у нейросети было много изображений связанных именно с этим жанром, поэтому для начала я решила сгенерировать персонажа — эльфийку, волшебницу, находящуюся в атмосфере загадочного леса.

0

Prompt: «A mystical elven sorceress with long silver hair, wearing a flowing purple robe adorned with golden runes. Her eyes are glowing with a magical light, and her staff is topped with a crystal orb that emits a soft, ethereal glow. She stands in an ancient, enchanted forest, with towering trees and floating will-o'-the-wisps around her. The air is filled with magical energy, and the ground beneath her feet is covered in vibrant, luminescent flowers. Her expression is wise and serene, exuding both power and grace»

Научная фантастика.

Второго персонажа мне захотелось поместить в сеттинг научно-фантастической игры и сделать некого бойца в доспехах.

0

Prompt: «A futuristic bounty hunter in sleek, battle-worn armor with glowing blue accents, carrying a plasma rifle and combat knife. The character stands in a rainy, neon-lit cityscape, ready for action, with a confident, determined expression.»

Морской пост-апокалипсис

Поскольку в приложенном датасете были достаточно разные работы, а также, учитывая, что практически не было изображений с морскими пейзажами, мне стало интересно как нейросеть справится с задачей нарисовать пост-апокалипсис в морской тематике.

0

prompt: «art in FFART style, A post-apocalyptic marine explorer, wearing a weathered diving suit covered in barnacles and rust. The character has a rugged appearance, with short, unkempt hair and a thick beard. The environment is a flooded, abandoned city, where the ocean has reclaimed the land. Ships and rusted vehicles are half-submerged in the water. The explorer holds a makeshift harpoon and a waterproof lantern, standing on a ruined pier with dark, stormy skies overhead. The scene is eerie and haunting, with distant lightning illuminating the horizon.»

Что получилось:

Обученной нейросети удалось сохранить изящность и воздушность стиля иллюстраций к первым частям игры Final Fantasy. Осталась некая плавность и текучесть линий в этой стилистике. Также как и в работах Ёситака Амано сохранилась неразрывность персонажа и заднего плана, в результате чего персонаж и фон как бы сливаются воедино и создают целостную картину. Несмотря на то, что у нейросети было мало примеров работ с морской тематикой, на мой взгляд, ей удалось выдержать атмосферу и стилистику игры.

Проблемы генераций.

Самой большой, на мой взгляд, проблемой, как и многих генеративных нейросетей, стали руки. Тяжело сказать с чем это связано, однако вероятнее всего, нейросети не хватило изображений в датасете, где были бы четко видны руки.

Некоторые проблемы возникли и с чертами лица, скорей всего это произошло из-за того, что в силу стилистики у иллюстраторов игры Final Fantasy черты лица нарисованы очень минималистично и тонко.

Вывод касательно генераций.

Невозможно утверждать, что нейросеть точно передала заданную стилистику, но результат получился довольно схожим и сохранил элемент сказочности. Генерированные изображения скорее напоминают интересный стиль, который близок к задуманному.

Ход работы.

Original size 1122x109
Original size 1128x102
Original size 1132x171

Предварительно было необходимо привести все изображения к одним пропорциям и разрешению 512×512.

Original size 1190x357
Original size 1187x231

Фрагмент кода. Подготовка датасета к дальнейшей работе

Далее, с помощью модели BLIP были созданы описания к изображениям и префикс «art in FFART style». Также была произведена настройка устройства: Определено, на каком устройстве будет работать модель: на GPU, если доступен, или на CPU. Это важно для ускорения обработки при работе с большими моделями и изображениями.

Original size 1246x398

Для генерации изображений, основанных на определенной стилистике, нужно было использовать среду программирования, технологии LoRa и модели генерации DreamBooth чтобы до-обучить Stable Diffusion, задействуя собранный датасет.

Original size 944x477

Далее был написан код для загрузки и настройки модели для генерации изображений. Был произведен импорт библиотек и загрузка моделей.

Original size 1259x317

После завершения обучения модель сохраняется и загружается на Hugging Face Hub, там она становится доступной для использования. Можно начинать генерации.

Original size 674x87

Исходный код.

Использование генеративных нейросетей

Модель для до-обучения и создания изображений — Stable Diffusion. Для помощи в генерации промптов — ChatGPT.

Final Fantasy / Обучение нейросети под стиль иллюстраторов игры
Project created at 10.04.2025