Original size 1140x1600

Обучение генеративной модели Stable Diffusion стилю спрайтов Hades

PROTECT STATUS: not protected
8

Концепция

Одна из моих любимых серий игр — Hades, благодаря ее харизматичному сеттингу мифологии Древней Греции и особенно уникальному визуальному стилю. Несмотря на широкое разнообразие персонажей и образов, выборка мифологических персонажей все еще ограничена, и мне стало интересно представить, как еще могли бы выглядеть другие герои мифов и легенд Древней Греции.

Референсы

Обучение модели

Выполнив приготовления (проверка GPU, загрузка необходимых библиотек), я загрузила датасет из 79 изображений — официальных концептов и спрайтов Hades и Hades 2.

big
Original size 571x741
Original size 1112x469

После этого, при помощи BLIP для изображений были сгенерированы промпт-описания для дальнейшего обучения модели.

Original size 1114x732

После этого, я приступила к обучению модели с разрешением 512 и количеством шагов обучения 500, чтобы иметь возможность несколько раз переобучить модель без значительных затрат по времени.

Original size 902x571

Серия изображений

Тритон. Промпт: image in HADES style, a massive titan with blue river-like hair and a beard

Original size 1134x646

Прежде, у Тритона была предыдущая итерация, в белом цвете и попытках создать бога-русала.

Original size 1024x1024
Original size 1138x741

Дафна, превращающаяся в дерево

Original size 1132x682

Модель не справлялась с промптом и генерировала только портрет, поэтому пришлось подойти к оформлению промпта по другому и переписать его.

Original size 1135x688
Original size 1024x1024

Промпт: image in HADES style, a laurel tree that looks like a woman

Original size 1024x1024

Гигиея

Original size 1024x1024

Бог ветров. Промпт: image in HADES style, a wind spirit with puffy cheeks

Original size 1024x1024

Промпт: image in HADES style, a trickster holding two-faced mask

Вывод

Нейросеть научилась наполнять картинку деталями и динамикой, достигаемой в большей степени засчет движения волос, одежд и иных элементов, а также ставить персонажей в подобные спрайтам позы. Кроме этого, она научилась раскладывать цвета, цветовые плоскости и оттенки схожим с референсным образом. Также, она научилась вписывать их в абстрактный фон, поддерживающий дизайн персонажа и гармонизирующий с ним. Однако добиться внятной анатомии от нее так и не удалось — возможно, нейросети нужно больше времени на обучение, а также — более корректные промпты при использовании BLIP, которые в особенно сложных случаях (например, при дизайне персонажей) уместно описывать вручную.

Однако главное с чем не способна справиться нейросеть — сделать такие же продуманные и интересные дизайны персонажей, которые бы элегантно вместили в себя всю суть, как это удается концепт-художникам студии. Чтобы добиться сколько нибудь стоящего результата, понадобится потратить немалое количество усилий и еще больше — времени на отладку датасета, обучение моделей и корректирования промптов. Художники студии справились бы с задачей по созданию новых дизайнов намного более эффективно и качественно.

Применение генеративных моделей:

— Stable Diffusion XL — обучение модели генеративной сети выбранному стилю — BLIP — нейросеть для создания промптов на основе изображений — DeepSeek — создание списка возможных персонажей и промптов для их генерации при помощи модели

Обучение генеративной модели Stable Diffusion стилю спрайтов Hades
8