Original size 1748x2480

Городские каникулы райской птички // Обучение генеративной нейросети

PROTECT STATUS: not protected

Концепция

Райская птица Уилсона — яркая и редкая птичка, находящаяся под угрозой исчезновения. Является эндемиком и проживает исключительно на двух островах Юго-Западного Папуа. В проекте я представила, как могли бы выглядеть каникулы этой райской птицы, очутись она в Москве.

Original size 3466x657

Пример изображений из датасета

Для этого я обучила модель на основе Stable-diffusion-xl-base-1.0. Фокус моего проекта направлен на генерацию самой райской птицы Уилсона, а не города, который служит лишь декорациями. Поэтому в качестве базы данных я собрала квадратные фотографии этой птицы. Я старалась подбирать разные ракурсы, чтобы «дать полное представление» нейросети о внешнем облике генерируемого объекта.

Процесс обучения

Для начала я подготовила все для работы, установив необходимые библиотеки и скрипт для тренировки модели.

Original size 1822x119

Далее я загрузила базу изображений в директорию, которую нейросеть будет использовать для обучения, а также проверила, что изображения открываются правильно.

Original size 3478x2318

Я загрузила модель и добавила префикс, чтобы создать собственный промпт.

Original size 3478x1790

Префикс: a photo of TOK bird of paradise

После я зарегистрировалась на HuggingFace, получила токен и внесла его в Collab. Загрузила необходимые библиотеки, дала название своей модели и начала обучение.

Original size 3478x4207

Название модели: bird_of_paradise_LoRA

Модель готова, можно начинать генерировать изображения, используя ранее созданный префикс!

Результирующая серия изображений

Я выделила несколько особенностей райской птицы Уилсона, которые хотела передать с помощью модели:

  1. Черное или коричневое туловище с яркими цветными пятнами
  2. Небольшой размер птицы
  3. Длинный раздвоенный хвост

На фоне достопримечательности

Для начала мне хотелось создать типичную туристическую фотографию на фоне достопримечательности, для чего после префикса я указала «the backdrop features historic buildings of  Moscow». В качестве исторического здания ИИ выбрал собор Василия Блаженного.

Original size 1024x1024

Промпт: a photo of TOK bird of paradise, the backdrop features historic buildings of Moscow

Модель достаточно точно передала внешность птицы, сохранив ее окрас (черное туловище с яркими цветными пятнами), небольшой размер самой птицы, длинный раздвоенный хвост.

Original size 3424x1689

Промпт: a photo of TOK bird of paradise, the backdrop features historic buildings of Moscow

Другие генерации по этому же промпту также показали неплохие результаты по передаче самой птицы, хотя не обошлось и без артефактов в виде слишком большого количества лап и исчезающей посередине ветки. Цвета стали ярче, сделав изображения более жизнерадостными.

В компании друзей

Мне было интересно посмотреть, сможет ли нейросеть изобразить несколько птиц за раз. В Москве, как и в любом городе, часто можно наблюдать стаи птиц, сидящие на проводах.

Промпт: a photo of TOK bird of paradise, a lot of them sitting on the wires, cars are passing below

Часть с проезжающими под проводами машинами ИИ почему-то проигнорировал, однако самих птиц изобразил достаточно достоверно. Хорошо передалась окраска, однако на изображении слева мордочки птиц сгенерировались с артефактами. Я сделала еще одну вариацию этого изображения (справа), перезапустив ячейку. Окрас также передался верно, однако хвосты были сгенерированы не совсем точно, так как не у всех птиц они получились раздвоенными.

Original size 1024x1024

Промпт: a photo of TOK bird of paradise, a lot of them sitting on the wires, cars are passing below

С новым знакомым

Далее мне хотелось представить, что райская птичка могла бы подружиться с кем-то из жителей Москвы. Дети любят кормить птиц, и я предположила, что маленькая девочка могла бы поладить с экзотической птицей.

Original size 1024x1024

Промпт: a photo of TOK bird of paradise, sitting on the hand of a small girl, background features Moscow

Модель предпочла сделать это изображение в чб, однако и тут видно, что расположение цветного оперения похоже на референсные фото. Странно сгенерировался клюв — почему-то он состоит из 3  частей, однако сама его форма и длина верные. Интересно, что модель изобразила девочку в платье, узором и кроем напоминающем русский сарафан, так что можно считать, что наш персонаж успешно интегрировался в местное общество.

Original size 3424x1689

Промпт: a photo of TOK bird of paradise, sitting on the hand of a girl, background features Moscow

До этой генерации я не уточняла возраст девочки, а писала в промпте просто «girl». В ответ модель выдала мне девушек и взрослых женщин, сгенерированных с артефактами, однако райские птицы получились вполне достоверными.

Сувенир

Многие туристы, приезжая в Москву из других стран, покупают на память шапку-ушанку. Я решила представить, что и райская птичка Уилсона могла бы приобрести в городе такой сувенир.

Original size 1024x1024

Промпт: a photo of TOK bird of paradise, wearing an ushanka hat

Интересной мне показалась генерация, где ИИ нарядил птицу в куртку в дополнение к шапке-ушанке.

Original size 3424x1113

Промпт: a photo of TOK bird of paradise, wearing an ushanka hat

Я перезапускала ячейку несколько раз, получая новые изображения по тому же запросу. На последующих генерациях туловище оказалось выполнено похоже, однако хвост был коротковат.

Вывод

Модель хорошо справилась с окрасом и размером птицы, хвост же оказался для нее трудноватым в генерации. Тем не менее птица всегда оставалась узнаваемой и похожей на референсные фотографии.

Описание применения генеративной модели

Stable Diffusion  — генеративная нейросеть, на основе которой была создана модель Chat GPT — использовался для устранения ошибок в коде

Городские каникулы райской птички // Обучение генеративной нейросети
Project created at 10.04.2025