Original size 2480x3500

пёс-спортсмен

1
The project is taking part in the competition

Идея проекта

Мой пёс Ричард — очень активный и энергичный, ему всегда нужно чем-то заниматься. Он обожает бегать, прыгать, приносить мяч и никогда не устаёт. Я уверена, если бы он мог, он обязательно занимался бы сразу несколькими видами спорта. Мне стало интересно представить, каким бы он был, если бы мог попробовать себя в человеческих видах спорта.

Проект направлен на исследование возможностей нейросетей по передаче индивидуальности животного в новых, фантазийных контекстах, а также на создание ироничной визуальной истории.

Примеры исходных изображений

big
Original size 3053x653

Для обучения модели я использовала более 50 фотографий Ричарда — крупные планы, кадры в движении и повседневные снимки.

Описание процесса обучения

Для дообучения и генерации изображений использовалась Stable Diffusion.

Как было сказано выше, для обучения нейросети я взяла фотографии Ричарда, загрузила их как датасет и подключила его непосредственно к блокноту.

Далее были проверены GPU и установлены зависимости, а также подключен датасет подгружённых фотографий. Кроме того, были созданы описания изображений, которые использовались для обучения ИИ.

После модель обучалась с инструментом LoRa.

Наконец, модель была подгружена на huggingfacehub, где она стала доступна для использования и генерации новых изображений.

Итоговые изображения

big
Original size 1024x1024

баскетболист

/prompt: ''a photo of dog in RICHARD style throws a ball into a hoop''

Original size 1024x1024

футболист

/prompt: ''a photo of dog in RICHARD style playing football''

Original size 1024x1024

гонщик

/prompt: ''a photo of a dog in RICHARD style as F1 driver in red car''

Original size 1024x1024

гимнаст

/prompt: ''a photo of a dog in RICHARD style as a rhythmic gymnast''

Original size 1024x1024

сноубордист

/prompt: ''a photo of a dog in RICHARD style as a snowboarder''

Нейросеть с первого раза достаточно четко изобразила Ричарда на сноуборде

Original size 1024x1024

фигурист

/prompt: ''a photo of a dog in RICHARD style as a figure skater wearing skates''

Изначально я попросила нейросеть создать фигуриста, не уточняя необходимость изобразить собаку в коньках. Пришлось обновить промпт, чтобы коньки появились

Original size 1024x1024

теннисист

/prompt: ''a photo of a dog in RICHARD style as a tennis player on a tennis court with a racket''

Также понадобилось уточнение, что Ричард должен быть на корте с ракеткой

Original size 1024x1024

боец ММА

/prompt: ''a photo of a dog in RICHARD style as a mma fighter standing in the ring''

Original size 1024x1024

гольфист

/prompt: ''a photo of a dog in RICHARD style as golf player wearing trousers and polo standing on the golf course''

Original size 1024x1024

киберспортсмен

/prompt: ''a photo of a dog in RICHARD style as a professional cyberplayer wearing big headphones sitting on a stage of cyber arena''

Original size 1024x1024

победитель

/prompt: 'a photo of a dog in RICHARD style as a winner of the Olympics standing on the pedestal, he holds a bouquet and a cup, he is wearing a sports suit'

Результат

В итоговой серии изображений показано, как мой пёс Ричард «примеряет» на себя разные человеческие виды спорта.

Обученная модель успешно справилась с передачей индивидуальных черт собаки — формы морды, цвета шерсти, строения ушей. Благодаря этому Ричард остаётся узнаваемым на всех изображениях. Разнообразие исходных фотографий позволило нейросети также уловить особенности мимики и эмоциональных состояний. Однако не во всех случаях модели удалось сохранить естественное строение тела: иногда появлялись лишние лапы или искажения пропорций, из-за чего фигура собаки выглядела слишком длинной.

Стилистически, на мой взгляд, серия получилась цельной: нейросеть выдержала реалистичную манеру изображения с лёгкими элементами иронии. В процессе генерации использовались промпты, адаптированные под разные виды спорта, а в отдельных случаях фон дорабатывался вручную для достижения более выразительного результата.

Визуально изображения различаются не только по типу спорта, но и по настроению: на одних Ричард выглядит решительным, на других — довольным или гордым. Эта вариативность делает серию живой и эмоциональной. В целом нейросети удалось передать энергию, азарт и уверенность маленькой собачки, которая в итоге становится настоящим чемпионом.

Список использованных инструментов:

— Stable Diffusion — обучение генеративной нейросети под свой стиль — Google Colab — выполнение кода и генераций — Hugging Face — получение токена для обучения нейросети