
Концепция
Данный проект посвящен нейросети, которая генерирует стикерпаки в милом и мультяшном стиле. Основная идея состояла в том, что нейросети, с которыми я сталкивалась (бесплатные и более доступные), с трудом генерируют стикеры. Как правило, они получаеются в банальном стоковом стиле, где твой запрос визуализируется, как единственное большое изображение, вместо нескольких маленьких, как это обычно выглядит в стикерпаке.

Я решила совместить приятное с полезным. Я подобрала датасет, состоящий из работ нескольких художников, которые рисовали стикеры в похожих стилистиках. Выбор милого стиля обусловлен личными предпочтениями. Мне захотелось увидеть, как нейросеть обработает собранные изображения, и получится ли у нее на их основе сгенерировать стикеры с такой же уютной атмосферой.

Анализируя работы можно подметить, что они содержат животных, растения, всякую мелочь. Свободное пространство, как правило, занимают звездочки, травинки или кружочки. Это сыграет роль и при обучении модели.
Серия изображений

Результат меня впечатлил, поскольку нейросеть справляется со своей задачей — генерацией стикерпаков, состоящих из множества объектов, которые приятно сочетаются по размерам и формам. Стиль очень схож с исходным. Генеративная модель, в основном, хорошо справляется с животными, растениями, так как они были ключевыми предметами в обучении. В полученных изображениях особенно часто встречается мелочь, как, например, звездочки, что тоже перекликается с заявленным датасетом. И также многие другие детали, такие как точки вместо глаз, пастельная палитра, мягкие тени.
Несмотря на то, что среди картинок для обучения очень небольшая часть изображает людей, нейросеть все равно может их сгенерировать.
При генерации были и проблемы. Нейросеть и вправду с большим трудом генерирует изображения, на которых большое количество отдельных миниатюрных деталей. Она довольно часто их замыливала, делая весьма неузнаваемыми.
Но, несмотря на минусы, в итоге получилась нейросеть, с помощью которой можно генерировать множество различных идей, сочетаний и паттернов, и в дальнейшем их использовать, как макет, идею для своих стикеров. Или сразу взять сгенерированный сет и сделать из него, к примеру, стикерпак для телеграмма.
Процесс обучения
Чтобы обучить модель, я воспользовалась кодом из репозитория. Обучение осуществлялось при помощи платформы Kaggle. Сперва я проверила GPU, затем загрузила свой датасет на сайт, проверив правильное отображение картинок.
Далее готовые изображения анализируются при помощи модели BLIP, генерирующей для них описания. Также создается префикс, в моем случае — «stickers in cute, simple style art, » — который будет использоваться при генерации изображений.
После тщательной подготовки запускается код, который осуществляет обучение модели при помощи LoRA. В нем я указала 1000 шагов для более точных результатов.
Обученная модель далее загружается на Hugging Face Hub, где можно начать генерировать изображения.
Описание применения генеративной модели
Stable diffusion — модель, использованная для обучения нейросети.