Original size 1140x1600

обучение генеративной нейросети в стиле аниме NANA

концепция и идея проекта

NANA (2000-2009) — манга, а чуть позже аниме, в жанре сёдзе от создательницы Ай Ядзавы. чуть позже (2006) данную одноимённую мангу адаптировали в аниме, которое по сей день остаётся одним из известных произведений.

история рассказывает о жизни двух девушках с одинаковыми именами, но они сами по себе абсолютно разные по характерам и судьбами, чьи жизни позже переплетаются в столице Японии.

цель проекта заключается в обучении генеративной нейросети, которая будет способна создавать в конкретной стилистике. в данном случае я решила взять за основу аниме NANA (2006), которое до сих пор становится культовым произведением спустя многие годы.

исходные изображения

Original size 2388x945

для обучения машины я сначала отобрала вручную датасет из 33 изображений с различных источников в интернете, старалась подбирать разнообразные картинки по количеству героев, их ракурсов и выражений лица.

одна из особенных черт наны заключается в в особенностях изображения героев и их выражения лица: тонкие брови, большие глаза с ярко выраженными ресницами, маленькие губы на контрасте с высоким лбом; поэтому в датасете в основном присутствуют портреты геровев.

итоговые варианты

после обучения в качестве пробы я расписала промпты для первых вариантов, от портрета до концептуальных картин.

уже с начала работы можно подметить, что нейросеть лучше справляется с портретными работами, нежели с картинами героев в полный рост, например.

тем не менее, даже на таких изображениях можно заметить общий стиль и атмосферу аниме наны.

prompts: «photo collage in nana style, a portrait of a girl holding a cigarette» «picture of two guys in nana style» «a portrait of a guy with guitar in his hands in nana style» «a picture in nana style, a couple of two people, guy and a girl sitting at the cafe»

далее я решила поэкспериментировать с портретами, взяв за основу существующих известных личностей.

нейросеть относительно неплохо справилась с данной задачей, но, по моему мнению, в большинстве работ нейросеть смогла больше передала узнаваемость людей, но одновременно выполнить другую цель (передача стилистики) у неё не вышло.

1. «photo portrait vi from arcane show in nana style» 2. «photo portrait kang seulgi in nana style»

1. «photo collage in nana style, a portrait of a timothee shalomet» 2. «a portrait of karina from girl group aespa in nana style»

при написании промптов и упоминании в них определённых цветов нейросеть в любом случае выдаёт результаты в приглушённых и чуть тусклых оттенках — это тоже является одной из отличительных черт стиля наны.

prompts: «photo collage of a guy with green long hair playing the piano in nana style», «photo collage in nana style, a one girl with purple holding a cup of tea in hands at the coffee shop»

prompts: «photo collage of nana style, a guy with black hair drawing a painting in the park», «photo collage in NANA style, a one woman with long blue hair and with white dress»

здесь я решила поэкспериментировать с цветокором и выражениями лиц, генеративная нейросеть хорошо учла все пожелания, при этом сохранняя уникальность стиля за счёт характерных черт лица.

prompts: «a portrait of a girl with happy face in nana style, bright colors», «a portrait of a girl with happy face in nana style», «a portrait of a girl with sad face in nana style»

также подметила нехватку детализации, однообразность героев, неточное изображение количества людей, рук, неправильное расположение конечностей — с данными сложностями я столкнулась при генерации работ.

1. «photo collage in nana style, a picture of 2 girls playing chess, exciting mood» 2. «photo collage in nana style, a girl holding a cup of tea in two hands at the coffee shop»

«photo collage in nana style, a picture of 1 man with black clothes laying in the bed, melanholic mood»

1. «photo collage in nana style, a woman sleeping and laying in the bed» 2. «photo collage in nana style, a picture of a girl sleeping in the bed»

prompts: «photo collage in nana style, a group of cool girls with different hair colors at the concert», «photo collage in nana style, a group of cool girls at the concert»

«photo collage in nana style, a picture of a band group in the concert playing different instruments»

вывод

в основном нейросеть смогла передать главную идею данного проекта — передать не только основные характеристики, но также настроение и атмосферу данного произведения. тем не менее, возникали также трудности при выполнении задачи, для решения которых требуется больше времени и дополнительных настроек в машинном обучении. несмотря на удачную способность передачи, нейросеть вряд ли сможет передать ту самую уникальность и оригинальность работ автора.

описание применения генеративной модели

для обучения генеративной нейросети Stable Diffusion вся работа была выполнена в платформе Google Colab, воспользовавшись кодом SDXL DresmBooth LoRA, предложенный на лекция в рамках курса программы. также при помощи платформы Hugging Face я получила токен для загрузки моделей.

ссылка на блокнот:

https://colab.research.google.com/drive/10j8bG_AfoNJBORmB8IH8XQ2EHkGu3ld0?usp=sharing

обучение генеративной нейросети в стиле аниме NANA

Za Fyong Thao Din

artificial intelligence