Модель, использующая человеческие подсказки и эскизы для создания реалистичных модных образов

Искусственный интеллект (ИИ) недавно начал пробивать себе дорогу во многие творческие индустрии, например, в виде инструментов для цифровых художников, архитекторов, дизайнеров интерьеров и редакторов изображений. В этих контекстах ИИ может автоматизировать процессы, которые являются утомительными или отнимают много времени, а также потенциально вдохновить художников и облегчить их творческий процесс.

Исследователи из Университета Флоренции, Университета Модены и Реджио Эмилии и Университета Пизы недавно задались целью изучить потенциал моделей ИИ в дизайне одежды. В работе, предварительно опубликованной на сайте arXiv, они представили новую систему компьютерного зрения, которая может помочь модельерам визуализировать свои проекты, показывая им, как они могут выглядеть на человеческом теле.

Большинство прошлых исследований, посвященных использованию ИИ в индустрии моды, были посвящены вычислительным инструментам, которые могут рекомендовать одежду, похожую на ту, которую выбрал пользователь, или моделям, которые могут показать онлайн-покупателям, как одежда будет выглядеть на их теле (т.е. виртуальным системам примерки). Команда итальянских исследователей, напротив, поставила перед собой цель разработать систему, которая могла бы поддержать работу дизайнеров, показывая им, как созданная ими одежда может выглядеть в реальной жизни, чтобы они могли найти новое вдохновение, выявить потенциальные проблемы и при необходимости внести изменения в свои проекты.

«В отличие от предыдущих работ, которые в основном фокусировались на виртуальной примерке одежды, мы предлагаем задачу мультимодального обусловленного редактирования модных изображений, направляя создание модных изображений, ориентированных на человека, следуя мультимодальным подсказкам, таким как текст, позы человеческого тела и эскизы одежды», — пишут в своей статье Альберто Балдрати, Давиде Морелли и их коллеги.

«Мы решаем эту проблему, предлагая новую архитектуру, основанную на моделях латентной диффузии — подходе, который ранее не использовался в области моды».

Вместо использования генеративных состязательных сетей (GAN), архитектур искусственных нейронных сетей, которые часто используются для генерации новых текстов или изображений, исследователи решили создать структуру на основе моделей скрытой диффузии или LDM. Поскольку они обучаются в сжатом и низкоразмерном латентном пространстве, LDM могут создавать высококачественные синтетические изображения.

Хотя эти перспективные модели применялись для решения многих задач, требующих создания искусственных изображений или видео, они редко использовались в контексте редактирования модных изображений. В большинстве предыдущих работ в этой области использовались архитектуры на основе GAN, которые генерируют изображения более низкого качества, чем LDM.

Большинство существующих наборов данных для обучения моделей ИИ задачам дизайна одежды включают только изображения одежды с низким разрешением и не содержат информации, необходимой для создания модных изображений на основе текстовых подсказок и эскизов. Поэтому для эффективного обучения своей модели Балдрати, Морелли и их коллегам пришлось сначала обновить существующие наборы данных или создать новые.

Модель, использующая человеческие подсказки и эскизы для создания реалистичных модных образов

Модель, использующая человеческие подсказки и эскизы для создания реалистичных модных образов

c75796

https://city-connect.ru