Сравнение нейросетей: DALL-E 2, Midjourney или Stable Diffusion

Ещё каких-то пять лет назад генерация изображений по текстовому запросу казалась фантастикой — чем-то из разряда научных конференций, где люди в очках с толстыми линзами показывают слайды с размытыми пятнами и называют это «прорывом». А сейчас любой обыватель, имея под рукой ноутбук и пару свободных минут, способен получить картинку, от которой у профессионального иллюстратора дёрнется бровь. Нейросети для генерации изображений плодятся с невероятной скоростью, но львиная доля внимания по-прежнему достаётся трём главным игрокам — DALL-E 2, Midjourney и Stable Diffusion. Каждый из них тяготеет к своей философии, у каждого свои подводные камни, и разобраться в этом зоопарке без скрупулёзного сравнения довольно сложно. Но чтобы не ошибиться с выбором инструмента, стоит разложить по полочкам сильные и слабые стороны каждого.

Откуда взялась «большая тройка»?

Началось всё не одновременно. Первой громко заявила о себе лаборатория OpenAI — та самая, что подарила миру ChatGPT. В январе 2021 года свет увидел оригинальный DALL-E, названный в честь художника Сальвадора Дали и робота WALL-E из одноимённого мультфильма. Модель впечатляла, но до широкой публики добралась не сразу. И только весной 2022-го появился DALL-E 2, который буквально взорвал информационное пространство: изображения стали чётче, реалистичнее, а сама система — чуть доступнее. Практически параллельно, летом того же года, независимая команда во главе с Дэвидом Хольцем запустила закрытую бету Midjourney. Антураж был необычным — генерация шла через Discord-бот, что поначалу смущало многих. А вот Stable Diffusion от Stability AI пошла совсем другим путём: код выложили в открытый доступ в августе 2022-го. Это был настоящий переворот. Ведь впервые мощный генеративный инструмент оказался в руках абсолютно каждого, без подписок и очередей.

Как устроен доступ и сколько это стоит?

Вопрос бюджета. Тут разброс внушительный. DALL-E 2 долгое время работал по системе кредитов — при регистрации пользователь получал 50 бесплатных генераций, а потом мог докупить пакеты (115 кредитов за 15 долларов). Сейчас, после интеграции с ChatGPT Plus, доступ к DALL-E 3 идёт в комплекте с подпиской за 20 долларов в месяц. Не то чтобы серьёзно бьёт по кошельку, но и бесплатным такое удовольствие не назовёшь. Midjourney поначалу щедро раздавал пробные генерации, однако наплыв желающих вынудил разработчиков свернуть бесплатный план. Сейчас минимальная подписка стартует от 10 долларов ежемесячно (план Basic с лимитом примерно в 200 изображений), а план Standard за 30 долларов снимает большинство ограничений по количеству. Ну, а Stable Diffusion — это совершенно иная история. Саму модель можно скачать бесплатно и запустить локально на собственном компьютере. Но есть нюанс: для комфортной работы нужна видеокарта с объёмом видеопамяти от 8 гигабайт. Да и настройка через веб-интерфейсы вроде Automatic1111 или ComfyUI требует определённой технической подкованности.

Качество картинки: кто солирует?

Сложный вопрос. Дело в том, что понятие «качество» здесь довольно субъективно — кому-то нужна фотореалистичность, кому-то художественная стилизация, а кто-то грезит о концепт-артах для игровой индустрии. DALL-E 2 в своё время поразил реализмом, однако третья версия ушла ещё дальше: модель научилась точнее следовать текстовым промптам, особенно когда речь заходит о надписях внутри изображения. Это, к слову, было ахиллесовой пятой практически всех генераторов — текст на картинках выходил кривым и нечитаемым. DALL-E 3 эту проблему если не решил полностью, то существенно сгладил.

Midjourney же тяготеет к эстетике. Начиная с версии 5 результаты этой нейросети приковывают внимание какой-то особенной «ламповостью» — будто изображение прошло через руки опытного колориста. Портреты выходят кинематографично, пейзажи — атмосферно, а фэнтезийные сцены вызывают восторг даже у скептиков. Многие считают, что Midjourney выдаёт самый «красивый» результат из коробки, без долгих махинаций с настройками. И на самом деле, для беглого сравнения это недалеко от истины. Но стоит копнуть глубже, и всплывут ограничения: управлять композицией точечно здесь сложнее, а доступ к тонким настройкам — минимальный.

Stable Diffusion в базовой комплектации выглядит скромнее обоих конкурентов. Это факт. Однако вся суть в том, что эта модель — каркас, который сообщество наращивает мышцами. Тысячи дообученных моделей (так называемых чекпоинтов и LoRA), стили, расширения для контроля поз через ControlNet — всё это превращает «голую» Stable Diffusion в добротный профессиональный комбайн. Нужен фотореализм? Есть модели вроде Realistic Vision. Хочется аниме-стилистики? Пожалуйста — Anything V5. Тем более что результат тут полностью под контролем пользователя, вплоть до количества шагов сэмплирования и выбора планировщика шума.

Что насчёт промптов и удобства?

Промпт-инжиниринг. За этим модным словосочетанием скрывается довольно простая идея — умение правильно формулировать запрос, чтобы нейросеть поняла, что именно от неё хотят. И вот тут подходы у тройки различаются радикально. DALL-E 3, интегрированный в ChatGPT, позволяет общаться с системой естественным языком. Можно просто описать сцену обычными словами, а языковая модель сама «допишет» технический промпт. Это безусловно удобно для новичков — порог входа стремится к нулю.

Midjourney требует чуть больше сноровки. Промпты здесь пишутся в командной строке Discord-бота, и для получения наилучших результатов стоит добавлять стилевые модификаторы, указывать соотношение сторон через параметр —ar, а качество — через —q. Не бог весть какая наука, но поначалу непривычно. К тому же вся генерация происходит на серверах компании, и приватность изображений зависит от выбранного тарифного плана. На бюджетных тарифах все картинки попадают в общую галерею. Для коммерческих проектов это может стать ложкой дёгтя.

А вот Stable Diffusion — настоящий кладезь для тех, кто любит ковыряться в настройках. Промпт тут разбивается на позитивную и негативную части: в первой описывается желаемое, во второй — то, чего на картинке быть не должно (размытие, лишние пальцы, артефакты). Кроме того, пользователь контролирует такие параметры, как CFG Scale (сила следования промпту), количество шагов генерации и начальное зерно (seed). Для обывателя это звучит пугающе. Но для энтузиаста — раздолье.

Стоит ли переживать за авторские права?

Тема щепетильная. И довольно неоднозначная. OpenAI позиционирует DALL-E как инструмент с коммерческой лицензией — созданные изображения можно продавать и использовать в бизнесе. Midjourney тоже разрешает коммерческое использование, но только на платных подписках. С юридической точки зрения тут всё более-менее прозрачно, хотя судебные иски от художников, чьи работы попали в обучающие датасеты, всё ещё тянутся по американским судам. Stable Diffusion, выпущенная под открытой лицензией, формально даёт максимум свободы. Но именно из-за открытости она чаще других оказывается в центре скандалов — ведь модель можно дообучить на чём угодно, включая защищённые авторским правом произведения. Нужно отметить, что ни одна из трёх нейросетей пока не получила однозначного правового статуса в большинстве юрисдикций. Ситуация меняется буквально каждый квартал.

Скорость генерации и системные требования

Быстрота отклика — тоже немаловажный критерий. DALL-E 3, работающий на серверах OpenAI, выдаёт результат за 10–20 секунд. Стабильно. Без сюрпризов. Midjourney чуть расторопнее — стандартная генерация занимает порядка 30–60 секунд, но в режиме —fast картинка появляется заметно шустрее. Впрочем, скорость зависит от загруженности серверов, а в часы пик очередь может подрасти. Stable Diffusion на локальной машине — это отдельная песня. На видеокарте уровня NVIDIA RTX 3060 с 12 гигабайтами памяти одна картинка в разрешении 512×512 генерируется примерно за 5–8 секунд. Грандиозные двадцать шагов сэмплирования — и готово. Но стоит поднять разрешение до 1024×1024 или включить генерацию через SDXL, и время вырастает до 30–40 секунд. А на слабом «железе» процесс может затянуться на минуты.

Гибкость и экосистема: кто даёт больше свободы?

Вот здесь Stable Diffusion вне конкуренции. Это не просто генератор картинок — это целая экосистема с открытым исходным кодом, вокруг которой сложилось колоритное сообщество энтузиастов. На платформе CivitAI опубликованы десятки тысяч пользовательских моделей, от гиперреалистичных портретов до стилизаций под акварель и комиксы Marvel. Расширение ControlNet позволяет задавать позу персонажа через скелетную схему, а Inpainting — перерисовывать отдельные фрагменты уже готового изображения. Тем более что всё это работает офлайн, без подключения к чужим серверам. Приватность полная.

DALL-E и Midjourney в этом плане куда более закрытые системы. Да, у Midjourney появились функции vary и pan, позволяющие менять фрагменты и расширять холст. DALL-E 3 умеет редактировать изображения по текстовым инструкциям прямо в чате. Но глубина контроля несравнима с тем, что предлагает открытая модель. Для творческих экспериментов, где нужна ювелирная точность, закрытые платформы нередко оказываются тесноваты.

Какие подводные камни всплывают на практике?

Руки. Это первое, о чём вспоминают, когда речь заходит о проблемах нейросетевой генерации. Буквально десятилетие назад нейросети не умели рисовать ничего сложнее абстрактных пятен, а сейчас их главная беда — лишние пальцы на руках персонажей. Забавно, но факт. Midjourney версии 6 справляется с руками заметно лучше предшественников, хотя огрехи всё ещё встречаются. DALL-E 3 тоже прогрессирует, но идеальными его руки назвать пока нельзя. Stable Diffusion в базовом варианте рисует руки хуже всех, однако с применением негативных промптов и специализированных LoRA-моделей результат выправляется до вполне приемлемого уровня.

Вторая проблема — цензура. DALL-E 3 отличается самыми строгими фильтрами: система откажется генерировать изображения реальных публичных персон, сцены насилия и контент «для взрослых». Midjourney тоже фильтрует, хотя и мягче. А Stable Diffusion, установленная локально, не имеет встроенных ограничений вовсе — это и благо, и серьёзная этическая дилемма одновременно. К слову, именно из-за отсутствия фильтров Stable Diffusion периодически оказывается мишенью для критиков, опасающихся злоупотреблений.

Кому что подойдёт лучше?

Новичку, который хочет просто «попробовать магию» без лишней головной боли, стоит обратить внимание на DALL-E 3 через ChatGPT Plus. Разговорный интерфейс, минимум технических нюансов, быстрый результат. Да и сама подписка окупается другими возможностями ChatGPT. Дизайнеру или иллюстратору, которому важна эстетика «из коробки», скорее подойдёт Midjourney. Особенно если речь идёт о концепт-артах, рекламных визуалах или мудбордах — здесь эта нейросеть творит чудеса. Ну, а разработчику, исследователю или просто увлечённому человеку, готовому потратить время на настройку, — прямая дорога к Stable Diffusion. Вложенные усилия окупятся абсолютной свободой и бесконечной гибкостью.

Впрочем, не стоит воспринимать эти рекомендации как жёсткие рамки. Многие профессионалы комбинируют инструменты: генерируют базу в Midjourney, дорабатывают детали в Stable Diffusion, а финальную «подгонку» текста на картинке делают через DALL-E. Такой гибридный подход — вполне разумная стратегия. Ведь ни один из трёх генераторов пока не покрывает все потребности разом.

Мир генеративных нейросетей меняется с головокружительной скоростью — версии обновляются каждые несколько месяцев, появляются новые конкуренты вроде Firefly от Adobe и Imagen от Google. Но «большая тройка» пока уверенно стоит на ногах. А лучший способ понять, какой инструмент ближе именно вам, — просто попробовать каждый из них хотя бы раз. Удачи в творческих экспериментах — результаты наверняка приятно удивят.