Сравнение нейросетей: DALL-E, Midjourney и Stable Diffusion

Ещё пять-шесть лет назад сама идея о том, что машина способна рисовать картины по текстовому описанию, казалась фантастикой из голливудских фильмов. Нейросети умели распознавать лица и переводить тексты, но генерация изображений «с нуля» оставалась территорией экспериментов — неуклюжих, зернистых, порой откровенно жутких. А потом всё изменилось буквально за пару лет. Сначала шум поднял DALL-E от OpenAI, следом подтянулся Midjourney с его почти живописной эстетикой, ну и, наконец, в открытый доступ вышел Stable Diffusion — инструмент, который перевернул представление о доступности нейросетевого арта. Сегодня эти три генератора на слуху у каждого, кто хоть немного интересуется визуальным контентом. Но какой из них выбрать под конкретную задачу — вопрос совсем не праздный, и разобраться в нюансах стоит до того, как кошелёк станет легче.

Откуда взялась «большая тройка»?

Историю стоит начать с января 2021 года, когда OpenAI представила первую версию DALL-E. Название, к слову, — остроумная отсылка одновременно к художнику Сальвадору Дали и роботу WALL-E из мультфильма Pixar. Первая версия впечатляла скорее концепцией, чем результатом: картинки выходили размытыми, с характерными артефактами, однако сам факт генерации осмысленных изображений по текстовому промту приковывал внимание. Настоящий прорыв случился в апреле 2022-го с релизом DALL-E 2, а затем — в октябре 2023-го, когда свет увидел DALL-E 3, интегрированный прямо в ChatGPT. И вот этот ход оказался по-настоящему грандиозным. Ведь доступ к генератору получили миллионы людей, далёких от мира технологий.

Midjourney шёл другой дорогой. Небольшая независимая лаборатория под руководством Дэвида Хольца (бывшего сотрудника NASA, что уже само по себе добавляет колорита) запустила открытую бету в июле 2022-го. Изюминка была в подходе: работа велась исключительно через Discord-бота. Непривычно? Безусловно. Но именно этот формат создал вокруг Midjourney живое сообщество энтузиастов, которые делились промтами и результатами прямо в чатах. К версии 6.1 (актуальной на момент написания статьи) генератор превратился в настоящий инструмент для профессионалов — дизайнеров, иллюстраторов, концепт-художников.

Stable Diffusion появился чуть позже, в августе 2022-го, и сразу пошёл ва-банк. Компания Stability AI выпустила модель с открытым исходным кодом. Это стало спасательным кругом для тех, кто не хотел зависеть от чужих серверов и подписок. Любой пользователь с достаточно мощной видеокартой (от 4 ГБ VRAM, хотя комфортнее — от 8 ГБ) мог развернуть генератор локально. Да и само сообщество начало клепать дополнения, модели, LoRA-адаптеры с такой скоростью, что уследить за всем стало попросту невозможно.

Как устроена работа с каждым генератором?

Интерфейс взаимодействия. Вот что первым делом бросается в глаза при сравнении. DALL-E 3 живёт внутри экосистемы OpenAI: промт можно написать прямо в ChatGPT, причём на обычном разговорном языке. Не нужно мучиться с подбором тегов и весов — нейросеть сама «допишет» за тебя техническое описание. Это довольно удобно для новичков, но опытных пользователей такой подход порой раздражает. Дело в том, что ChatGPT склонен «переписывать» промт на свой лад, добавляя детали, о которых никто не просил.

С Midjourney история иная. Долгое время единственным способом генерации оставался Discord-бот: набираешь команду /imagine, вводишь промт на английском, ждёшь результат. В 2024-м наконец появился веб-интерфейс, но Discord никуда не делся — львиная доля пользователей по привычке работает именно через него. Промты здесь требуют определённого навыка: нужно указывать стиль, соотношение сторон, параметры вроде —ar 16:9 или —stylize 750. Кривая обучения круче, чем у DALL-E, однако и контроль над результатом ощутимо выше.

Задача не из лёгких. Именно так можно описать первое знакомство со Stable Diffusion. Тут нет единого «красивого» интерфейса из коробки. Самый популярный добротный вариант — Automatic1111 WebUI (или его более быстрый потомок ComfyUI), который разворачивается локально через Python. Для обывателя это звучит пугающе, но энтузиасты справляются за час-полтора. К тому же существуют облачные решения: тот же RunDiffusion или блокноты в Google Colab, где всё уже настроено. Впрочем, полная мощь Stable Diffusion раскрывается именно на своём железе — с возможностью менять модели, подключать ControlNet, экспериментировать с сэмплерами.

Что насчёт качества картинки?

Вот тут начинается самое интересное. Каждая из трёх нейросетей тяготеет к собственной эстетике, и спутать их результаты довольно сложно, если присмотреться. DALL-E 3 выдаёт чистые, яркие изображения с акцентом на точное следование промту. Текст на картинке? Пожалуйста — и это, кстати, одно из главных достоинств третьей версии. Буквально год назад ни одна нейросеть не могла нормально отрисовать надпись, а DALL-E 3 справляется с этим в восьми случаях из десяти. Но есть ложка дёгтя: стилистически картинки часто выглядят «слишком идеально», с характерным цифровым лоском. Для коммерческой иллюстрации — отлично. Для арта с душой — не всегда.

Midjourney солирует там, где нужна атмосфера. Версии 5 и 6 научились генерировать изображения с потрясающей детализацией, особенно если речь идёт о портретах, фэнтезийных пейзажах или архитектурных концептах. Кинематографичный свет, глубина резкости, ощущение «настоящей фотографии» — всё это Midjourney творит буквально из коротких промтов. Многие считают, что этот генератор подходит только для «красивостей», но на самом деле шестая версия неплохо справляется и с техническими иллюстрациями. Однако с текстом на изображении дела обстоят хуже, чем у конкурента от OpenAI: буквы нет-нет да и «поплывут».

Stable Diffusion — кладезь вариативности. Качество итоговой картинки здесь зависит не столько от самого движка, сколько от выбранной модели (checkpoint). Базовая модель SDXL даёт добротный результат, но настоящая магия начинается, когда подключаешь кастомные модели из CivitAI. Хочешь фотореализм? Есть Juggernaut XL. Нужна стилизация под аниме? Animagine XL справится. Тяготеешь к масляной живописи? Найдётся и такое. Ни один другой генератор подобной гибкости не предлагает. Но — и это важно — для получения действительно впечатляющего результата придётся потратить время на настройку параметров: шаги сэмплирования, CFG Scale, выбор сэмплера, разрешение, апскейлинг. Процесс не сложный, но кропотливый.

Сколько стоит удовольствие?

Ценовая политика — ещё один нюанс, который способен серьёзно повлиять на выбор. DALL-E 3 доступен через подписку ChatGPT Plus за 20 долларов в месяц, и за эти деньги пользователь получает определённый лимит генераций (точное количество OpenAI периодически меняет). Существует и API для разработчиков — там оплата идёт за каждое изображение, примерно 0,04–0,08 доллара за картинку в зависимости от разрешения. Не сильно ударит по кошельку, если генерации немного. А вот при массовом использовании суммы набегают ощутимые.

Midjourney работает по подписке с несколькими тарифами: от 10 до 120 долларов в месяц. Базовый план даёт около 200 генераций, а самый дорогой — безлимитный «стелс-режим», при котором результаты не видны другим пользователям. Кстати, это щепетильный момент для коммерческих клиентов: на младших тарифах все твои картинки публичны. К тому же Midjourney довольно часто меняет условия использования, так что не стоит забывать периодически проверять их актуальную редакцию.

А вот Stable Diffusion — совсем другая история. Сам движок бесплатен. Модели бесплатны. Расширения бесплатны. Платить приходится только за электричество и (если нет подходящей видеокарты) за облачные ресурсы. Серьёзное вложение потребуется лишь один раз — на покупку GPU. Видеокарта с 12 ГБ VRAM (например, RTX 3060 или RTX 4070) позволяет генерировать изображения в разрешении 1024×1024 за 5–15 секунд. Для тех, кто планирует работать с нейросетевым артом постоянно, локальная установка окупается буквально за пару месяцев экономии на подписках.

Стоит ли гнаться за фотореализмом?

Многие новички грезят об одном — получить картинку, неотличимую от фотографии. И здесь обе стороны медали стоит рассмотреть честно. С фотореализмом лучше всего справляется Midjourney: портреты, снятые «как будто на Canon EOS R5 с объективом 85mm f/1.4», выглядят настолько убедительно, что отличить от реального снимка получается только по мелочам — ассиметрии серёжек, лишнему пальцу (хотя шестая версия эту проблему почти изжила) или слишком идеальной коже.

Stable Diffusion с правильной моделью не уступает, а в чём-то даже превосходит Midjourney по реалистичности. Но — и это принципиально — результат зависит от скрупулёзности настройки. «Из коробки» базовая модель выдаёт нечто среднее между иллюстрацией и фотографией. А вот DALL-E 3 намеренно уходит от гиперреализма. OpenAI ввела ограничения, мешающие генерировать изображения, слишком похожие на реальных людей. Это связано с тем, что компания старается минимизировать риски дипфейков. Решение неоднозначное: для этичных задач — похвально, для творческих — иногда мешает.

Работа с промтами: философия подхода

Промт-инжиниринг. Модное словосочетание, за которым скрывается, по сути, умение формулировать мысль так, чтобы нейросеть тебя поняла. И у каждого из трёх генераторов здесь своя философия. DALL-E 3 принимает длинные описательные предложения на естественном языке — хоть целый абзац. Более того, ChatGPT сам «обогащает» промт, добавляя художественные детали. Это творит чудеса, когда у пользователя нет опыта, но превращается в подводный камень для профессионалов, которым нужен жёсткий контроль.

В Midjourney работает обратный принцип: чем короче и точнее промт, тем лучше. Опытные пользователи пишут что-то вроде «portrait of an elderly fisherman, golden hour, cinematic lighting, shot on Hasselblad —ar 2:3 —v 6.1» — и получают шедевр. Длинные «простыни» текста движок переваривает хуже, теряясь в деталях. К слову, Midjourney довольно чувствителен к порядку слов в промте: то, что стоит в начале, получает больший вес. Нюанс мелкий, но знать о нём стоит.

Stable Diffusion работает с «тегами» — короткими фразами через запятую, где каждый тег описывает отдельный аспект: стиль, освещение, композицию, качество. Кроме того, здесь есть мощный инструмент негативного промта: можно прямо указать, чего на картинке быть не должно (размытие, лишние конечности, плохое качество). Ни DALL-E, ни Midjourney такой степени контроля «от противного» не предлагают. Да и возможность задавать вес каждому тегу через синтаксис (тег:1.3) делает процесс настройки практически хирургическим.

Где всплывают ограничения?

Ни один генератор не идеален. Стоит это признать сразу. DALL-E 3 — самый «зацензуренный» из тройки. OpenAI активно блокирует промты, связанные с насилием, откровенным контентом и реальными знаменитостями. Для коммерческого использования это даже плюс (меньше юридических рисков), но для художников, работающих с провокационными темами, — стена. К тому же разрешение выходных изображений ограничено 1024×1024 пикселями, что по нынешним меркам довольно скромно.

Midjourney тоже фильтрует контент, хотя и менее строго. Главное ограничение — отсутствие локальной версии. Всё работает через серверы компании, и если они перегружены (а в пиковые часы это случается), генерация замедляется. Ну и зависимость от Discord многих раздражает, хотя веб-версия постепенно решает эту проблему. Отдельно стоит упомянуть невозможность точечного редактирования: встроенный инпейнтинг у Midjourney примитивен по сравнению с конкурентами.

Stable Diffusion — полная противоположность. Ограничений по контенту нет вообще (ты сам себе модератор), разрешение лимитировано только мощностью видеокарты, а инпейнтинг и аутпейнтинг реализованы на высочайшем уровне. Но вся эта свобода имеет цену: без технических знаний (хотя бы минимальных) не стоит даже начинать. Установка, настройка, обновление моделей — всё ложится на плечи пользователя. И если что-то сломалось после очередного апдейта, разбираться придётся самостоятельно, листая форумы и GitHub-тикеты.

Какой генератор подойдёт именно вам?

Вся суть в том, что «лучшего» генератора не существует. Есть более подходящий под конкретный сценарий. Для быстрой иллюстрации поста в соцсетях, когда нужно за тридцать секунд получить приличную картинку, DALL-E 3 внутри ChatGPT — вариант без конкурентов. Промт можно написать хоть на русском, хоть в разговорной форме, и результат будет вполне приемлемым. Для тех, кто работает с визуальным контентом профессионально — дизайнеров, арт-директоров, создателей мудбордов — Midjourney остаётся золотым стандартом по соотношению «усилие — качество». А вот энтузиастам, которые хотят полного контроля и готовы инвестировать время в изучение инструмента, дорога лежит к Stable Diffusion.

Нельзя не упомянуть и комбинированный подход. Довольно часто опытные пользователи генерируют базовое изображение в Midjourney, затем дорабатывают его в Stable Diffusion через img2img, а финальную коррекцию проводят в Photoshop. Такая цепочка позволяет взять лучшее от каждого инструмента и нивелировать слабые стороны. Тем более что нейросети развиваются стремительно: буквально каждые три-четыре месяца выходят обновления, меняющие расстановку сил.

Буквально пару лет назад генерация одного изображения занимала минуты, а результат напоминал детский рисунок. Сегодня за десять секунд можно получить картинку, достойную обложки журнала. Скорость прогресса поражает — и немного пугает.

Каждый из трёх генераторов внёс свою лепту в то, как мы сегодня воспринимаем визуальный контент. DALL-E сделал нейросетевой арт массовым, Midjourney довёл его до уровня искусства, а Stable Diffusion подарил свободу. Не стоит гнаться за одним-единственным «правильным» инструментом — гораздо разумнее попробовать все три, понять, какой из них ложится в руку именно вам, и уже тогда углубляться. Удачи в экспериментах — этот мир нейросетевой графики способен затянуть надолго, и, поверьте, скучно точно не станет.