Сравнение нейросетей: Midjourney, DALL-E и Кандинский

Ещё каких-то пять лет назад сама идея попросить машину нарисовать картину казалась чем-то из разряда научной фантастики — удел энтузиастов и лабораторных экспериментов, далёких от обывателя. А сегодня генеративные нейросети штампуют изображения по текстовому запросу за считаные секунды, и пользуются ими все: от дизайнеров крупных студий до школьников, оформляющих рефераты. Львиная доля внимания при этом достаётся трём платформам — Midjourney, DALL-E и «Кандинскому» от Сбера. Каждая из них тяготеет к собственной философии генерации, и разобраться в нюансах стоит до того, как кошелёк станет легче на очередную подписку.

Откуда взялись эти три нейросети?

Midjourney появилась на свет стараниями независимой исследовательской лаборатории, основанной Дэвидом Хольцем — человеком, ранее трудившимся в NASA над проектами дополненной реальности. Первая бета-версия увидела свет летом 2022 года и практически мгновенно обросла сообществом художников, которые натыкались на неожиданно «живые» результаты при довольно лаконичных промтах. Вся работа изначально крутилась вокруг Discord-бота, что для многих стало и изюминкой сервиса, и его же подводным камнем. Ведь не каждому удобно генерировать картинки внутри мессенджера, где параллельно идут сотни чужих запросов.

DALL-E — детище компании OpenAI, той самой, что подарила миру ChatGPT. Первая версия модели была представлена в январе 2021-го, однако по-настоящему громко о ней заговорили после выхода DALL-E 2 весной 2022 года. Тогда же бросилась в глаза способность нейросети понимать довольно сложные композиционные запросы: не просто «кот на диване», а «рыжий кот в стиле Вермеера, читающий газету при свечах». К середине 2024-го подоспела третья итерация, встроенная прямо в ChatGPT, и это серьёзно изменило расклад сил.

«Кандинский» — отечественная разработка, созданная командой Сбера (подразделение SberAI). Название выбрано не случайно: отсылка к Василию Кандинскому, пионеру абстрактного искусства, задаёт определённый тон. Модель прошла через несколько версий, начиная с 2.0 в 2022 году, и к нынешнему моменту добралась до версии 3.1. К слову, это одна из немногих генеративных сетей, которая довольно хорошо «понимает» кириллицу в промтах, что для русскоязычного пользователя — весомый аргумент.

Качество картинки: кто рисует лучше?

Вопрос неоднозначный. Дело в том, что понятие «качество» в контексте генеративных изображений распадается на несколько составляющих, и у каждой сети свои сильные козыри. Midjourney с версии 5.2 и особенно после выхода шестой модели стала настоящим фаворитом среди тех, кто гонится за «журнальной» эстетикой. Фотореалистичные портреты, сложная игра света, текстуры тканей, отражения в воде — всё это у Midjourney получается, прямо скажем, впечатляюще. Но стоит попросить её нарисовать что-то нарочито схематичное, инфографику или технический чертёж — и результат может удручить.

DALL-E 3 берёт другим. Её конёк — точность следования текстовому описанию. Если в промте написано «три красных яблока слева и одно зелёное справа на деревянном столе», то ровно это и окажется на картинке. Ни больше, ни меньше. С предыдущими версиями такой скрупулёзности не наблюдалось, а вот третья итерация творит чудеса в плане понимания пространственных отношений между объектами. Да и текст на изображениях DALL-E воспроизводит куда увереннее конкурентов — буквы не расплываются и не превращаются в непонятную кашу.

Что насчёт «Кандинского»? На фоне западных аналогов он долгое время выглядел скромнее, но версия 3.1 заметно подтянулась. Особый интерес вызывает работа модели с абстрактными и стилизованными изображениями — тут название оправдывает себя сполна. А вот с фотореализмом дело обстоит сложнее: лица порой «плывут», мелкие детали (пуговицы, шнурки, ювелирные украшения) могут сливаться или дублироваться. Впрочем, для задач уровня «быстро сделать иллюстрацию к посту» этого хватает с запасом.

Стоит ли платить или можно обойтись бесплатно?

Ценовая политика. Вот где обе стороны медали видны как на ладони. Midjourney — самый дорогой вариант из тройки. Бесплатного тарифа сейчас нет вовсе; базовая подписка стартует с десяти долларов в месяц и даёт примерно двести генераций. Для профессионального использования стоит присмотреться к тарифу за тридцать долларов, где доступен режим fast-генерации на пятнадцать часов и возможность работать в приватном режиме. Удовольствие не из дешёвых, тем более когда курс бьёт по бюджету.

DALL-E 3 встроена в ChatGPT Plus — подписка обойдётся в двадцать долларов ежемесячно. Но тут есть нюанс: за эти деньги пользователь получает не только генерацию картинок, но и полноценный доступ к GPT-4o, анализу файлов и прочим возможностям. То есть это скорее комплексная экосистема, а не просто «рисовалка». Для тех, кто уже платит за ChatGPT, DALL-E по сути идёт бонусом. Бесплатные пользователи тоже могут генерировать изображения, но с довольно жёсткими ограничениями — две-три картинки в день максимум.

«Кандинский» в этом плане — настоящий спасательный круг для тех, кто не готов тратиться. Доступ к модели через сайт FusionBrain и через Telegram-бота остаётся бесплатным, причём без каких-либо ощутимых лимитов на количество генераций. Само собой, коммерческое использование результатов требует внимательного чтения пользовательского соглашения, но для личных целей, учебных проектов или быстрого прототипирования идей — вариант не сильно ударит по кошельку. Точнее, вообще не ударит.

Как работать с промтами?

Промт-инжиниринг — целое искусство. И у каждой нейросети свой «характер», к которому нужно приноровиться. Midjourney лучше всего реагирует на короткие, ёмкие описания с указанием стиля, настроения и технических параметров через специальные ключи (вроде —ar 16:9 для соотношения сторон или —style raw для менее «приукрашенного» результата). Перегруженный деталями промт эту сеть скорее запутает, чем направит. Правило здесь простое: чем точнее атмосфера, тем лучше итог.

С DALL-E 3 ситуация обратная. Она буквально просит подробностей. Длинные, развёрнутые описания с указанием положения объектов, цветовой гаммы и даже надписей на предметах — всё это модель «проглатывает» и довольно честно отрабатывает. К тому же интеграция с ChatGPT позволяет итеративно дорабатывать результат прямо в диалоге: «сделай фон темнее», «убери второго персонажа», «добавь тень слева». Такой подход напоминает общение с живым иллюстратором, хотя и со своими ограничениями.

«Кандинский» в плане промтов — нечто среднее. Модель неплохо справляется и с короткими запросами, и с развёрнутыми. Но главная изюминка — нативная поддержка русского языка. Не нужно переводить запрос на английский и гадать, правильно ли нейросеть поняла слово «терем» или «хохлома». Написал по-русски — получил результат. Ведь именно языковой барьер часто становится камнем преткновения для тех, кто не владеет английским на уровне, достаточном для тонких стилистических указаний.

Скорость генерации и удобство интерфейса

Быстродействие — ещё один критерий, который нельзя не упомянуть. Midjourney на быстром тарифе выдаёт сетку из четырёх изображений примерно за тридцать–шестьдесят секунд, что довольно шустро для столь высокого качества. Но вот интерфейс до недавних пор оставался больной темой. Работа через Discord-бота, мягко говоря, не всем по душе: команды в чате, очередь генераций от других пользователей, невозможность нормально организовать собственную библиотеку изображений. Правда, в 2024 году появился веб-интерфейс на сайте Midjourney, и ситуация заметно улучшилась. Теперь промты можно вводить в привычном окне браузера, а галерея сгенерированных работ наконец-то стала выглядеть по-человечески.

У DALL-E 3 с удобством всё проще. Интерфейс ChatGPT знаком миллионам, и генерация картинок происходит прямо в диалоговом окне. Никаких дополнительных ботов и платформ. Скорость — около пятнадцати–двадцати секунд на одно изображение, что вполне достойно. Однако здесь всплывает ложка дёгтя: за один запрос модель создаёт только одну картинку, тогда как Midjourney выдаёт сразу четыре варианта. Для тех, кто привык выбирать из нескольких опций, это может показаться неудобным.

«Кандинский» на FusionBrain генерирует изображение за десять–двадцать секунд. Интерфейс минималистичный и интуитивный: поле для промта, пара настроек стиля — и готово. Никаких сложных параметров и технических ключей разбирать не нужно. Это одновременно и плюс, и минус. Плюс — потому что порог входа практически нулевой. А минус — потому что тонкой настройки (соотношение сторон, сила стилизации, «seed» для воспроизводимости результата) здесь значительно меньше, чем у конкурентов.

Какие ограничения и цензура у каждой сети?

Тема щепетильная, но обойти её стороной нет смысла. Все три нейросети имеют системы модерации контента, однако степень строгости различается. DALL-E 3, пожалуй, самая «осторожная» из тройки. OpenAI серьёзно закрутила гайки: генерация изображений реальных публичных персон заблокирована, откровенный контент невозможен, а некоторые вполне безобидные запросы (например, связанные с историческими событиями) могут быть отклонены из-за перестраховки системы безопасности. Бывает, что промт «солдат Второй мировой войны на привале» вызывает отказ, хотя ничего предосудительного в нём нет.

Midjourney тоже имеет свод правил, но на практике ведёт себя чуть мягче. Генерация насилия и откровенного контента под запретом, однако художественные стилизации исторических и фэнтезийных сцен, как правило, проходят без проблем. Кроме того, с недавних пор в Midjourney появилась возможность генерировать лица, похожие на реальных людей, хотя компания и предупреждает об ответственности пользователя за использование таких изображений.

Цензура «Кандинского» заточена под российское законодательство. Модель фильтрует запросы, связанные с экстремизмом и запрещённым контентом, но в остальном довольно лояльна. Нужно отметить, что стилизация под картины известных художников у «Кандинского» работает без ограничений, тогда как DALL-E 3 откажет в генерации «в стиле конкретного современного художника», если тот жив и его имя защищено авторскими правами. Мелочь, но для дизайнеров — существенный нюанс.

Коммерческое использование и авторские права

Задача не из лёгких. Вопрос авторских прав на изображения, сгенерированные нейросетью, до сих пор остаётся юридически мутным во всём мире. Тем не менее у каждой платформы есть своя позиция. Midjourney на платных тарифах разрешает коммерческое использование всех созданных изображений, причём права принадлежат пользователю. Но есть оговорка: если доход компании-пользователя превышает миллион долларов в год, то потребуется корпоративный тариф. Деталь, о которой многие забывают.

OpenAI с DALL-E 3 занимает схожую позицию — все изображения, созданные пользователем, принадлежат ему. Ни роялти, ни дополнительных лицензий. Это прописано в условиях использования с ноября 2023 года. Впрочем, стоит помнить, что американское и европейское законодательство пока не сформировало чёткой практики по этому вопросу, и отдельные суды уже рассматривают прецеденты. Так что юридическая почва здесь всё ещё зыбкая.

У «Кандинского» коммерческое использование регулируется лицензионным соглашением Сбера. К слову, оно довольно лояльное для некоммерческих и образовательных целей, но при встраивании генерации в коммерческий продукт (через API) стоит внимательно изучить условия, потому что они могут отличаться от «бесплатной версии для всех». Да и российское законодательство в области ИИ-контента развивается стремительно, так что через год правила игры могут выглядеть совершенно иначе.

Кому какая нейросеть подойдёт лучше?

С профессиональными иллюстраторами и дизайнерами, которые создают визуал для брендов и рекламных кампаний, дело обстоит проще всего: им прямая дорога в Midjourney. Качество на выходе, глубина стилизации и контроль над результатом через продвинутые параметры — всё это делает её рабочим инструментом, а не игрушкой. Естественно, за такой инструмент приходится платить, но для коммерческих задач эти расходы обычно окупаются на первом же проекте.

Тем, кто уже живёт в экосистеме OpenAI и активно пользуется ChatGPT для работы с текстами, кодом и аналитикой, логичнее остаться с DALL-E 3. Зачем плодить подписки, если генерация изображений входит в уже оплаченный пакет? К тому же возможность итеративной доработки картинки через диалог — серьёзное преимущество, когда нужен не абстрактный арт, а конкретная иллюстрация с чётко заданными элементами.

Ну, а «Кандинский» — это выбор для тех, кому важна бесплатность, русскоязычный интерфейс и отсутствие необходимости разбираться в сложных настройках. Студенты, блогеры, SMM-специалисты на фрилансе, малый бизнес, которому нужны быстрые иллюстрации для соцсетей, — вот портрет типичного пользователя «Кандинского». И не стоит относиться к нему снисходительно: модель активно развивается, и каждое обновление заметно сокращает разрыв с западными конкурентами.

Что ждёт генеративные нейросети завтра?

Буквально полтора года назад генерация видео казалась далёкой перспективой, а сегодня Midjourney уже тестирует видеорежим, OpenAI представила Sora, да и Сбер не отстаёт с экспериментами. Скорость прогресса ошеломляет. И если сейчас между тремя нейросетями ещё заметна ощутимая разница в качестве, то через пару итераций она может сократиться до минимума. Конкуренция здесь работает на пользу рядового пользователя: каждый новый релиз одной платформы подстёгивает остальных к быстрому ответу.

Отдельно стоит упомянуть тренд на мультимодальность. Нейросети перестают быть просто «генераторами картинок» и превращаются в творческих ассистентов, которые умеют работать с текстом, изображением и видео одновременно. DALL-E 3 уже интегрирована с текстовой моделью GPT-4o, Midjourney экспериментирует с «describe»-функцией (обратный инжиниринг промта по загруженной картинке), а «Кандинский» тестирует генерацию на основе комбинации текста и референсного изображения. Границы между инструментами размываются.

Какую бы нейросеть из этой тройки ни выбрал пользователь — промах исключён. Каждая хороша в своей нише, и ни одна не претендует на абсолютное превосходство во всех задачах разом. Лучшая стратегия — попробовать все три на одном и том же промте и сравнить результаты собственными глазами. Благо «Кандинский» бесплатен, у DALL-E есть пробные генерации, а у Midjourney — доступный стартовый тариф. Удачи в творческих экспериментах — генеративный ИИ только набирает обороты, и самое интересное ещё впереди.