Ещё пару лет назад идея набрать текстовый запрос и получить готовую иллюстрацию казалась фантастикой из разряда «когда-нибудь потом». А сейчас нейросетевые генераторы изображений плодятся с такой скоростью, что львиная доля дизайнеров, маркетологов и просто любопытствующих обывателей откровенно теряется в этом многообразии. Midjourney, DALL-E 3, Kandinsky — три имени, которые звучат чаще остальных, но за каждым из них скрывается своя философия, свои подводные камни и свои сильные стороны. Но чтобы не ошибиться с выбором инструмента, стоит разобраться в нюансах каждого из них.
Midjourney: эстетика на первом месте
Начать нужно с сервиса, который буквально перевернул представление о том, на что способна нейросеть в руках обычного пользователя. Midjourney появился летом 2022 года, и уже к осени того же года интернет наводнили изображения такого качества, что отличить их от работ живых иллюстраторов стало довольно сложно. Вся суть в том, что команда разработчиков изначально сделала ставку не на точность следования промту, а на визуальную красоту результата. И эта ставка сыграла. Даже короткий, небрежно написанный запрос Midjourney превращает в нечто кинематографичное, с выверенным светом и атмосферной цветовой палитрой.
Впрочем, есть и ложка дёгтя. Работает сервис исключительно через Discord — мессенджер, который далеко не каждому по душе. К тому же бесплатного тарифа больше нет: минимальная подписка обойдётся примерно в десять долларов в месяц. Для профессионала это не бьёт по бюджету, а вот для человека, который «просто хочет попробовать», сумма может показаться неоправданной. Да и сам процесс генерации происходит в публичных каналах, где мелькают чужие запросы и результаты, — приватности тут ждать не стоит, если только не перейти на более дорогой тариф.
Что насчёт работы с текстом внутри изображений? Тут Midjourney до сих пор спотыкается. Ведь именно надписи на картинках — его ахиллесова пята: буквы путаются, слова коверкаются, а кириллицу сервис и вовсе воспринимает с трудом. Зато в стилизации ему равных мало. Хочется постер в духе нуарного кино сороковых годов — пожалуйста. Нужна акварельная иллюстрация для детской книги — без проблем. Midjourney тяготеет к художественному, почти «галерейному» результату, и именно это приковывает внимание творческих людей по всему миру.
Ваш личный ИИ-отдел маркетинга, который работает 24/7 📈
Ускорьте создание контента в 10 раз! Этот мульти-ИИ сервис позволяет писать безупречные продающие посты, генерировать уникальные фото для соцсетей, создавать рекламные промо-ролики с нуля и писать для них музыку в пару кликов. Идеальное решение для предпринимателей, маркетологов и SMM-специалистов. Всё в едином удобном интерфейсе — больше не нужно переключаться между десятком вкладок.
Делегируйте рутину искусственному интеллекту и увеличивайте продажи. Начните работу здесь 👉 https://clck.ru/3RNCRL
Как обстоят дела у DALL-E 3?
Детище OpenAI прошло долгий путь. Первая версия, появившаяся в январе 2021 года, выдавала довольно размытые, порой откровенно страшноватые изображения. Вторая стала заметно лучше, но всё ещё уступала конкурентам по детализации. А вот третья версия, интегрированная в ChatGPT осенью 2023 года, — это уже совсем другая история. Качественный скачок бросается в глаза моментально.
Главное достоинство DALL-E 3 — скрупулёзное следование текстовому описанию. Если в промте написано «рыжий кот в синем берете сидит на подоконнике рядом с кактусом», то именно это и окажется на картинке. Ни больше, ни меньше. Midjourney в аналогичной ситуации может «додумать» антураж, добавить закатное освещение и вообще превратить скромного кота в героя эпического полотна. Красиво? Безусловно. Но не всегда это то, чего хочет пользователь. DALL-E 3 же ведёт себя как добротный исполнитель: что попросили — то и нарисовал.
Нельзя не упомянуть и работу с текстом на изображениях. Тут DALL-E 3 солирует. Надписи на латинице получаются на удивление чёткими и грамотными, а ошибок — минимум. С кириллицей дело обстоит сложнее, но всё-таки результат куда стабильнее, чем у конкурентов. Это делает инструмент настоящим спасательным кругом для тех, кому нужны мокапы, обложки или рекламные баннеры с текстовыми элементами.
Однако есть нюанс, который способен отпугнуть. DALL-E 3 довольно строго относится к модерации контента. Запросы, которые система считает хоть сколько-нибудь спорными, блокируются без лишних объяснений. Иногда под раздачу попадают совершенно невинные идеи — просто потому, что алгоритм перестраховывается. Для коммерческих задач это даже плюс (меньше юридических рисков), но для свободного творчества такая щепетильность порой раздражает.
Kandinsky: отечественный ответ
А вот оригинальное название у этой нейросети. Разработанная командой «Сбера», она получила имя в честь Василия Кандинского — художника-абстракциониста, чьё творчество до сих пор вызывает споры в среде искусствоведов. Символично: сам сервис тоже вызывает неоднозначные реакции. И всё же за последний год Kandinsky (на момент написания статьи актуальна версия 3.1) заметно прибавил в качестве, и списывать его со счетов точно не стоит.
Первое, что приковывает внимание, — полностью бесплатный доступ. Ни подписок, ни скрытых платежей. Для обывателя, который хочет окунуться в мир генеративного искусства без серьёзных вложений, это настоящий кладезь возможностей. К тому же интерфейс переведён на русский язык, а сам сервис прекрасно понимает промты на кириллице. Для русскоязычного пользователя нюанс принципиальный: не нужно ломать голову над переводом сложных описаний на английский.
Стоит ли ожидать от Kandinsky того же уровня, что и от Midjourney? На самом деле — нет. Пока не стоит. Фотореализм даётся отечественной нейросети с переменным успехом: лица иногда «плывут», мелкие детали теряются, а цветовая палитра бывает довольно блёклой. Но в определённых жанрах — иллюстрации, концепт-арт, абстракция — результаты выглядят вполне конкурентоспособно. Да и скорость генерации впечатляет: картинка появляется буквально за несколько секунд, тогда как Midjourney на пиковой нагрузке может задумываться на минуту и дольше.
Стоит ли сравнивать напрямую?
Задача не из лёгких. Дело в том, что каждый из трёх сервисов создавался с прицелом на свою нишу, и ставить их в один ряд — всё равно что сравнивать масляные краски, акварель и цветные карандаши. Инструменты разные, задачи разные, результат — тоже. Midjourney тяготеет к эстетике и атмосфере, DALL-E 3 — к точности и послушности, Kandinsky — к доступности и простоте входа.
Для наглядности стоит представить конкретную ситуацию. Допустим, нужна обложка для подкаста о путешествиях: закат над морем, силуэт самолёта, название шоу крупными буквами. Midjourney выдаст кинематографичный закат с потрясающей игрой света, но название шоу скорее всего окажется нечитаемым набором символов. DALL-E 3 нарисует всё ровно так, как описано, включая корректную надпись, хотя атмосфера может получиться чуть «стерильной». Kandinsky справится с задачей быстрее всех и бесплатно, но итоговая детализация будет скромнее. Какой вариант лучше? Зависит от того, что важнее в конкретный момент.
Работа с промтами: кто понимает лучше?
Промт-инжиниринг — отдельное ремесло, которое за последний год превратилось чуть ли не в профессию. И каждая нейросеть «слышит» текстовые запросы по-своему. Midjourney любит образные, метафоричные описания: чем поэтичнее промт, тем интереснее результат. Фразы вроде «ethereal glow of a forgotten temple» творят чудеса. А вот сухие технические описания модель обрабатывает хуже, часто додумывая лишнее.
DALL-E 3 придерживается противоположного подхода. Ему ближе конкретика: размеры, расположение объектов, цвета, количество элементов. Метафоры его скорее сбивают с толку, зато чёткие инструкции он выполняет почти безупречно. Кстати, благодаря интеграции с ChatGPT можно просто описать задачу разговорным языком, и система сама преобразует текст в оптимальный промт. Это удобно. Ведь не каждый готов тратить полчаса на формулировку идеального запроса.
Kandinsky в этом плане занимает промежуточную позицию. Он неплохо справляется с промтами на русском языке, но длинные и сложные описания порой интерпретирует довольно вольно. Лучше всего работают короткие, ёмкие формулировки из пяти-семи слов. Тем более что интерфейс подсказывает примеры стилей и настроений, так что даже новичок быстро сориентируется.
Коммерческое использование и подводные камни
Многие считают, что сгенерированную картинку можно смело использовать где угодно. Но на самом деле всё не так просто. Вопрос авторских прав в сфере генеративного искусства до сих пор остаётся открытым, и законодательство разных стран трактует его по-разному. Midjourney разрешает коммерческое использование изображений подписчикам платных тарифов, однако с оговорками. Компаниям с годовым доходом выше миллиона долларов придётся оформить корпоративную подписку.
У DALL-E 3 ситуация прозрачнее: OpenAI передаёт все права на изображение пользователю, который его создал. Никаких дополнительных условий. Для коммерческих проектов это весомый аргумент, тем более что модерация контента минимизирует риск случайной генерации чего-то спорного. Kandinsky тоже позволяет использовать результаты в коммерческих целях, хотя детали лицензионного соглашения стоит изучить отдельно — они периодически обновляются.
Отдельно стоит упомянуть ещё один подводный камень. Ни одна из перечисленных нейросетей не гарантирует, что сгенерированное изображение не будет похоже на чью-то реальную работу. Случаи, когда нейросеть «вспоминала» элементы из обучающего набора и вплетала их в результат, уже зафиксированы. Для личных экспериментов это мелочь, а вот для рекламной кампании крупного бренда — потенциальная головная боль.
Скорость и удобство: что не бьёт по нервам?
Быстрый результат. Вот чего хочет большинство пользователей, особенно тех, кто работает в жёстких дедлайнах. Kandinsky здесь выигрывает за счёт лёгкого веб-интерфейса: открыл страницу, набрал запрос, через четыре-пять секунд увидел картинку. Никаких регистраций в сторонних сервисах, никаких ботов в мессенджерах.
Midjourney, как уже говорилось, работает через Discord, и для неподготовленного человека первый опыт может оказаться довольно стрессовым. Команды, параметры, очереди — всё это требует времени на освоение. Но когда привыкаешь, процесс идёт гладко, а возможности тонкой настройки (вес промта, соотношение сторон, стилизация) приковывают внимание и затягивают. DALL-E 3, встроенный в ChatGPT, предлагает, пожалуй, самый интуитивный опыт: просто пишешь в чат, как обычному собеседнику, и получаешь изображение прямо в диалоговом окне. Для тех, кто уже пользуется ChatGPT, переход к генерации картинок почти незаметен.
Что выбрать для конкретных задач?
Вместо абстрактного «что лучше» стоит задуматься о том, какая именно задача стоит перед вами. Для иллюстраций к статьям и блогам, где важна атмосфера и визуальная привлекательность, Midjourney остаётся вне конкуренции. Его изображения выглядят «дорого», и даже скептик заметит разницу в эстетике. Для презентаций, инфографики и всего, что требует надписей и точного расположения элементов, DALL-E 3 — логичный выбор. А для быстрых экспериментов, мозговых штурмов или просто развлечения Kandinsky станет отличным решением, которое не сильно ударит по кошельку. Точнее — не ударит вообще.
Нужно отметить, что границы между этими инструментами постепенно размываются. Каждое обновление подтягивает слабые стороны: Midjourney учится работать с текстом, DALL-E 3 становится более «художественным», Kandinsky наращивает детализацию. Буквально через полгода расклад сил может измениться кардинально. Ведь гонка в сфере генеративных нейросетей набирает обороты с каждым месяцем, и ни один из игроков не собирается уступать.
Не стоит привязываться к одному инструменту. Лучшие результаты получаются у тех, кто комбинирует несколько нейросетей: генерирует базу в одной, дорабатывает стилистику в другой, а финальную ретушь делает вручную или в третьей.
Какой бы сервис ни приглянулся больше остальных — Midjourney с его изысканной картинкой, DALL-E 3 с безупречной точностью или Kandinsky с его демократичной бесплатностью — главное помнить, что нейросеть остаётся инструментом. Мощным, впечатляющим, порой даже грандиозным. Но творческое решение всё ещё принимает человек. И именно от ясности вашего замысла зависит, получится ли на выходе шедевр или нечто невразумительное. Удачи в экспериментах — впереди ещё много интересного.

