Ещё каких-то пять лет назад генерация изображений нейросетью казалась забавной игрушкой — кривоватые лица, расплывчатые пейзажи и руки с семью пальцами веселили интернет. А сегодня эти же алгоритмы выдают картинки, от которых у профессиональных иллюстраторов невольно сжимается сердце. Дело в том, что прогресс в сфере генеративных моделей стал настолько стремительным, что даже те, кто следит за новостями каждую неделю, не всегда успевают разобраться в нюансах. Тройка лидеров — Kandinsky 2.2, Midjourney и Stable Diffusion — на слуху у каждого, кто хоть раз пробовал «нарисовать» что-нибудь текстовым запросом. Но чтобы понять, кто из них действительно тянет на звание лучшего художника, стоит разложить всё по полочкам.
Откуда взялась вся эта троица?
Midjourney появилась раньше остальных в широком доступе — летом 2022 года Дэвид Хольц с небольшой командой запустил закрытую бету прямо внутри мессенджера Discord. Ход был нетривиальный. Ведь привычные сервисы обычно обзаводятся собственным сайтом и приложением, а тут пользователей отправили в чат-бот. Но именно эта простота и подкупила первых энтузиастов: написал промт, подождал минуту — получил четыре варианта. Без регистрации на сторонних платформах, без мудрёных настроек. К слову, к началу 2023 года Midjourney уже перевалила за 15 миллионов пользователей, и цифра эта только росла.
Stable Diffusion — детище компании Stability AI — пошла принципиально иным путём. Открытый исходный код. Это решение перевернуло рынок. Ведь любой разработчик мог скачать модель, обучить её на собственных данных, встроить в приложение. Да и запускалась она на домашнем компьютере с более-менее приличной видеокартой (от 8 Гб видеопамяти). Именно эта открытость породила десятки кастомных моделей и расширений, которые сообщество клепало буквально каждый день.
А вот Kandinsky 2.2 — проект «Сбера» и исследовательской группы AI-центра. В представлении многих это просто «российский аналог», но на самом деле архитектура модели довольно самобытная. Она сочетает в себе диффузионный подход с мультимодальным пониманием текста на нескольких языках, включая русский. И вот этот момент — понимание русскоязычных промтов «из коробки» — стал её главной изюминкой на фоне англоязычных конкурентов.
Все лучшие нейросети мира теперь в твоём кармане! ⚡
Тексты, топовое видео, картинки и аудио. Самые мощные версии GPT, Claude, Midjourney, Sora, Kling и еще 90+ ИИ-моделей собраны в одном месте. Работает невероятно быстро: через удобный сайт или прямо в Telegram. Больше никаких блокировок, VPN, иностранных карт и переплат.
Жми на ссылку ниже и забирай свои бесплатные генерации для тест-драйва платформы 👉 https://clck.ru/3RNCRL
Как устроена генерация «под капотом»?
Все три модели работают на принципе диффузии, но дьявол, как водится, прячется в деталях. Грубо говоря, нейросеть берёт чистый шум — зернистое изображение, напоминающее помехи старого телевизора, — и шаг за шагом «очищает» его, ориентируясь на текстовое описание. Midjourney обрабатывает всё на серверах компании, и пользователь видит только результат. Внутренняя архитектура закрыта: ни веса модели, ни детали обучения команда не раскрывает. Это одновременно и сила, и слабость — картинки выходят стабильно красивые, но повлиять на процесс генерации за пределами промта практически невозможно.
Со Stable Diffusion история обратная. Открытая архитектура на базе латентной диффузии (Latent Diffusion Model) позволяет копаться в настройках до бесконечности. Количество шагов сэмплирования, выбор сэмплера (Euler, DPM++ 2M Karras и другие), сила влияния текста на изображение — всё это регулируется вручную. Довольно сложно для новичка? Безусловно. Но именно такая гибкость привлекает профессионалов, которым нужен полный контроль над результатом.
Kandinsky 2.2 занимает промежуточную нишу. Модель работает через API и веб-интерфейс на платформе FusionBrain, а также через Telegram-бот. Настроек меньше, чем у Stable Diffusion, но больше, чем у Midjourney. К тому же поддержка русского языка реализована на уровне архитектуры — модель обучалась в том числе на русскоязычных текстах, поэтому не нужно переводить промт на английский и гадать, правильно ли нейросеть тебя поняла.
Качество изображений: кто солирует?
Начнём с честного признания. Midjourney в версиях 5.2 и 6 выдаёт картинки, которые нередко принимают за фотографии. Фотореализм — её коронный номер. Портреты людей с мягким студийным светом, пейзажи с глубиной резкости, предметная съёмка — всё это она делает на уровне, который ещё пару лет назад казался фантастикой. Да и стилизация под живопись у неё на высоте: импрессионизм, киберпанк, акварель — стили переключаются одним словом в промте. Но есть ложка дёгтя. Мелкие детали на заднем плане иногда «плывут», а руки и пальцы, хотя и стали значительно лучше, всё же периодически подбрасывают артефакты.
Stable Diffusion в базовой версии SDXL выдаёт результат послабее, если сравнивать «из коробки». Однако тут важен нюанс — сообщество создало сотни дообученных моделей (так называемых checkpoint) под конкретные задачи. Хочешь фотореализм? Есть RealVisXL. Нужна аниме-стилистика? Пожалуйста — AnimagineXL. Мрачный добротный арт в духе тёмного фэнтези? И на это найдётся модель. Вся суть в том, что Stable Diffusion — это не готовый продукт, а скорее конструктор. И в умелых руках этот конструктор творит чудеса, порой обходя Midjourney по качеству в узких нишах.
Kandinsky 2.2 держится достойно, хотя до лидеров в плане фотореализма ему пока далековато. Портреты получаются чуть «мультяшнее», текстуры менее детализированы. Но стоит отметить, что в стилизованных изображениях — иллюстрациях, концепт-артах, плакатной графике — модель выступает на удивление уверенно. А ещё она неплохо справляется со сложносочинёнными промтами на русском языке, где другие модели нередко теряют половину смысла.
Стоит ли гнаться за промт-инженерией?
Вопрос неоднозначный. Midjourney довольно лояльна к простым описаниям — можно написать буквально «кот в шляпе на крыше парижского дома, закат» и получить вполне приличный результат. Модель сама «додумывает» композицию, свет и цветовую палитру. Для тех, кто не хочет тратить полчаса на составление промта из двадцати строк, — это спасательный круг.
Со Stable Diffusion дело обстоит сложнее. Голый промт без указания модели, сэмплера, количества шагов и негативного промта (списка того, чего на картинке быть не должно) часто выдаёт нечто посредственное. Негативный промт — вообще отдельное искусство. Туда прописывают «размытие, лишние конечности, деформация лица, плохая анатомия» и ещё полтора десятка уточнений. Кропотливо? Да. Но результат оправдывает усилия.
Kandinsky 2.2 в этом смысле ближе к Midjourney — длинные промты ей не нужны. Впрочем, и тонкой настройки она пока не позволяет. Нельзя, скажем, задать конкретный стиль через LoRA-адаптер или подключить ControlNet для контроля позы персонажа. Для обывателя это некритично, а вот профессионал почувствует нехватку инструментов.
Доступность и цена вопроса
Бюджет — больная тема. Midjourney с 2023 года работает только по подписке: минимальный тариф стартует от 10 долларов в месяц, а «безлимит» на быструю генерацию стоит уже 60. Для профессионального использования — не сильно ударит по кошельку. Но если нейросеть нужна только ради развлечения пару раз в месяц, платить ежемесячно как-то не хочется. К тому же бесплатный пробный период давно отменён.
Stable Diffusion — совершенно бесплатна, если запускать её локально. Однако для этого нужен компьютер с видеокартой NVIDIA, минимум 8 Гб видеопамяти (а лучше 12). Кто не располагает таким железом, может воспользоваться облачными сервисами вроде RunPod или Google Colab, но там тоже всплывают расходы — от 0,5 до 2 долларов в час. Альтернатива — бесплатные веб-интерфейсы типа Clipdrop или Leonardo AI с ограниченным количеством генераций в день.
Kandinsky 2.2 доступен бесплатно через FusionBrain и Telegram-бот. Ограничения по количеству генераций мягкие — для личного пользования хватает с лихвой. И вот тут кроется серьёзное конкурентное преимущество: нет смысла переплачивать за зарубежные сервисы, когда для быстрых иллюстраций вполне хватает бесплатного инструмента с поддержкой родного языка.
Что насчёт этики и авторского права?
Подводные камни тут внушительные. Midjourney обучалась на миллиардах изображений из интернета, и далеко не все правообладатели давали на это согласие. Судебные иски от художников и фотостоков уже идут — например, коллективный иск в калифорнийском суде от группы иллюстраторов. Юридическая неопределённость никуда не делась, и любой, кто использует сгенерированные изображения в коммерческих проектах, берёт на себя определённый риск.
Stable Diffusion, будучи открытым проектом, эту проблему лишь усугубляет. Каждый может обучить модель на чём угодно — на работах конкретного художника, на скриншотах из фильмов, на фотографиях реальных людей. Никакого встроенного «морального компаса» у модели нет. Впрочем, Stability AI добавила фильтры в последние версии, но обойти их довольно просто. А вот Kandinsky 2.2 строже: встроенная модерация отсекает откровенный контент и запросы, связанные с реальными публичными персонами. Многие считают это чрезмерной цензурой, но на самом деле для корпоративного использования подобная осторожность — скорее плюс.
Скорость генерации и удобство интерфейса
Быстрее всех работает Midjourney — одно изображение в разрешении 1024×1024 появляется за 30–60 секунд на стандартном тарифе. Интерфейс в Discord поначалу сбивает с толку: команды, потоки сообщений, чужие генерации мелькают сплошной лентой. Но со временем привыкаешь, да и отдельный веб-сайт alpha.midjourney.com уже потихоньку обрастает функциями.
Stable Diffusion на локальном компьютере с RTX 4070 выдаёт картинку за 10–25 секунд — зависит от количества шагов и разрешения. Веб-интерфейс Automatic1111 или ComfyUI выглядит аскетично, зато в нём десятки вкладок с настройками, расширениями, контрольными сетками. Для технаря — рай. Для человека без подготовки — приковывающее внимание, но пугающее зрелище.
У Kandinsky 2.2 генерация занимает в среднем от 15 до 40 секунд через веб-интерфейс. Платформа FusionBrain лаконична: поле ввода, пара ползунков, кнопка «Сгенерировать». Всё интуитивно понятно без инструкций. И это, пожалуй, самый низкий порог входа из всей троицы.
Где каждая модель сильнее всего?
Разумеется, у каждого инструмента есть своя «территория», на которой он чувствует себя увереннее остальных. Midjourney тяготеет к эстетически выверенным, «журнальным» изображениям. Рекламные баннеры, обложки книг, концептуальные иллюстрации для презентаций — это её стихия. Когда нужен вау-эффект без долгой возни с настройками, Midjourney выручает почти всегда.
Stable Diffusion — кладезь возможностей для тех, кто готов потратить время на обучение. Её сила — в кастомизации. Нужно сгенерировать сотню изображений в едином стиле для мобильной игры? С помощью LoRA-адаптеров и пакетной генерации это реально. Хочется точно воспроизвести позу персонажа по референсу? ControlNet справится. Задача не из лёгких, но для продакшн-пайплайна ничего лучше пока не придумали.
Kandinsky 2.2 солирует там, где нужен быстрый результат без финансовых вложений и языкового барьера. Иллюстрация для поста в социальной сети, картинка для школьного проекта, визуализация идеи на этапе брейнсторма — для всего этого русскоязычная модель подходит отлично. Да и для тех, кто живёт и работает в российском правовом поле, вопрос юрисдикции данных немаловажен.
Стоит ли ждать от них прорыва?
Индустрия мчится вперёд с такой скоростью, что любое сравнение устаревает за полгода. Midjourney уже анонсировала работу над версией 7, обещая ещё более точное следование промтам и улучшенную генерацию текста на изображениях (буквально год назад надписи на картинках были бессмысленной кашей из букв). Stability AI выпустила Stable Diffusion 3, где архитектуру переделали с нуля, перейдя на трансформерный подход. А команда Kandinsky не отстаёт — следующая версия модели, по слухам, серьёзно прибавит в фотореализме и поддержке генерации видео.
Впрочем, сам по себе вопрос «кто лучше» — это ловушка. Ведь инструмент хорош не абстрактно, а под конкретную задачу. Профессиональный дизайнер, собирающий пайплайн для игровой студии, выберет Stable Diffusion — с её гибкостью и возможностью встраивания в рабочие процессы. Маркетолог, которому нужна красивая картинка для рекламного креатива за пять минут, потянется к Midjourney. А блогер, ведущий канал на русском языке и не желающий возиться с иностранными подписками, — обратит внимание на Kandinsky.
Нейросеть — не замена художнику, а мощный усилитель замысла. Сколь бы совершенной ни была модель, без осмысленного промта и творческого видения результат останется набором красивых, но пустых пикселей.
Не стоит гнаться за одним-единственным «правильным» выбором. Лучшая стратегия — попробовать все три, благо у каждой есть бесплатный или недорогой порог входа. Сравнить результаты на своих задачах, а не на чужих обзорах. И тогда ответ на вопрос «кто рисует лучше» придёт сам собой — через личный опыт, а не через громкие заголовки. Удачи в экспериментах: этот мир генеративного искусства только начинается, и самое интересное ещё впереди.

