Большой тест нейросетей: Kandinsky, Шедеврум, Midjourney и Stable Diffusion

Ещё пару лет назад сама идея того, что машина способна нарисовать портрет или пейзаж по короткому текстовому описанию, казалась фантастикой из разряда «когда-нибудь потом». А сейчас генеративные нейросети плодят картинки миллионами, и львиная доля пользователей интернета хотя бы раз да баловалась с каким-нибудь генератором изображений. Проблема в том, что сервисов расплодилось столько, что глаза разбегаются — одни бесплатные, другие бьют по бюджету подпиской в тридцать долларов, третьи и вовсе требуют собственную видеокарту с восемью гигабайтами видеопамяти. Но чтобы не тратить время на каждый из них вслепую, стоит разобраться, чем четыре самых обсуждаемых инструмента — Kandinsky, Шедеврум, Midjourney и Stable Diffusion — отличаются друг от друга на практике.

Все топовые нейросети в одном месте

Зачем вообще сравнивать генераторы картинок?

Казалось бы, нейросеть — она и в Африке нейросеть. Вбил промпт, получил изображение, радуешься. Но не всё так просто. Ведь каждая модель обучалась на разных датасетах, по разным алгоритмам, и «мышление» у них, если так можно выразиться, тоже совершенно разное. Одна нейросеть тяготеет к фотореализму, другая — к иллюстративной стилистике, а третья любую просьбу норовит превратить в нечто среднее между обложкой фэнтези-романа и картиной маслом. К тому же скорость генерации, стоимость доступа и удобство интерфейса — это отдельные подводные камни, на которые натыкаешься уже после первого восторга. И если для развлекательного поста в соцсети сойдёт что угодно, то для коммерческого проекта или портфолио разница между сервисами всплывёт моментально.

Kandinsky от Сбера

Начать стоит с отечественного продукта. Kandinsky — разработка команды Сбера, и за последние полтора года модель прошла путь от довольно скромных первых версий до вполне конкурентоспособного инструмента. Третья версия, появившаяся в 2024 году, заметно подтянула детализацию лиц и рук — а ведь именно руки были настоящим бичом ранних генераторов. Работает нейросеть прямо в браузере, через FusionBrain, и это бесплатно. Полностью. Без подписок и скрытых лимитов на количество генераций в сутки.

Сильная сторона Kandinsky — адекватная работа с кириллическим текстом в промптах. Можно описать сцену по-русски, и модель довольно точно ухватит суть, не путая «берёзовую рощу» с «пальмовой аллеей». Впрочем, ложка дёгтя тоже имеется. Когда запрос усложняется, когда в нём появляются абстрактные метафоры или сложная композиция с несколькими персонажами, результат бывает неоднозначным. Модель иногда «теряет» объекты — просишь троих людей за столом, а получаешь двоих и размытое пятно на месте третьего. Но для бесплатного инструмента, доступного без VPN, качество заслуживает уважения.

Нереальный визуал и кинематографичное видео в пару кликов 🎬

Нужен крутой концепт-арт, реалистичная анимация или профессиональный апскейл? Теперь у вас есть единый доступ к лучшим визуальным нейросетям планеты: Midjourney, Runway, Kling и Sora. Улучшайте качество готовых роликов до максимума с помощью встроенных ИИ-инструментов. Никаких сложных настроек, мощного ПК или зарубежных карт. Всё работает прямо в браузере или в Telegram-боте!

Откройте новые горизонты для творчества. Жмите на ссылку, регистрируйтесь и создавайте шедевры 👉 https://clck.ru/3RNCRL

Шедеврум: нейросеть от Яндекса

Другой российский тяжеловес. Шедеврум работает через мобильное приложение и веб-интерфейс, и Яндекс довольно активно его продвигает — реклама мелькает то в поисковой выдаче, то в Алисе. Изюминка сервиса — социальная составляющая. Это не просто генератор, а целая платформа, где пользователи выкладывают результаты, ставят лайки и даже соревнуются в оригинальности промптов. По сути, Яндекс выстроил вокруг нейросети маленькую соцсеть.

Что касается качества самой генерации, тут дело обстоит следующим образом. На простых запросах вроде «котёнок в шапке Санты» или «закат над горами» Шедеврум выдаёт очень симпатичные, яркие картинки с приятной цветовой палитрой. Модель явно тяготеет к декоративности — изображения получаются «вылизанными», сочными, иногда даже чуть избыточно красивыми. Но стоит попросить что-то технически сложное — скажем, интерьер в стиле лофт с конкретной расстановкой мебели — и начинаются проблемы с пропорциями. Ну и, конечно же, мелкие детали вроде текста на вывесках модель рисует абракадаброй, как, впрочем, и большинство конкурентов.

Midjourney: безоговорочный фаворит?

Грандиозный успех. Именно так можно охарактеризовать путь Midjourney — от экспериментального бота в Discord до одного из самых обсуждаемых ИИ-продуктов в мире. Многие считают, что у Midjourney нет равных в плане эстетики, и на самом деле с этим сложно спорить. Версия 6.1, актуальная на середину 2025 года, генерирует изображения такого уровня, что даже опытный дизайнер не всегда отличит результат от профессиональной фотографии или цифровой иллюстрации. Детализация текстур, работа со светом, глубина резкости — всё это у Midjourney на высоте.

Но есть нюанс. И даже не один. Во-первых, сервис платный — базовая подписка стоит десять долларов в месяц, а для серьёзной работы потребуется тариф за тридцать. Во-вторых, доступ из России без VPN и зарубежной карты — та ещё махинация. Само по себе это не приговор, ведь обходные пути существуют, но удобства ноль. К тому же промпты принимаются только на английском языке, и качество результата напрямую зависит от того, насколько скрупулёзно ты прописал описание. Короткие запросы в духе «красивый замок» дадут посредственный результат, а вот развёрнутый промпт с указанием стиля, освещения, ракурса и палитры — совсем другое дело. Midjourney вознаграждает тех, кто тратит время на формулировки.

Стоит ли разбираться в «промпт-инжиниринге»?

Коротко — да. Это касается всех четырёх нейросетей, но Midjourney и Stable Diffusion в этом плане особенно щепетильны. Дело в том, что генеративная модель не умеет читать мысли. Она реагирует на слова, на их порядок, на запятые и даже на пропорцию между описательной частью и техническими параметрами (вроде aspect ratio или seed). Обыватель обычно пишет что-то вроде «нарисуй мне красивый пейзаж», а потом удивляется блёклому результату. Между тем опытные пользователи Midjourney составляют промпты из пятидесяти-семидесяти слов, указывая стиль конкретного художника, тип камеры, время суток и даже настроение. И вот тут-то нейросеть творит чудеса.

Stable Diffusion: свобода и ответственность

Совершенно иной подход. Stable Diffusion — это не сервис с подпиской, а открытая модель, которую можно скачать и запустить на собственном компьютере. Звучит заманчиво, но дальше начинаются подводные камни. Для комфортной работы нужна видеокарта NVIDIA с минимумом восьми гигабайтами VRAM, а лучше — двенадцать или шестнадцать. Установка через интерфейсы вроде Automatic1111 или ComfyUI — процесс не сложный, но кропотливый, особенно для человека, далёкого от командной строки.

Зато какой простор для кастомизации! Stable Diffusion — это кладезь возможностей для тех, кто хочет полный контроль над результатом. Можно подгружать собственные модели (так называемые чекпоинты), дообучать нейросеть на конкретном стиле или лице через LoRA-адаптеры, комбинировать сэмплеры и менять количество шагов генерации вручную. Буквально три года назад такие вещи были доступны только исследователям, а сейчас любой энтузиаст с добротной видеокартой может собрать собственный конвейер для создания изображений. Впрочем, у этой свободы есть обратная сторона — без определённых технических знаний результат будет уступать тому же Midjourney, где вся «магия» спрятана под капотом.

Качество генерации: кто рисует лица лучше?

Человеческое лицо — это лакмусовая бумажка для любого генератора изображений. Именно на портретах всплывают все огрехи: лишние пальцы, асимметричные глаза, зубы, слитые в одну белую полоску, серьги, которые не совпадают по стилю. Midjourney справляется с этой задачей лучше остальных — лица в шестой версии выглядят почти безупречно, а кожа приобретает ту самую «живую» текстуру с порами и едва заметными неровностями. Stable Diffusion на моделях вроде SDXL и особенно на кастомных реалистичных чекпоинтах подбирается очень близко, но требует ручной настройки — без правильного сэмплера и CFG scale результат может оказаться «пластиковым».

А вот Kandinsky и Шедеврум на портретах пока отстают. Не катастрофически, но заметно. Глаза иногда «плывут», волосы теряют естественность, а мелкие детали вроде ресниц превращаются в размытую кашу. Это связано с тем, что обе модели ещё относительно молоды по сравнению с западными конкурентами, и датасеты, на которых они обучались, по объёму уступают. Впрочем, прогресс очевиден — если сравнить результаты Kandinsky 2.0 и 3.0, разница колоссальная.

Скорость и удобство: что по интерфейсу?

Шедеврум генерирует картинку за пять-десять секунд, и это один из самых быстрых показателей среди всех тестируемых сервисов. Kandinsky работает чуть медленнее — в среднем около пятнадцати секунд на одно изображение, хотя зависит от загруженности серверов. Midjourney в стандартном режиме тратит примерно минуту на четыре варианта, а в режиме «fast» — секунд двадцать. Тут стоит задуматься: за скорость приходится платить в буквальном смысле, потому что «fast»-генерации расходуют лимит подписки быстрее.

Со Stable Diffusion ситуация целиком зависит от железа. На карте RTX 4070 одно изображение в разрешении 1024×1024 появляется за восемь-двенадцать секунд. На старенькой GTX 1660 — за минуту с лишним. А на процессоре без видеокарты — можно и кофе успеть заварить. Кроме того, интерфейс Automatic1111 при всей его функциональности выглядит, мягко говоря, не для слабонервных: десятки ползунков, чекбоксов и выпадающих меню способны ввести новичка в ступор. ComfyUI ещё сложнее — он построен на нодовой логике, и без пары часов обучения там делать нечего.

Стилизация и художественные возможности

Вот где начинается самое интересное. Midjourney — бесспорный лидер по «дефолтной» эстетике. Даже без специальных указаний картинки получаются стильными, с кинематографичной цветокоррекцией и выверенной композицией. Модель словно заранее знает, как сделать красиво. Но эта же черта оборачивается минусом: все изображения из Midjourney имеют узнаваемый «привкус», некий фирменный лоск, который опытный глаз считывает мгновенно. Хочется грязи, шума, намеренной небрежности — а нейросеть всё равно «причёсывает» результат.

Stable Diffusion в этом отношении гибче. Благодаря тысячам пользовательских моделей, доступных на площадках вроде Civitai, можно добиться практически любого стиля — от гиперреализма до акварели, от аниме до гравюры. Это настоящий антураж творческой мастерской, где ты сам смешиваешь краски. Kandinsky и Шедеврум предлагают встроенные стили (типа «аниме», «масло», «3D»), но выбор ограничен, да и результат не всегда соответствует ожиданиям. К слову, Шедеврум довольно неплохо справляется с мультяшной стилистикой — яркие персонажи с крупными глазами получаются на удивление обаятельными.

Сколько всё это стоит?

Вопрос, который волнует, пожалуй, больше всего. Kandinsky и Шедеврум — полностью бесплатные, и это их главный козырь. Ни регистрации с банковской картой, ни скрытых лимитов, ни водяных знаков (хотя Шедеврум ставит свой логотип, который, впрочем, легко обрезать). Для студента, блогера или просто любопытного человека — идеальный вариант, не сильно ударяющий по кошельку. Потому что ударять нечем — вход свободный.

Midjourney — серьёзное вложение для постоянного использования. Десять долларов в месяц за базовый план дают около двухсот генераций, тридцать долларов — «безлимитный» релакс-режим и пятнадцать часов быстрого. Для профессионала, который зарабатывает на визуальном контенте, эти деньги окупятся быстро. А вот для экспериментатора, который «просто поиграться», сумма ощутимая. Тем более что в рублёвом эквиваленте тридцать долларов сейчас — это почти три тысячи.

Stable Diffusion формально бесплатен. Модель открытая, код доступен на GitHub. Но не стоит забывать про стоимость железа. Если подходящей видеокарты нет, а покупать её специально — кошелёк станет значительно легче. RTX 4070 обойдётся тысяч в сорок-пятьдесят рублей, и это минимум для комфортной работы. Впрочем, есть облачные решения вроде Google Colab или RunPod, где арендовать мощности можно за пару долларов в час. Но тут уже нужна определённая техническая подготовка.

Какие ограничения накладывают разработчики?

Тонкий момент. Все четыре нейросети используют фильтры контента, но степень строгости разная. Шедеврум — пожалуй, самый «зацензурированный» инструмент: модель отказывается генерировать любой намёк на жестокость, обнажённость или даже слишком реалистичное оружие. Kandinsky чуть мягче, но тоже осторожничает. Midjourney в последних версиях ужесточила политику модерации — промпты с провокационным содержанием моментально блокируются, а аккаунт могут заморозить.

Stable Diffusion в этом плане — terra incognita. Поскольку модель работает локально, никакого внешнего модератора нет. Это одновременно и плюс, и минус. С одной стороны, художник получает абсолютную свободу самовыражения. С другой — ответственность за использование результатов целиком ложится на пользователя. Нужно отметить, что некоторые кастомные модели на Civitai специально «разблокированы», и это вызывает справедливую критику со стороны этических комитетов. Да и самим разработчикам Stability AI эта ситуация нервов стоила немало.

Что насчёт коммерческого использования?

Если картинка нужна для бизнеса — на сайт, в рекламу, на упаковку — вопрос лицензирования становится критичным. Midjourney на платных тарифах разрешает коммерческое использование сгенерированных изображений, и это прописано в пользовательском соглашении. Stable Diffusion, распространяемая под лицензией CreativeML Open RAIL-M, тоже в целом допускает коммерцию, но с оговорками — нельзя использовать результат во вред, и ответственность лежит на пользователе.

Все топовые нейросети в одном месте

С российскими сервисами ситуация менее прозрачная. Шедеврум в своих условиях указывает, что права на изображения остаются за Яндексом, хотя на практике массовых преследований за коммерческое использование пока не замечено. У Kandinsky условия похожие — Сбер оставляет за собой определённые права, и для серьёзного коммерческого проекта стоит внимательно прочитать пользовательское соглашение. Впрочем, правовое поле вокруг ИИ-генерации в России пока только формируется, и до полной ясности ещё далеко.

Какую нейросеть выбрать под свою задачу?

Задача не из лёгких. Однако кое-что разложить по полочкам всё-таки можно. Для быстрого создания картинок «на каждый день» — аватарки, посты в Telegram, открытки друзьям — отлично подойдут Шедеврум и Kandinsky. Оба бесплатны, оба работают без установки, и оба достаточно хороши для непрофессионального использования. Для тех, кто занимается дизайном, иллюстрацией или контент-маркетингом и готов платить за качество, Midjourney — очевидный выбор. Эстетика на высоте, а порог входа по сравнению со Stable Diffusion значительно ниже.

Ну, а для тех, кто не боится технических деталей, кто хочет полностью контролировать процесс и экспериментировать с моделями, Stable Diffusion станет настоящей песочницей. Это выбор энтузиаста, исследователя, человека, которому мало «красиво» — ему нужно понимать, почему красиво и как сделать по-другому. Да и экономически в долгосрочной перспективе (при наличии подходящего железа) вариант выгодный — никаких ежемесячных платежей.

Мир генеративных нейросетей меняется со скоростью, от которой голова идёт кругом — то, что было топовым полгода назад, сегодня уступает свежей версии конкурента. И это, пожалуй, самое захватывающее. Не стоит привязываться к одному инструменту навечно. Лучше пробовать, сравнивать и комбинировать. Ведь каждая из четырёх нейросетей хороша по-своему, а лучший результат зачастую рождается там, где технология встречается с живой фантазией автора. Удачи в экспериментах — пусть ваши промпты всегда попадают в цель.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *