Ещё пару лет назад сама идея получить качественную иллюстрацию за тридцать секунд казалась фантастикой из разряда «ну, когда-нибудь потом». Дизайнеры тратили часы на отрисовку концептов, фотографы колдовали над постановочными кадрами, а обыватель довольствовался стоковыми картинками, от которых сводило скулы. И вот нейросети перевернули всё с ног на голову — генерация изображений по текстовому запросу стала доступна каждому, у кого под рукой браузер и толика фантазии. Но с ростом количества бесплатных инструментов всплыл неизбежный вопрос: какой же из них действительно тянет на звание лучшего, а какой лишь красиво обещает на лендинге? Чтобы разобраться, стоит протестировать три нашумевших генератора — Gemini от Google, Seedream и Qwen от Alibaba — на живых задачах, без скидок и реверансов.
Зачем вообще тестировать бесплатные генераторы?
Казалось бы, если инструмент бесплатный, чего привередничать. Бери и пользуйся. Однако «бесплатно» вовсе не означает «одинаково». Один генератор великолепно справляется с фотореалистичными портретами, но беспомощно мнётся, когда ему заказывают акварельный пейзаж. Другой выдаёт потрясающие абстракции, а вот с текстом на картинке у него дела обстоят плачевно — буквы плывут, как масло по горячей сковороде. Третий радует скоростью, но огорчает детализацией. Да и сами модели обновляются с такой частотой, что результат, полученный в январе, к марту может выглядеть совершенно иначе. Ведь за каждым обновлением прячутся новые архитектуры, дообученные датасеты и подкрученные гиперпараметры.
К тому же, бесплатные тарифы почти всегда идут с ограничениями. Где-то потолок — пятнадцать картинок в сутки, где-то разрешение урезано до 1024 на 1024 пикселей, а где-то на выходе лепят водяной знак, который потом замучаешься убирать. Вот и получается, что для осознанного выбора нужно не просто «потыкать кнопку», а скрупулёзно прогнать каждый сервис через серию однотипных промтов и сравнить результат. Именно это мы и проделали.
Gemini: гигант с оговорками
Первым на очереди — детище Google. Модель, которую в 2024-м ребрендировали из Bard в Gemini, а потом обкатали на задачах генерации через обновлённый движок Imagen 3. Приковывает внимание уже сам факт интеграции с экосистемой Google — генерировать можно прямо из чата, не переходя на сторонние сайты. Удобно? Безусловно. Но дьявол, как водится, прячется в нюансах.
Зачем переплачивать за нейросети? Экономьте сотни долларов каждый месяц 💸
Оплачивать Midjourney, премиум-версии ChatGPT, видео- и аудио-генераторы по отдельности — это безумно дорого и неудобно. Этот сервис решает проблему! Получите полный пакет премиум-моделей (более 90 топовых нейросетей) по цене одной доступной подписки. Безлимитные возможности, никаких скрытых платежей и сгорающих токенов при активном тарифе.
Перестаньте платить за 10 разных сайтов. Выбирайте выгоду и творите без ограничений 👉 https://clck.ru/3RNCRL
Мы скормили Gemini пять промтов разной сложности. Первый — классика: «кот в космическом скафандре на поверхности Марса, фотореализм». Результат приятно удивил. Шерсть кота выглядела убедительно, отражения на визоре шлема были проработаны, а марсианский пейзаж на заднем плане не казался плоской текстурой из игры 2005 года. Второй промт — «акварельный натюрморт с подсолнухами в стиле Ван Гога» — тоже отработан достойно, хотя мазки получились чуть более аккуратными, чем у самого Винсента. А вот с третьим заданием начались проблемы. Когда в запросе фигурировал текст на изображении (например, вывеска магазина с надписью «Fresh Baked»), буквы всё-таки поплыли. Не критично — две из семи букв слегка деформировались, — но для баннера или мокапа такой результат уже непригоден.
Отдельно стоит упомянуть щепетильность модерации. Gemini довольно строго фильтрует запросы, связанные с лицами реальных людей, и в целом тяготеет к «безопасности» в ущерб творческой свободе. Это понятно — Google дорожит репутацией. Но если задача требует изобразить, скажем, стилизованный портрет мужчины, похожего на кого-то конкретного, модель вежливо откажет. Для коммерческих задач такой подход даже на руку (меньше юридических рисков), а вот для экспериментов — ложка дёгтя.
Seedream: тёмная лошадка от ByteDance
Название мало что скажет обывателю. И немудрено — Seedream от ByteDance (да, тех самых создателей TikTok) появился на радарах относительно недавно и пока не оброс той же медийной славой, что конкуренты. Но именно эта модель, пожалуй, преподнесла самый внушительный сюрприз.
Дело в том, что Seedream базируется на диффузионной архитектуре нового поколения, заточенной под высокую детализацию при сравнительно небольшом количестве шагов инференса. На практике это означает следующее: картинка генерируется за 8–12 секунд (против 15–25 у конкурентов), а качество текстур порой заставляет всматриваться дважды — настолько они правдоподобны. Тот же «кот на Марсе» здесь получился чуть менее кинематографичным, чем у Gemini, зато отражение в визоре шлема содержало детали окружения, которых у Google-версии просто не было.
Где Seedream по-настоящему солирует — так это в генерации сложных сцен с несколькими персонажами. Вот промт: «Группа из четырёх людей за круглым столом в средневековой таверне, тёплое освещение от свечей, вид сверху». Gemini справился, но один из персонажей получил шесть пальцев (классическая болезнь всех нейросетей), а Qwen и вовсе «слил» композицию, разместив двух людей практически друг на друге. Seedream же выдал сцену, в которой все четверо были анатомически корректны, а свет от свечей мягко ложился на деревянную столешницу. Впечатляюще. Ведь именно мультиперсонажные сцены до сих пор считаются ахиллесовой пятой генеративных моделей.
Впрочем, подводные камни у Seedream тоже имеются. Доступ к бесплатной версии ограничен (около двадцати генераций в день без регистрации, после — нужен аккаунт ByteDance), а документация пока скудная и преимущественно на китайском. Да и интерфейс, мягко говоря, не блещет интуитивностью — человеку, далёкому от технических деталей, придётся повозиться с настройками.
Qwen: когда за спиной стоит Alibaba
Qwen — модель от Alibaba Cloud, которая за последний год прошла путь от «ещё одного чат-бота» до довольно серьёзного мультимодального инструмента. Генерация изображений здесь работает через связку текстовой модели Qwen и визуального движка, который компания обновляла как минимум трижды с осени 2024-го. А значит, результат сильно зависит от того, какую именно версию тестирует пользователь.
Мы работали с актуальной на момент теста версией Qwen-VL-Max. Первое, что бросается в глаза, — скорость. Qwen генерирует изображение буквально за 5–7 секунд, и это рекорд среди трёх тестируемых моделей. Но скорость без качества — как быстрый автомобиль без тормозов. И здесь всё неоднозначно. Фотореалистичные сцены Qwen отрабатывает на твёрдую четвёрку: детализация хороша на среднем плане, но на крупных планах кожа людей выглядит слишком «гладкой», словно намазанной тональным кремом в три слоя. Это не критический дефект, но опытный глаз разницу уловит сразу.
Где Qwen показал себя неожиданно сильным — стилизация. Запрос «иллюстрация в стиле Studio Ghibli: девушка с зонтом под дождём на мосту» дал результат, от которого хотелось сделать скриншот и поставить на обои рабочего стола. Цветовая палитра, мягкие градиенты, характерная для Ghibli атмосферность — всё на месте. Ни Gemini, ни Seedream с этим промтом не справились настолько точно: у Gemini стиль тяготел скорее к Disney, а у Seedream вышло что-то среднее между аниме и комиксами.
Ну и, конечно же, нельзя не упомянуть работу с текстом на картинке. Qwen здесь выступил лучше Gemini — надпись «Fresh Baked» получилась читаемой, хотя буква «k» слегка «приклеилась» к букве «e». Но для бесплатного инструмента — результат более чем достойный.
Стоит ли доверять «бесплатному»?
Вопрос, который задаёт себе каждый, кто хотя бы раз обжёгся на бесплатных сервисах. Правда в том, что бесплатные версии генераторов — это, по сути, витрина. Компании сознательно открывают доступ, чтобы привлечь аудиторию, собрать обратную связь и, разумеется, подтолкнуть к переходу на платный тариф. Но это не значит, что бесплатный функционал ущербен. Он просто ограничен. И для львиной доли задач — придумать обложку для плейлиста, сделать аватарку для соцсетей, набросать визуальный концепт для презентации — этих ограничений вы даже не заметите.
Другое дело — коммерческое использование. Здесь всплывут вопросы лицензирования. У Gemini лицензия на бесплатно сгенерированные изображения довольно мутная, и Google оставляет за собой право на использование результата в обучении модели. Seedream пока вообще не опубликовал внятного пользовательского соглашения на английском, что настораживает. Qwen в этом плане чуть прозрачнее — Alibaba разрешает коммерческое использование с оговоркой, что контент не должен нарушать законодательство КНР. Тонкость, которую многие упускают.
Какой генератор выбрать под конкретную задачу?
С чего начинается выбор? С понимания того, что именно вы хотите получить. Если задача — фотореалистичная картинка с минимумом усилий, Gemini станет добротным выбором. Google вложил грандиозные ресурсы в Imagen 3, и это чувствуется: освещение, тени, глубина резкости — всё проработано на уровне хорошего стока. А вот если нужна сложная сцена с несколькими персонажами, Seedream пока впереди. Его способность корректно размещать людей в пространстве и сохранять анатомическую достоверность — настоящий спасательный круг для тех, кто устал от шестипалых рук и глаз на затылке.
Для стилизованных иллюстраций — аниме, акварель, ретро-постеры — Qwen на удивление хорош. Скорость генерации у него рекордная, а стилевая точность порой превосходит конкурентов. Но не стоит забывать про «гладкую кожу» на реалистичных портретах — если нужен именно фотореализм крупным планом, Qwen пока слабоват.
К слову, ни один из трёх генераторов не справился идеально с руками. Да, старая проблема никуда не делась, хотя прогресс очевиден. У Gemini из пяти тестовых изображений с руками дефект обнаружился на одном. У Seedream — ни одного дефекта (впечатляющий результат). У Qwen — на двух из пяти. Цифры, конечно, не статистически значимые — для полноценного бенчмарка нужна выборка хотя бы в сотню генераций на модель, — но общую картину они рисуют вполне наглядно.
Что насчёт скорости и лимитов?
Тема, которая бьёт по нервам не меньше, чем качество. Ведь когда вдохновение накрыло и хочется нагенерировать двадцать вариантов обложки за вечер, наткнуться на лимит в десять картинок — зрелище удручающее. Gemini в бесплатном режиме позволяет генерировать примерно пятьдесят изображений в сутки (по состоянию на весну 2025-го), и это вполне щедро. Seedream, как уже говорилось, ограничивается двадцатью без аккаунта. Qwen — около тридцати, но с привязкой к IP-адресу, а не к аккаунту, что порождает забавный эффект: сменил VPN-сервер — получил новую порцию.
По скорости расклад такой: Qwen лидирует со средними пятью-семью секундами на генерацию. Seedream — восемь-двенадцать секунд. Gemini — пятнадцать-двадцать пять секунд, причём разброс зависит от загрузки серверов (вечером по московскому времени ожидание может вырасти вдвое). Кажется, мелочь. Но когда ты перебираешь промты, эта разница ощущается очень остро.
Промт — половина успеха
Банальная истина, которую всё-таки стоит проговорить. Один и тот же генератор выдаёт кардинально разные результаты в зависимости от того, как сформулирован запрос. Во время теста мы специально использовали идентичные промты для всех трёх моделей, но на практике под каждый генератор стоит «затачивать» формулировку. Gemini лучше реагирует на длинные описательные промты с указанием стиля, освещения и настроения. Seedream, напротив, предпочитает лаконичность — чем короче и конкретнее запрос, тем точнее результат. А Qwen отлично работает с отсылками к конкретным художественным стилям и именам студий.
Не стоит забывать и про негативные промты — указание того, чего на картинке быть НЕ должно. Seedream и Qwen поддерживают эту функцию из коробки, а вот в бесплатном Gemini негативных промтов (на момент теста) нет. Это ощутимый минус, потому что возможность написать «no extra fingers, no watermark, no blur» порой спасает от необходимости перегенерировать изображение пять раз подряд.
Куда движется рынок бесплатных генераторов?
Буквально год назад бесплатный доступ к нейрогенерации изображений казался щедрым жестом от компаний, которые ещё не определились с моделью монетизации. Сейчас же картина другая. Бесплатные тарифы — это осознанная стратегия. Google, ByteDance и Alibaba ведут борьбу за пользовательскую базу, и щедрые лимиты — их главное оружие. Но вечно так продолжаться не может. Тем более что инфраструктурные расходы на генерацию одного изображения, по разным оценкам, составляют от 0,003 до 0,01 доллара — сумма копеечная для отдельной картинки, но внушительная при миллионах запросов в сутки.
Вероятнее всего, в ближайший год бесплатные тарифы останутся, но станут ещё более ограниченными по разрешению и количеству. А вот качество продолжит расти — конкуренция вынуждает. И это, пожалуй, главная хорошая новость для всех, кто не готов платить пятнадцать-двадцать долларов в месяц за подписку на Midjourney или DALL-E 3.
Каждый из протестированных генераторов нашёл свою нишу, и выбирать «абсолютного победителя» — занятие неблагодарное. Куда разумнее держать под рукой все три инструмента и переключаться между ними в зависимости от задачи. Так кошелёк останется нетронутым, а результат — порадует даже самого взыскательного перфекциониста. Удачи в творческих экспериментах — нейросети вам в помощь, но финальное слово всегда за человеком.

