Как работает связка ботов ChatGPT и Midjourney Nano в мессенджерах

Ещё пару лет назад мысль о том, что нейросеть прямо в окне Telegram за считанные секунды сгенерирует и текст, и картинку по одному короткому запросу, казалась скорее фантазией гиков, чем повседневной реальностью. Сегодня же в мессенджерах десятки ботов, готовых писать посты, переводить документы и рисовать иллюстрации — причём делают они это без единого перехода на сторонний сайт. Львиная доля внимания достаётся двум инструментам: текстовому движку ChatGPT и генератору изображений Midjourney Nano. По отдельности каждый из них довольно хорош, но настоящую изюминку обнаруживаешь именно тогда, когда два бота работают в связке. А чтобы разобраться, как эта связка устроена и почему она так приковывает внимание, стоит заглянуть «под капот» всего механизма.

Что вообще такое «связка ботов» и зачем она нужна?

Словосочетание звучит технически, но вся суть — проще некуда. Связка — это когда два независимых ИИ-сервиса объединены общим интерфейсом внутри одного мессенджера, будь то Telegram, WhatsApp или Discord. Пользователь отправляет одно сообщение, а «за кулисами» запрос разлетается сразу по двум маршрутам: текстовая часть уходит к ChatGPT, визуальная — к Midjourney Nano. Ведь именно так и работает современная автоматизация: один запрос порождает цепочку действий, невидимых для того, кто нажал кнопку «Отправить». Дело в том, что ни ChatGPT, ни Midjourney Nano изначально не задумывались как парный инструмент — их «подружили» сторонние разработчики через API. И в этом, собственно, весь антураж.

Зачем же обывателю такая махинация? Вот типичная ситуация: владелец небольшого интернет-магазина хочет опубликовать карточку товара с описанием и картинкой. Раньше приходилось сначала идти на сайт ChatGPT, генерировать текст, затем копировать его, открывать Midjourney через Discord, подбирать промт, ждать результат, скачивать файл. Довольно утомительный квест. А в связке всё происходит в одном окне — написал задание боту, получил и текст, и изображение одним ответным сообщением. Это экономит не минуты. Часы.

Как устроена техническая «кухня»

Внутри бота сидит оркестратор — скрипт, написанный чаще всего на Python или Node.js, задача которого предельно конкретна: разобрать входящее сообщение, определить, что именно нужно пользователю, и раскидать задачи по нужным API-точкам. Первым делом оркестратор анализирует текст запроса. Если в нём встречается маркер генерации изображения (например, слово «нарисуй» или специальный префикс вроде /img), визуальная часть задания отправляется в Midjourney Nano. Параллельно текстовый фрагмент летит в ChatGPT через OpenAI API. Всё это происходит за полторы-две секунды — ровно столько уходит на маршрутизацию, без учёта времени генерации самих моделей.

Следующий важный нюанс — формирование промта для Midjourney Nano. На самом деле далеко не каждый пользователь умеет писать грамотные промты для генерации картинок. Многие ограничиваются чем-то вроде «красивый закат на море» и ожидают шедевр. Но связка решает эту проблему изящно: ChatGPT предварительно «допиливает» сырой запрос, превращая его в детализированный промт на английском языке, снабжённый параметрами стиля, соотношения сторон и степени детализации. Это связано с тем, что Midjourney (в любой модификации) значительно лучше воспринимает англоязычные инструкции с конкретными художественными терминами. А ChatGPT как раз с такой задачей справляется блестяще.

Midjourney Nano — не путать с «большим» Midjourney

Стоит сразу расставить точки. Midjourney Nano — это облегчённая версия генеративной модели, адаптированная специально под мессенджеры и работу через API-посредников. Полноценный Midjourney (версии 6 и выше) по-прежнему живёт преимущественно в Discord и требует подписки напрямую у разработчика. Nano же тяготеет к быстроте, а не к максимальному качеству. Разрешение выходных изображений у неё поскромнее — обычно 1024 на 1024 пикселя — зато время отклика составляет от пяти до пятнадцати секунд. Для сравнения: «взрослый» Midjourney на сложном промте может генерировать картинку до минуты.

Многие считают, что Nano — это урезанная копия, неспособная выдать что-то достойное. Но на самом деле для задач малого бизнеса, социальных сетей и быстрого прототипирования качества вполне хватает. Да и самим пользователям комфортнее получать результат за десять секунд прямо в Telegram, чем за минуту в отдельном приложении. К тому же Nano поддерживает стили — от фотореализма до акварели — и неплохо справляется с генерацией персонажей, интерьеров и абстрактных композиций.

Что происходит после отправки запроса?

Допустим, пользователь пишет боту в Telegram что-то вроде: «Напиши описание уютной кофейни в стиле лофт на 300 символов и нарисуй к нему картинку». Шаг за шагом ситуация разворачивается так. Оркестратор вычленяет две задачи — текстовую и визуальную. Текстовый запрос, дополненный системным промтом (который заранее прописал разработчик бота), отправляется на серверы OpenAI. Одновременно ChatGPT формирует промт для изображения — в нашем случае получится нечто вроде «cozy loft-style coffee shop, exposed brick walls, warm Edison bulbs, wooden furniture, morning light, photorealistic, 4k». Этот промт тут же улетает в Midjourney Nano API.

Дальше начинается ожидание. Текстовый ответ, как правило, приходит первым — ChatGPT выдаёт результат за две-четыре секунды. Картинка от Nano подтягивается чуть позже. Оркестратор собирает оба ответа в одно сообщение и отправляет пользователю. Выглядит это примерно так: сначала блок текста, под ним — сгенерированное изображение. Весь цикл от нажатия «Отправить» до получения готового ответа укладывается в пятнадцать-двадцать секунд. Впечатляющая скорость, если вспомнить, что ещё недавно подобный результат требовал получаса ручной работы.

Стоит ли доверять автопромтам?

Нюанс щепетильный. Когда ChatGPT автоматически генерирует промт для Midjourney Nano, результат далеко не всегда совпадает с тем, что рисовал в голове пользователь. Ведь нейросеть интерпретирует запрос по-своему, и иногда «уютная кофейня» превращается в грандиозный ресторан с панорамными окнами. Впрочем, большинство ботов позволяют редактировать промт вручную до отправки. Не стоит пренебрегать этой возможностью — пара уточняющих слов может кардинально изменить картинку.

Кстати, некоторые продвинутые боты предлагают пользователю на выбор несколько вариантов промта, сформированных ChatGPT. Это удобно. Ведь вместо одного промта ты видишь три-четыре интерпретации своего запроса и просто тыкаешь в ту, что ближе к задуманному. Такой подход заметно снижает процент «промахов» и экономит лимит генераций, который у большинства бесплатных тарифов довольно скромный — от трёх до десяти картинок в сутки.

Где именно работает связка

Telegram. Вот где львиная доля ботов этого типа оседает. Платформа идеально подходит для подобных интеграций благодаря открытому Bot API и огромному русскоязычному сообществу. Боты вроде ChatGPT & MJ Bot, Ai Image Generator и GPT-4 Turbo Bot предлагают именно такую связку — текст плюс картинка в одном окне. Некоторые из них работают на бесплатном тарифе с ограничениями, другие требуют подписки от 150 до 500 рублей в месяц. По кошельку это не сильно ударит, а вот времени сэкономит прилично.

Второй по популярности мессенджер — Discord. Тут Midjourney чувствует себя «дома», и связку организовать ещё проще. Специальные боты перехватывают текстовые команды, отправляют их в ChatGPT и одновременно формируют запрос для Midjourney-сервера. Результат появляется прямо в канале. А вот WhatsApp и Viber в этом плане отстают — API у них более закрытые, и полноценную связку встретить сложнее, хотя отдельные решения всё же существуют.

Подводные камни и ложка дёгтя

Без минусов не обходится. Во-первых, стабильность. Бот зависит сразу от двух внешних API — OpenAI и Midjourney. Если один из серверов «лежит» (а такое случается довольно регулярно, особенно в часы пиковой нагрузки), связка разваливается. Пользователь либо получает текст без картинки, либо видит ошибку целиком. Во-вторых, конфиденциальность. Каждый запрос проходит через оркестратора — то есть через сервер стороннего разработчика. Что именно происходит с текстом на этом промежуточном этапе, зависит исключительно от добросовестности создателя бота. Не стоит отправлять через такие боты коммерческие тайны или персональные сведения.

Отдельно стоит упомянуть проблему лимитов. Бесплатные версии ботов обычно ограничивают количество запросов — и к ChatGPT, и к Midjourney Nano. Когда лимит исчерпан, бот либо замолкает до следующего дня, либо начинает навязчиво предлагать платный тариф. Это раздражает, но с точки зрения экономики процесса вполне объяснимо: каждый вызов API стоит разработчику реальных денег. Один запрос к GPT-4 обходится примерно в два-три цента, генерация картинки — ещё столько же. За тысячу пользователей набегает ощутимая сумма.

Для кого всё это имеет смысл?

Типичный портрет пользователя связки — SMM-менеджер или владелец микробизнеса, которому нужно быстро клепать контент для социальных сетей. Написать пост и тут же получить к нему иллюстрацию, не выходя из Telegram, — это реальный спасательный круг для тех, кто ведёт три-четыре аккаунта одновременно. Тем более что качество «нановских» картинок для карусели в Instagram или превью во ВКонтакте более чем достаточное.

Другая категория — фрилансеры и копирайтеры, которым нужны быстрые мокапы и визуальные референсы для клиентов. Вместо того чтобы искать подходящее стоковое фото (и натыкаться на вездесущие водяные знаки), можно за пятнадцать секунд получить кастомную картинку. Нужно отметить, что для финальной публикации в крупном издании такое изображение, скорее всего, не подойдёт — разрешение и детализация у Nano всё-таки уступают «большому» Midjourney. Но для черновика или презентации — в самый раз.

Как выбрать подходящего бота?

Задача не из лёгких. В одном только Telegram подобных ботов наберётся несколько десятков, и далеко не все из них одинаково добротные. Первое, на что стоит обратить внимание, — какую именно модель ChatGPT использует бот. GPT-3.5 Turbo — бюджетный вариант, быстрый, но не слишком глубокий. GPT-4 Turbo — совсем другой уровень, однако и стоимость подписки выше. Следующий важный критерий — версия Midjourney Nano: некоторые боты работают с устаревшими моделями, и разница в качестве картинок бросается в глаза.

Не стоит гнаться за ботами с «безлимитными» тарифами. Безлимит в мире API — понятие неоднозначное. Чаще всего за ним скрывается либо заниженное качество модели, либо жёсткое ограничение скорости ответа (так называемый троттлинг). Лучше выбрать бота с честным лимитом в 50–100 запросов в день и стабильной работой, чем «безлимитный» сервис, который подвисает через раз. Ну и, конечно же, стоит проверить отзывы — благо в Telegram-каналах и на форумах информации хватает.

Настройка и первые шаги

Само подключение занимает пару минут. Находишь бота в поиске мессенджера, нажимаешь «Старт» — и всё, можно работать. Большинство ботов сразу предлагают выбрать язык и модель. Кстати, стоит выбирать английский в качестве языка промта для картинок, даже если весь остальной интерфейс русскоязычный. Дело в том, что нейросеть генерации изображений обучалась преимущественно на англоязычных датасетах, и русскоязычные запросы она обрабатывает через внутренний перевод, что иногда приводит к курьёзным результатам (вместо «деревянного стула» можно получить «деревянный стул, стоящий на стуле»).

После первого запроса стоит поэкспериментировать с параметрами. Многие боты позволяют указать соотношение сторон картинки, выбрать стиль — от реализма до аниме — и задать «негативный промт», то есть описание того, чего на картинке быть не должно. Последнее — настоящий кладезь возможностей для тех, кто устал от шестипалых рук и лишних глаз на сгенерированных портретах. А ChatGPT-часть бота тоже поддаётся настройке: можно задать тон ответов, длину текста и даже «роль» — например, попросить нейросеть отвечать как маркетолог или как шеф-повар.

Будущее связки: что дальше?

Буквально полгода назад связка двух ботов казалась верхом автоматизации. Сейчас же разработчики экспериментируют с цепочками из трёх-четырёх нейросетей: текст генерирует ChatGPT, картинку рисует Midjourney Nano, озвучку делает ElevenLabs, а видеоряд собирает Runway. Весь этот конвейер управляется из одного чата. Звучит как научная фантастика, но рабочие прототипы уже существуют. И тем более стоит задуматься о том, как подобные инструменты изменят рынок контента в ближайшие год-два.

С другой стороны, нельзя не упомянуть и скептиков. Часть профессионального сообщества — дизайнеры, иллюстраторы, копирайтеры — видит в таких связках угрозу своему ремеслу. Опасения понятны, но практика показывает другое: нейросети пока не заменяют профессионалов, а скорее берут на себя рутину. Скрупулёзную работу над брендбуком, авторский стиль иллюстрации, глубокий аналитический текст — всё это по-прежнему требует живой головы и живых рук. А вот черновики, наброски и «рыбу» для поста ботам вполне можно доверить. Впрочем, граница между черновиком и финальным результатом с каждым месяцем становится всё тоньше.

Связка ChatGPT и Midjourney Nano в мессенджерах — это не волшебная палочка и не замена целой команде. Но как добротный рабочий инструмент для ежедневных задач она уже доказала свою состоятельность. Не стоит бояться пробовать: худшее, что может случиться, — бот нарисует кота с тремя ушами, а текст получится чуть более пафосным, чем хотелось. Зато со временем навык составления промтов окрепнет, и результаты станут попадать точно в цель. Удачи в освоении — первый запрос запомнится надолго.