Искусственный интеллект в связке: как использовать ChatGPT и Midjourney вместе

Ещё пару лет назад нейросети воспринимались обывателем как нечто далёкое — забава для программистов и энтузиастов из Кремниевой долины. А сейчас довольно сложно найти фрилансера или маркетолога, который ни разу не открывал окно чата с ChatGPT и не пробовал скормить промт генератору картинок. Инструменты подешевели, порог входа упал практически до нуля, и вот уже домашний блогер за вечер собирает контент, на который раньше уходила неделя командной работы. Но вся магия начинается не тогда, когда каждый из этих сервисов трудится по отдельности, а когда два мощных нейроинструмента работают в одной связке — текстовый ChatGPT и визуальный Midjourney. Именно об этом тандеме и стоит поговорить подробнее.

Зачем вообще объединять текст и картинку?

Вопрос кажется наивным. Ведь текст — сам по себе, а иллюстрация — сама по себе. Однако на практике львиная доля контента в интернете существует именно на стыке слова и образа. Пост в социальной сети без цепляющей картинки теряет до семидесяти процентов вовлечённости — и это не домыслы, а статистика, которую маркетологи подтверждают из года в год. С другой стороны, красивое изображение без внятного текстового сопровождения тоже долго не живёт: его пролистывают, не задерживаясь. Дело в том, что человеческий мозг воспринимает визуал и вербальный посыл через разные каналы, и когда оба канала работают синхронно, эффект удваивается. А иногда и утраивается.

Раньше для такого результата нужен был как минимум копирайтер и дизайнер. Или копирайтер со стоковой подпиской. Сейчас же одну и ту же задачу тянет один человек, вооружённый парой вкладок в браузере. Это не про замену специалистов — скорее про расширение возможностей тех, кто привык работать в одиночку. Тем более что результат, полученный через связку ChatGPT и Midjourney, довольно часто оказывается свежее шаблонных решений со стоков.

ChatGPT как генератор промтов для Midjourney

Самый очевидный сценарий. И самый недооценённый. Многие пользователи Midjourney сталкиваются с одной и той же проблемой: в голове сидит образ, а вот описать его словами — задача не из лёгких. Midjourney требует довольно детальных текстовых описаний на английском, с указанием стиля, освещения, ракурса, цветовой палитры и даже настроения кадра. И вот тут ChatGPT превращается в настоящий спасательный круг.

Достаточно сформулировать запрос на русском языке — просто и по-человечески. Например: «Мне нужна иллюстрация для статьи про осеннюю депрессию, что-то тёплое, но с ноткой меланхолии, в стиле акварели». ChatGPT разложит эту мысль по полочкам, переведёт на английский и выстроит промт по правилам, которые Midjourney понимает лучше всего. К слову, в хорошем промте для Midjourney обычно от пятнадцати до сорока слов, и каждое из них несёт смысловую нагрузку — лишние слова «шумят» и размывают результат. Нужно отметить, что ChatGPT справляется с этой задачей не идеально с первого раза, но после пары уточнений выдаёт добротный промт, который экономит минут двадцать-тридцать ручного подбора формулировок.

Стоит ли доверять ChatGPT выбор стиля?

Неоднозначный момент. С одной стороны, ChatGPT действительно знает десятки художественных направлений — от ар-деко до киберпанка, от импрессионизма до изометрической пиксельной графики. Можно спросить: «Какой визуальный стиль подойдёт для лендинга премиальной кофейни?» — и получить развёрнутое рассуждение с аргументами. Но с другой стороны, вкус — штука субъективная, и нейросеть тяготеет к «безопасным» вариантам. Ведь она обучена на массиве текстов, где определённые стили упоминаются чаще других.

Впрочем, именно в этом и кроется нюанс совместной работы. Не стоит воспринимать ответ ChatGPT как финальное решение. Это скорее отправная точка, черновик, от которого можно оттолкнуться. Попросил рекомендацию — получил три-четыре варианта стилей с пояснениями. А дальше уже сам решаешь, тестируешь в Midjourney и смотришь, что «зацепило» глаз. Да и сам процесс перебора занимает куда меньше времени, когда начальная идея уже сформулирована.

Обратная связка: от картинки к тексту

Менее очевидный, но не менее интересный приём. Допустим, Midjourney сгенерировал изображение, которое неожиданно «выстрелило» — яркое, атмосферное, с характером. И вот к этой картинке нужен текст. Описание для каталога, подпись для поста, сценарий ролика или даже целый рассказ. ChatGPT в таком случае работает «от визуала»: ему можно описать сгенерированное изображение (или загрузить его в версии с поддержкой изображений), и на основе этого описания он выстроит текстовое сопровождение.

Приём особенно хорошо работает в нишах, связанных с модой и интерьерным дизайном. Сгенерировал в Midjourney концепт гостиной в скандинавском стиле — и тут же попросил ChatGPT написать продающее описание для Pinterest или карточки товара. Скорость колоссальная. Ведь обычно копирайтер сначала ждёт картинку от дизайнера, потом вникает в детали, потом формулирует. А тут весь цикл замыкается за пятнадцать-двадцать минут. Это удобно. Тем более когда дедлайн поджимает.

Промт-инжиниринг: тонкости, которые стоит знать

Модное словечко, за которым прячется довольно простая идея — умение разговаривать с нейросетью так, чтобы она понимала тебя с полуслова. И в случае связки двух инструментов этот навык приобретает двойную ценность. Во-первых, нужно грамотно сформулировать запрос для ChatGPT, чтобы он написал качественный промт. Во-вторых, полученный промт должен «лечь» в логику Midjourney без лишнего шума.

Один из самых распространённых подводных камней — избыточная детализация. Многие считают, что чем длиннее промт, тем точнее результат. Но на самом деле Midjourney после определённого порога начинает «путаться» и выдаёт кашу из несвязанных элементов. Оптимальная длина — где-то между двадцатью и сорока словами для стандартных задач. ChatGPT, кстати, сам по себе склонен к многословию, так что после генерации промта стоит попросить его же сократить результат. Звучит забавно, но работает.

Отдельно стоит упомянуть так называемые «негативные промты» — указания на то, чего в картинке быть не должно. Например, «no text, no watermark, no blurry elements». ChatGPT довольно хорошо формулирует и такие ограничения, если его об этом попросить. Главное — задать контекст: для чего картинка, где будет использоваться, какой формат.

Сценарии для бизнеса и фриланса

Теория — дело хорошее, но практика интереснее. Связка ChatGPT и Midjourney уже сейчас активно используется в нескольких коммерческих нишах, и результаты там вполне осязаемые. Первое направление, которое бросается в глаза — SMM. Ведение аккаунтов в социальных сетях, где нужен и визуал, и текст. Контент-менеджер через ChatGPT прорабатывает рубрикатор, пишет посты, а затем генерирует к каждому из них визуальное сопровождение через Midjourney. Весь цикл производства контента на неделю укладывается в один рабочий день.

Следующий важный сценарий — создание презентаций и питч-деков. Стартапу нужна яркая колоритная обложка для каждого слайда? ChatGPT напишет промт, Midjourney создаст иллюстрацию, а потом ChatGPT же поможет сформулировать тезисы для самого слайда. Кроме того, эта связка всё чаще встречается в книгоиздании — особенно в сегменте детских книг и комиксов. Автор пишет сюжет в ChatGPT, получает описания сцен, а Midjourney визуализирует каждый разворот. Не сильно бьёт по кошельку, а на выходе — готовый макет для печати по запросу.

Ну и, конечно же, e-commerce. Карточки товаров на маркетплейсах нуждаются в качественных изображениях и продающих описаниях одновременно. Связка двух нейросетей творит тут настоящие чудеса — особенно для мелких продавцов, у которых нет бюджета на фотостудию и штатного копирайтера.

Подводные камни и честные ограничения

Было бы нечестно рассказывать только об успехах. Ложка дёгтя в этом тандеме тоже имеется, и не одна. Первый нюанс — согласованность стиля. Если каждую картинку генерировать с нуля, без сохранения единого визуального «кода», результат будет выглядеть разношёрстно. Особенно это заметно в серийном контенте: постах для одного бренда, иллюстрациях к главам одной книги. Тут стоит задуматься о создании так называемого «стилевого промта» — шаблона, в котором зафиксированы палитра, техника и настроение. ChatGPT как раз поможет такой шаблон составить и описать.

Второй щепетильный момент — авторские права. На сегодняшний день правовой статус изображений, сгенерированных нейросетями, остаётся туманным. В одних юрисдикциях их можно использовать в коммерческих целях без ограничений, в других — с оговорками. Midjourney, к примеру, на платных тарифах передаёт пользователю права на коммерческое использование, однако вопрос защиты этих изображений от копирования другими людьми — тема совершенно иная. Да и сам ChatGPT время от времени генерирует тексты, подозрительно похожие на существующие источники, так что скрупулёзная проверка на плагиат лишней не будет.

И третий момент — качество «из коробки». Midjourney выдаёт впечатляющие результаты, но далеко не всегда с первой попытки. Иногда приходится перегенерировать картинку пять-семь раз, подкручивая промт, меняя параметры, экспериментируя со стилями. А ChatGPT порой выдаёт промты, которые звучат красиво на бумаге, но в Midjourney превращаются в нечто невразумительное. Вся суть в том, что у каждого инструмента — своя логика восприятия языка, и эти логики не всегда совпадают. Навык их «калибровки» приходит с опытом.

Как выстроить рабочий процесс?

С чего начинается настройка такого конвейера? С определения конечной цели. Звучит банально, но именно отсутствие чёткой задачи — причина большинства разочарований. Одно дело — генерировать иллюстрации для Telegram-канала про путешествия, и совсем другое — собирать визуальный контент для корпоративного сайта юридической фирмы. Тональность, стилистика и степень «вольности» в этих случаях будут отличаться кардинально.

После того как задача сформулирована, стоит составить «бриф для нейросети». В свободной форме, на русском, описать: кто целевая аудитория, какой эмоциональный посыл нужен, какие визуальные ориентиры уже есть (ссылки на Pinterest, мудборды, примеры конкурентов). Этот бриф скармливается ChatGPT, который на его основе формирует серию промтов для Midjourney. К тому же ChatGPT может сразу предложить и текстовое сопровождение — заголовки, описания, alt-теги для картинок. Далее промты уходят в Midjourney, результаты отсматриваются, лучшие варианты дорабатываются через функции upscale и variation, а финальные изображения возвращаются в ChatGPT для генерации адаптированных под них текстов. Цикл замкнулся.

Мелкие хитрости, которые экономят время

За несколько месяцев плотной работы с обоими инструментами накапливается целая россыпь маленьких приёмов. Один из самых полезных — просить ChatGPT генерировать промты пачками. Не один промт, а сразу пять-шесть вариаций на одну тему. Тогда в Midjourney можно протестировать все разом и выбрать лучший за считанные минуты, а не итерировать по одному.

Ещё одна хитрость — использование ChatGPT для анализа уже полученных результатов. Допустим, Midjourney сгенерировал четыре варианта изображения. Можно описать каждый из них (или загрузить скриншот в GPT-4o) и спросить: «Какой из этих вариантов лучше подходит для обложки статьи про осеннюю хандру и почему?» Ответ, разумеется, субъективный — но он помогает структурировать собственные мысли, если глаз уже «замылился». Кстати, этот же приём отлично работает при A/B-тестировании рекламных креативов: ChatGPT может подсказать, какой вариант вероятнее «зацепит» конкретную аудиторию, опираясь на теорию восприятия цвета и композиции.

Что дальше?

Буквально полтора года назад сама идея того, что текстовая нейросеть и генератор изображений могут работать в связке, казалась экзотикой. Сейчас же такой подход — повседневная рутина для тысяч контент-мейкеров по всему миру. И тенденция только набирает обороты. OpenAI уже встраивает генерацию изображений прямо в ChatGPT, а Midjourney экспериментирует с текстовыми описаниями своих картинок. Границы между инструментами постепенно размываются.

Но даже сейчас, пока эти границы ещё существуют, умение «дирижировать» двумя нейросетями — навык, который окупается довольно быстро. И не только в деньгах, но и в качестве результата, в скорости работы, да и просто в удовольствии от процесса. Ведь наблюдать, как из пары абзацев рождается цельный визуальный проект — зрелище впечатляющее. Удачи в экспериментах — и пусть ваша связка нейросетей работает как слаженный оркестр, а не как какофония случайных нот.