Ещё пару лет назад нейросети, способные рисовать по текстовому описанию, казались забавной игрушкой — чем-то вроде фильтра в мобильном приложении, только чуть изощрённее. Сегодня же Midjourney выдаёт картинки, от которых у профессиональных иллюстраторов нервно дёргается глаз, а ChatGPT-4 генерирует тексты, которые довольно сложно отличить от написанных человеком. Но по-настоящему интересное начинается тогда, когда эти два инструмента работают в связке. Дело в том, что львиная доля пользователей Midjourney мучается с промтами — короткими текстовыми подсказками, от качества которых зависит буквально всё. И вот тут на сцену выходит ChatGPT-4 в роли персонального «переводчика» ваших смутных образов на язык, понятный нейросети. А начать стоит с того, почему вообще эта связка работает и какие подводные камни всплывут на первом же этапе.
Почему Midjourney «не понимает» обычный язык?
Распространённое заблуждение звучит примерно так: «Напишу по-русски, что хочу, и нейросеть нарисует». На самом деле всё устроено сложнее. Midjourney тяготеет к английскому языку, причём не к разговорному, а к специфическому «промт-диалекту», состоящему из коротких описательных фраз, разделённых запятыми. Каждое слово в таком промте несёт смысловую нагрузку — лишние предлоги и союзы нейросеть попросту игнорирует или, что хуже, интерпретирует непредсказуемо. Вся суть в том, что алгоритм обучался на миллионах пар «изображение — подпись», и эти подписи были лаконичными, назывными, почти телеграфными. Отсюда и парадокс: чем более литературным получается ваш запрос, тем дальше результат от задуманного.
Вот простой пример. Человек хочет получить портрет рыжего кота на подоконнике в лучах закатного солнца. Обыватель напишет что-то вроде «нарисуй мне красивого рыжего кота, который сидит на подоконнике, а за окном закат». Midjourney, конечно, что-то выдаст. Но «красивого» — понятие расплывчатое, «который сидит» — избыточная конструкция, а «за окном» может увести фокус на пейзаж вместо кота. Грамотный же промт выглядел бы лаконичнее: ginger cat sitting on windowsill, golden hour light, warm tones, soft focus background, photorealistic, 85mm lens. Разница — колоссальная. И вот именно на этапе превращения расплывчатой идеи в чёткую формулу ChatGPT-4 творит чудеса.
Роль ChatGPT-4 в создании промтов
Задача не из лёгких. Ведь нужно не просто перевести фразу на английский, а переосмыслить её в категориях, которыми оперирует генеративная модель. ChatGPT-4 справляется с этим по нескольким причинам. Во-первых, у модели достаточно «знаний» о синтаксисе промтов Midjourney — она обучалась в том числе на форумах и руководствах, где тысячи пользователей делились удачными формулировками. Во-вторых, GPT-4 умеет удерживать контекст длинного разговора, а значит, промт можно дорабатывать итеративно, шаг за шагом уточняя детали. Ну и, наконец, языковая модель способна предложить варианты, до которых вы сами вряд ли додумались бы, — стилистические отсылки к конкретным художникам, фотографическую терминологию или даже параметры виртуальной «камеры».
Зачем переплачивать за нейросети? Экономьте сотни долларов каждый месяц 💸
Оплачивать Midjourney, премиум-версии ChatGPT, видео- и аудио-генераторы по отдельности — это безумно дорого и неудобно. Этот сервис решает проблему! Получите полный пакет премиум-моделей (более 90 топовых нейросетей) по цене одной доступной подписки. Безлимитные возможности, никаких скрытых платежей и сгорающих токенов при активном тарифе.
Перестаньте платить за 10 разных сайтов. Выбирайте выгоду и творите без ограничений 👉 https://clck.ru/3RNCRL
Стоит отметить один важный нюанс. ChatGPT-4 — не волшебная кнопка «сделай красиво». Без вашего понимания того, что именно вы хотите увидеть, модель будет генерировать довольно шаблонные промты. Это как с фотографом: даже самый талантливый мастер не снимет шедевр, если заказчик не может объяснить, какой настрой ему нужен. А значит, первый шаг — разобраться в базовой анатомии промта, прежде чем просить ИИ его написать.
Анатомия добротного промта для Midjourney
Скелет любого промта для Midjourney складывается из нескольких смысловых блоков, и порядок их расположения имеет значение. На первом месте всегда стоит основной объект — то, что должно занимать центр композиции. Далее следует описание окружения или фона, потом — стилистика и настроение, а замыкают конструкцию технические параметры вроде соотношения сторон, степени стилизации и версии модели. Между этими блоками нет жёстких границ, и опытные пользователи часто перемешивают их, но для новичка такая структура — спасательный круг.
Особый интерес вызывает блок стилистики. Именно здесь промт из посредственного превращается в изысканный. Можно указать конкретного художника (in the style of Alphonse Mucha), технику (oil painting, watercolor, digital art), эпоху (Victorian era, cyberpunk 2077) или даже тип освещения (Rembrandt lighting, neon glow, volumetric fog). И вот тут ChatGPT-4 становится настоящим кладезем подсказок, потому что держит в памяти сотни таких маркеров. К тому же модель способна комбинировать стили, которые вам и в голову бы не пришло совместить, — например, «японская гравюра укиё-э в палитре Эдварда Хоппера». Результат бывает неоднозначный, но часто — поразительный.
Как правильно «разговаривать» с ChatGPT-4 о промтах?
Многие считают, что достаточно написать «сгенерируй промт для Midjourney», и дело сделано. Но на самом деле от формулировки вашего запроса к GPT-4 зависит ровно столько же, сколько от самого промта к Midjourney. Это своего рода матрёшка: подсказка для подсказки. И первое, что стоит сделать, — задать GPT-4 роль. Простая фраза вроде «Ты — эксперт по написанию промтов для Midjourney версии 6, знаешь все параметры и стилистические приёмы» меняет качество ответа кардинально. Модель начинает «думать» в нужных категориях, подтягивает релевантную терминологию и перестаёт разбавлять ответ общими словами.
Следующий важный шаг — описать свою идею максимально подробно, но на человеческом языке. Не стоит стесняться эмоциональных описаний: «хочу что-то меланхоличное, осеннее, с ощущением покинутости» — это прекрасный вводный. GPT-4 переведёт настроение в конкретные визуальные атрибуты: abandoned house, overgrown garden, muted autumn palette, overcast sky, melancholic atmosphere. А вот если ваш запрос был сухим и абстрактным — «нарисуй грустный дом» — то и промт получится блёклым. Тут работает старое правило: что заложишь, то и получишь.
Итеративный подход: от черновика к шедевру
Редко когда первый промт попадает в яблочко. И это нормально. Буквально десятилетие назад фотографы тратили рулоны плёнки, чтобы поймать один удачный кадр, — нейрогенерация в этом смысле мало чем отличается. Разница лишь в скорости итерации. Вы получили результат, который на 70% совпадает с задумкой? Возвращайтесь в ChatGPT-4 и описывайте, что именно не устраивает. «Слишком яркие цвета, хочу более приглушённую палитру» или «лицо получилось размытым, нужно добавить акцент на портрет». GPT-4 скорректирует промт, добавив нужные модификаторы — desaturated colors, muted tones в первом случае и detailed face, portrait focus, sharp features во втором.
Кстати, довольно полезный приём — просить GPT-4 сгенерировать сразу три-четыре варианта промта на одну и ту же тему, но в разных стилях. Один — фотореалистичный, другой — в духе концепт-арта, третий — стилизованный под масляную живопись. Так вы не только расширяете палитру вариантов, но и начинаете интуитивно понимать, какие слова за какой визуальный эффект «отвечают». Это бесценный опыт, который со временем позволит обходиться без посредника и писать промты самостоятельно.
Негативные промты и параметры: тонкая настройка
Отдельно стоит упомянуть так называемые негативные промты — инструкции, объясняющие Midjourney, чего не должно быть на картинке. В Midjourney для этого используется параметр —no, после которого через запятую перечисляется всё нежелательное. Например, —no text, watermark, blurry, extra fingers. И вот тут GPT-4 снова приходит на помощь: модель знает типичные артефакты генерации (лишние пальцы на руках, нечитаемый текст, двоящиеся объекты) и заранее включает нужные исключения в промт. Не стоит пренебрегать этой возможностью — иногда одно слово в негативном промте спасает от часа бессмысленных перегенераций.
Помимо негативных промтов, внимание приковывают технические параметры. Параметр —ar задаёт соотношение сторон изображения (скажем, 16:9 для широкоформатных обоев или 9:16 для сторис). Параметр —s (stylize) регулирует степень «художественности» — чем выше значение, тем больше Midjourney отклоняется от буквального прочтения промта в сторону собственной эстетики. А параметр —c (chaos) управляет разнообразием результатов в одной сетке. GPT-4 может подобрать оптимальные значения этих параметров под конкретную задачу — достаточно описать, насколько точное воспроизведение идеи вам нужно. Для рекламного баннера стоит ставить низкий chaos и средний stylize, а для поиска вдохновения — наоборот, выкручивать оба на максимум.
Распространённые ошибки и как их избежать
Первая ложка дёгтя — перегруженный промт. Новички часто пытаются впихнуть в одну строку всё: объект, фон, освещение, настроение, стиль трёх художников одновременно и ещё параметры камеры. Midjourney от такого «коктейля» теряется и выдаёт визуальную кашу, где ни один элемент не солирует. Правило простое: не стоит упаковывать в промт больше пяти-шести смысловых элементов. Если идея сложная — лучше разбить её на несколько генераций, а потом совместить результаты вручную.
Вторая проблема — слепое доверие ChatGPT-4. Да, модель пишет грамотные промты, но иногда «галлюцинирует», выдумывая несуществующие параметры Midjourney или приписывая модели возможности, которых у неё нет. Например, GPT-4 может предложить параметр, работавший только в старых версиях и убранный из шестой. Или порекомендовать стиль художника, чьё имя Midjourney по правовым причинам уже не распознаёт (такие случаи были с некоторыми современными авторами). Поэтому всякий раз стоит проверять промт перед отправкой — хотя бы бегло, на предмет здравого смысла.
Ну, а третья типичная ловушка — игнорирование порядка слов внутри промта. Midjourney придаёт больший вес словам, стоящим в начале строки. Если вы поставите «sunset» на первое место, а «portrait of a woman» — в конец, то закат может занять львиную долю картинки, а женщина превратится в крошечный силуэт на горизонте. ChatGPT-4 обычно учитывает эту особенность, но при ручной правке промта об этом легко забыть.
Шаблон запроса к ChatGPT-4: рабочая формула
За месяцы экспериментов сложился довольно устойчивый скрупулезный подход к формулировке запроса. Сначала задаётся роль: «Ты — профессиональный промт-инженер для Midjourney v6». Потом — описание задачи на обычном человеческом языке, с эмоциями и деталями. Затем — ограничения: «не более 75 слов», «без упоминания живых художников», «соотношение 2:3». И завершает запрос просьба предложить два-три варианта с разной степенью детализации. Такой формат исключает расплывчатые ответы и экономит время.
К слову, сам промт для GPT-4 тоже стоит дорабатывать. Если первый ответ вышел слишком общим, не нужно начинать заново — достаточно написать: «Добавь больше деталей освещения» или «Замени фотореализм на стиль аниме 90-х». Модель подхватит контекст и скорректирует промт точечно, не ломая общую структуру. Это и есть итеративный метод в действии — скрупулёзная шлифовка вместо грубого наброска.
Стоит ли учиться писать промты самому?
Однозначно да. GPT-4 — отличный помощник, но зависимость от него тормозит развитие собственного «визуального языка». Со временем вы начнёте замечать паттерны: какие прилагательные дают тёплую палитру, какие существительные «включают» определённую стилистику, как одно слово может развернуть композицию на 180 градусов. Это навык, сродни изучению иностранного языка, — и GPT-4 в этом процессе выступает скорее репетитором, чем переводчиком. Впрочем, даже опытные промт-инженеры периодически прибегают к помощи языковой модели, когда нужно быстро сгенерировать пакет вариантов или найти свежий ракурс для приевшейся темы.
Ведь самое ценное в связке двух нейросетей — не экономия времени (хотя и она внушительная), а расширение творческого горизонта. Вы описываете ChatGPT-4 атмосферу из сна, который толком не запомнили, — и получаете промт, превращающий это смутное ощущение в конкретную картинку. Или просите модель «скрестить барокко с киберпанком» — и Midjourney рисует нечто, от чего бросается в глаза каждая деталь. Без языковой модели такие эксперименты заняли бы часы ручного подбора терминов. А тут — минуты.
Практический пример от начала до конца
Допустим, задача — создать обложку для подкаста о городских легендах. Настроение нужно мрачноватое, таинственное, с налётом нуара. Начать нужно с запроса к GPT-4. Пишем примерно следующее: «Мне нужен промт для Midjourney v6. Тема — обложка подкаста про городские легенды. Стиль: тёмный нуар, как будто кадр из фильма Дэвида Финчера. Основной объект — силуэт человека в плаще на фоне туманного переулка. Формат квадратный. Сделай два варианта — один фотореалистичный, другой в духе иллюстрации из графического романа».
GPT-4 выдаёт, к примеру, такой фотореалистичный вариант: silhouette of a man in a long trench coat standing in a narrow foggy alley, wet cobblestone street reflecting dim streetlights, cinematic noir atmosphere, moody dark tones, shallow depth of field, inspired by David Fincher cinematography, volumetric fog, 35mm film grain —ar 1:1 —s 300 —no text, watermark. А второй вариант — в графическом стиле: graphic novel illustration, mysterious figure in a dark alley, heavy ink shadows, limited color palette of deep blue and amber, noir comic book style, dramatic perspective, visible brush strokes, retro pulp fiction aesthetic —ar 1:1 —s 500 —no text, watermark. Оба промта можно отправлять в Midjourney прямо «из коробки». Результат приковывает внимание с первого взгляда.
Но вот первая генерация фотореалистичного варианта выдала слишком яркие фонари — они перебивают настроение. Возвращаемся в GPT-4: «Фонари слишком яркие и отвлекают. Нужно приглушить освещение, сделать его более рассеянным. И добавь лёгкий дождь». Модель корректирует промт, заменяя dim streetlights на barely visible distant light source и добавляя light drizzle, rain-soaked atmosphere. Вторая генерация — попадание в десятку. Весь процесс занял минут семь-восемь.
Что дальше: перспективы связки
С каждым обновлением обе модели становятся «умнее». Midjourney v6 уже довольно сносно работает с текстом внутри изображений (раньше это было настоящей проблемой), а GPT-4 всё точнее подбирает формулировки, учитывая последние изменения в алгоритме генерации. Не стоит удивляться, если через год-другой появится нативная интеграция: набираешь в ChatGPT описание на любом языке, а картинка генерируется без промежуточного этапа. Зачатки этого уже видны в DALL·E 3, встроенном в экосистему OpenAI. Но пока Midjourney по качеству стилизации и детализации держит планку, до которой конкурентам ещё расти.
Тем более что связка двух инструментов открывает дорогу не только к разовым иллюстрациям, но и к целым визуальным системам. Можно попросить GPT-4 сгенерировать серию промтов в едином стиле — скажем, двадцать обложек для книжной серии, выдержанных в одной колористической гамме и с повторяющимися визуальными мотивами. Или набор иконок для приложения. Или раскадровку для видеоролика. Возможности, прямо скажем, грандиозные.
Связка Midjourney и ChatGPT-4 — не просто модный добротный инструмент для дизайнеров и контент-мейкеров. Это способ мыслить образами, не тратя годы на освоение графических редакторов. И пусть нейросети пока не заменят живого художника с его интуицией и «рукой», они уже стали мощнейшим усилителем творческого замысла. Удачи в экспериментах — первый идеальный промт ближе, чем кажется, и он наверняка запомнится надолго.

