Как нейросеть GPT-4 помогает составлять промты для Midjourney

Ещё пару лет назад генерация изображений по текстовому описанию казалась чем-то из области фантастики, а сегодня любой обыватель с доступом к интернету способен за считаные секунды получить картинку, которую прежде пришлось бы заказывать у иллюстратора за вполне ощутимые деньги. Midjourney, DALL·E, Stable Diffusion — названия этих нейросетей уже прочно вошли в лексикон дизайнеров, маркетологов и просто энтузиастов. Но вот парадокс: инструмент вроде бы доступен всем, а результат у всех разный. Кто-то получает грандиозные фотореалистичные сцены, а кто-то — невразумительную мешанину цветов и форм. Вся суть в том, что львиная доля успеха зависит не от самой нейросети, а от промта — того самого текстового запроса, который ей скармливают. И вот тут на сцену выходит GPT-4, способная превратить размытую идею в скрупулёзно выстроенную текстовую инструкцию для генератора картинок.

Все топовые нейросети в одном месте

Что такое промт и почему с ним столько мороки?

Промт для Midjourney — это не просто описание «нарисуй мне кота». Это довольно сложная конструкция, сотканная из ключевых слов, стилистических указаний, технических параметров и даже ссылок на конкретных художников или фотографические приёмы. Одно неудачное слово — и вместо атмосферного киберпанк-пейзажа нейросеть выдаст что-то невнятное. Дело в том, что Midjourney воспринимает язык не так, как человек: она тяготеет к определённым формулировкам, реагирует на порядок слов и буквально «цепляется» за отдельные термины. К тому же английский язык (а промты для Midjourney пишутся преимущественно на нём) для многих пользователей из СНГ — дополнительный барьер. Стоит добавить сюда десятки параметров вроде —ar (соотношение сторон), —stylize, —chaos и —no (исключение элементов), и становится ясно: задача не из лёгких.

GPT-4 как переводчик между человеком и генератором картинок

Представьте ситуацию. Вы хотите получить изображение заброшенной викторианской оранжереи, сквозь разбитые стёкла которой пробиваются лучи закатного солнца. В голове картинка живёт, а вот облечь её в правильные слова — отдельная история. Многие считают, что достаточно описать сцену «как есть», но на самом деле Midjourney нужен совсем другой формат. Ей нужны указания на стиль рендера, тип освещения, глубину резкости, цветовую палитру. И вот здесь GPT-4 творит настоящие чудеса. Ей достаточно получить от вас описание на русском языке — пусть даже сумбурное, в духе «хочу красивую заброшенную теплицу на закате, чтобы было грустно и красиво» — и она выстроит из этого добротный английский промт, снабжённый всеми необходимыми техническими параметрами.

Нужно отметить, что GPT-4 не просто переводит текст. Она его трансформирует. Ведь дословный перевод русского описания на английский почти никогда не даёт хорошего результата в Midjourney. Нейросеть-генератор ожидает определённую структуру: сначала главный объект, затем окружение, потом стиль, потом технические детали. GPT-4 знает об этих негласных постулатах и выстраивает фразу так, чтобы каждый элемент попал на своё место.

Зачем переплачивать за нейросети? Экономьте сотни долларов каждый месяц 💸

Оплачивать Midjourney, премиум-версии ChatGPT, видео- и аудио-генераторы по отдельности — это безумно дорого и неудобно. Этот сервис решает проблему! Получите полный пакет премиум-моделей (более 90 топовых нейросетей) по цене одной доступной подписки. Безлимитные возможности, никаких скрытых платежей и сгорающих токенов при активном тарифе.

Перестаньте платить за 10 разных сайтов. Выбирайте выгоду и творите без ограничений 👉 https://clck.ru/3RNCRL

Стоит ли доверять нейросети написание промтов?

Скептики скажут: зачем использовать одну нейросеть, чтобы управлять другой? Не проще ли научиться самому? Вопрос справедливый. Но вот какой нюанс бросается в глаза: освоение «промт-инженерии» для Midjourney — процесс не сложный, но кропотливый, требующий десятков часов экспериментов и сотен неудачных генераций. А GPT-4 уже впитала в себя колоссальный массив информации о том, какие формулировки работают, какие — нет, а какие дают неоднозначный результат. Это как разница между тем, чтобы учиться готовить по рецептам самому, и тем, чтобы позвать на кухню опытного шеф-повара, который подскажет пропорции. Ведь никто же не стесняется пользоваться навигатором вместо бумажной карты.

Впрочем, слепо доверять тоже не стоит. GPT-4 иногда «фантазирует» — подставляет параметры, которых в текущей версии Midjourney уже нет, или использует устаревший синтаксис. Поэтому базовое понимание структуры промта всё-таки необходимо. Хотя бы для того, чтобы отличить рабочую конструкцию от красивой, но бесполезной.

Анатомия хорошего промта

Стоит разобрать по полочкам, из чего складывается промт, который Midjourney проглотит с удовольствием. Первым идёт описание главного объекта — того, что должно солировать в кадре. Затем следует окружение и фон, причём чем конкретнее, тем лучше: не просто «лес», а «густой хвойный лес с туманом между стволами». Далее — стиль: это может быть отсылка к конкретному художнику (например, in the style of Alphonse Mucha), к жанру фотографии (editorial fashion photography) или к технике (watercolor on textured paper). Ну и, наконец, технические параметры — соотношение сторон, уровень стилизации, версия модели.

GPT-4 способна сгенерировать всё это за один запрос. Причём не в виде сухого шаблона, а с учётом контекста. Допустим, вы попросили «средневековый замок в горах на рассвете». Нейросеть не ограничится банальным medieval castle in the mountains at sunrise. Она добавит атмосферные детали: клочья тумана, стекающего по склонам, тёплый золотистый свет на каменных стенах, стаю птиц вдалеке. Именно эти мелочи отличают посредственную генерацию от картинки, которая приковывает внимание.

Как правильно сформулировать запрос к GPT-4?

Казалось бы, парадокс: чтобы получить хороший промт от нейросети, нужно написать ей… хороший промт. Но на практике всё куда проще. GPT-4 довольно терпима к «человеческим» формулировкам. Ей можно написать что-то вроде: «Придумай промт для Midjourney. Мне нужна обложка для подкаста про космос. Стиль — ретрофутуризм 60-х, яркие цвета, немного юмора». И нейросеть выдаст готовый результат, снабжённый нужными тегами и параметрами. Однако есть несколько тонкостей, которые помогут получить ещё более точный результат.

Во-первых, стоит указать, для какой версии Midjourney вы пишете промт (v5, v6 или niji для аниме-стиля), потому что синтаксис и поддерживаемые параметры у них отличаются. Во-вторых, не стоит стесняться описывать эмоцию, которую должно вызывать изображение — GPT-4 переведёт её в визуальные термины. «Хочу, чтобы было тревожно» превратится в dark moody atmosphere, desaturated tones, dramatic chiaroscuro lighting. Ну, а если результат не устроит с первого раза, всегда можно попросить нейросеть переработать промт: добавить деталей, убрать лишнее, сменить стиль. Это ведь не печатный станок — итерации не стоят ни копейки.

Подводные камни совместной работы двух нейросетей

Без ложки дёгтя, разумеется, не обходится. Один из самых распространённых подводных камней — избыточность. GPT-4 порой так увлекается описанием, что промт растягивается на три-четыре строки. А Midjourney после определённого порога длины начинает «размывать» внимание и путать приоритеты элементов. Оптимальная длина промта — от 40 до 75 слов (без учёта параметров). Если GPT-4 выдала больше, лучше попросить её сократить.

Ещё один неоднозначный момент — привычка GPT-4 к «красивым» описаниям. Она тяготеет к литературному языку, а Midjourney куда лучше реагирует на сухие, «телеграфные» формулировки, разделённые запятыми. Фраза a lone wanderer traversing the endless dunes beneath a crimson sky звучит изысканно, но для генератора эффективнее будет lone figure, vast desert dunes, crimson sky, wide angle, cinematic lighting. Стоит заранее предупредить GPT-4 об этом — достаточно добавить в запрос пометку: «Пиши в формате Midjourney, короткими фразами через запятую». И результат сразу станет заметно лучше.

Практический пример от начала до конца

Тёплый свет настольной лампы, кружка остывшего чая и белый прямоугольник чата с GPT-4 на экране. Допустим, задача такая: сделать иллюстрацию для статьи о домашней выпечке, но не банальную фотографию пирога, а что-то с характером — в духе старых голландских натюрмортов. Пишем нейросети: «Мне нужен промт для Midjourney v6. Тема — домашний хлеб и выпечка. Стиль — голландский натюрморт XVII века, как у Виллема Кальфа. Тёмный фон, тёплое боковое освещение, реалистичные текстуры». GPT-4 переваривает запрос и выдаёт нечто вроде: freshly baked rustic bread loaves, flaky pastries, scattered flour, dark wooden table, deep shadows, warm side lighting, Dutch Golden Age still life painting style, inspired by Willem Kalf, rich textures, oil on canvas look, hyperdetailed, —ar 16:9 —stylize 800 —v 6. Результат — впечатляющий.

Но допустим, первая генерация вышла слишком мрачной. Возвращаемся к GPT-4 и просим: «Немного осветли атмосферу, добавь элемент уюта — может, свечу или льняную салфетку». Нейросеть мгновенно модифицирует промт, не ломая его структуру, а лишь точечно внося правки. Вот в этом и кроется изюминка: GPT-4 помнит контекст всего диалога и понимает, что вы хотите скорректировать, а не создать заново. Да и сам процесс напоминает общение с коллегой-иллюстратором, а не с бездушной программой.

Чем ещё GPT-4 может быть полезна кроме самого промта?

Мало кто об этом задумывается, но GPT-4 способна помочь и «вокруг» промта. К слову, она отлично справляется с анализом чужих промтов — можно скопировать удачный запрос из галереи Midjourney и попросить GPT-4 разобрать его: объяснить, за что отвечает каждый элемент, какой эффект создаёт тот или иной параметр. Это, пожалуй, самый быстрый способ учиться промт-инженерии — не методом проб и ошибок, а через осмысленный разбор.

Кроме того, нейросеть помогает генерировать вариации. Получили удачный промт? Попросите GPT-4 создать на его основе пять-шесть модификаций с разными стилями, ракурсами или настроением. За пару минут у вас на руках окажется целая серия промтов для А/В-тестирования. Тем более что Midjourney и так выдаёт четыре варианта на каждый запрос — а если ещё и сами запросы варьировать, охват возможных результатов вырастает многократно. Да и для коммерческих задач это спасательный круг: клиенту можно показать десяток направлений вместо одного.

Негласные правила эффективных промтов

За время экспериментов с этой связкой — GPT-4 плюс Midjourney — всплывает несколько закономерностей, о которых нельзя не упомянуть. Первое: конкретика всегда побеждает абстракцию. «Красивый закат» — это ни о чём, а вот «закат с розово-оранжевыми облаками, отражающимися в штилевом море» — уже кладезь визуальной информации для нейросети. GPT-4 это понимает и сама склонна к детализации, но направить её в нужное русло всё-таки стоит.

Второе правило — отрицательные промты. Midjourney поддерживает параметр —no, с помощью которого можно исключить нежелательные элементы: —no text, —no watermark, —no people. GPT-4 далеко не всегда добавляет его автоматически, так что об этом лучше напоминать отдельно. Ну и третье — не стоит перебарщивать со стилистическими отсылками. Если в одном промте сталкиваются Альфонс Муха, Хаяо Миядзаки и фотореализм, Midjourney впадает в замешательство. Одна-две стилевые привязки — потолок. GPT-4, кстати, при правильном запросе и сама это учитывает, но проверить лишним не будет.

Кому это пригодится в первую очередь?

Дизайнеры и иллюстраторы — очевидная аудитория, но далеко не единственная. Контент-менеджеры, которым постоянно нужны уникальные изображения для соцсетей и статей, давно оценили этот тандем: он не сильно ударит по кошельку (подписка на Midjourney стартует от 10 долларов в месяц, а доступ к GPT-4 — от 20), при этом скорость производства контента вырастает в разы. Предприниматели, запускающие бренд, могут с помощью связки «GPT-4 + Midjourney» создать мудборд, визуальную концепцию и даже прототипы упаковки — без привлечения студии на начальном этапе.

Все топовые нейросети в одном месте

Отдельно стоит упомянуть преподавателей и тренеров. Создание визуальных материалов для презентаций, обучающих карточек и инфографики — процесс, который раньше отнимал часы, а теперь укладывается в минуты. И даже обычным пользователям, которые просто грезят научиться рисовать «с помощью слов», эта связка открывает невероятные горизонты. Ведь по сути GPT-4 выступает в роли переводчика между фантазией и технологией — мост между «я хочу» и «вот результат».

Будущее промт-инженерии

Буквально год назад промт-инженер звучало как экзотическая профессия, а сейчас вакансии с таким названием появляются на крупнейших рекрутинговых платформах. С другой стороны, чем «умнее» становятся генеративные модели, тем меньше требований к самим промтам. Midjourney от версии к версии лучше понимает естественный язык, а GPT-4 всё точнее чувствует контекст. Не исключено, что через пару лет весь процесс сведётся к голосовой команде в духе «сделай мне красивую обложку для книги про путешествия» — и всё остальное нейросети сделают сами, переговариваясь друг с другом без участия человека.

Но пока до этого далековато, и ручная настройка промтов по-прежнему вносит внушительную лепту в качество финального изображения. GPT-4 в этом процессе — не волшебная палочка, а скорее добротный инструмент, которым ещё нужно научиться пользоваться. И всё же порог входа снижается с каждым месяцем: то, на что у энтузиастов раньше уходили недели проб, сейчас решается за один вечер плотного общения с чат-ботом.

Так что если вы давно присматриваетесь к Midjourney, но промты казались чем-то непостижимым — самое время окунуться в эту тему с GPT-4 в качестве проводника. Несколько экспериментов, пара десятков итераций, и результат приятно удивит. А там, глядишь, и собственный стиль промтов выработается — такой, который ни одна нейросеть за вас не придумает. Удачи в творческих экспериментах.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *