Искусственный интеллект для создания фото: почему выбирают Midjourney

Ещё каких-то пять лет назад сама идея о том, что нейросеть сможет нарисовать портрет или пейзаж по короткому текстовому описанию, казалась научной фантастикой — чем-то из разряда летающих автомобилей и колоний на Марсе. А сегодня дизайнеры, маркетологи, блогеры и просто творческие люди ежедневно генерируют тысячи изображений, не прикасаясь к кисти или фотоаппарату. Инструментов для этого в сети хватает с избытком: DALL·E, Stable Diffusion, Leonardo, Firefly и ещё с десяток менее известных платформ. Но львиная доля внимания профессионального сообщества всё-таки достаётся одному сервису — Midjourney, и причины такого выбора стоит разобрать по полочкам.

Как всё начиналось и при чём тут Discord

Первая бета-версия Midjourney появилась летом 2022 года, и уже тогда результаты впечатляли. Дело в том, что проект возглавил Дэвид Хольц — человек, ранее работавший над Leap Motion, устройством для бесконтактного управления компьютером жестами рук. Опыт на стыке технологий и интуитивного дизайна во многом определил философию нового продукта: красота картинки важна не меньше, чем техническая точность. И вот тут кроется первый нюанс, который до сих пор вызывает споры. Взаимодействие с нейросетью изначально строилось через Discord — мессенджер, привычный геймерам, но довольно непривычный для дизайнеров и фотографов. Казалось бы, странное решение. Однако именно такой формат создал вокруг Midjourney живое комьюнити, где результаты генераций видны всем участникам канала, а чужие промпты становятся кладезем вдохновения для новичков.

К слову, в 2024 году команда запустила и собственный веб-интерфейс, так что привязка к Discord перестала быть обязательной. Но многие «старожилы» по-прежнему тяготеют к мессенджеру. Ведь там сложилась особая атмосфера — нечто среднее между художественной мастерской и шумным базаром, где идеи рождаются буквально на лету.

Чем Midjourney отличается от конкурентов?

Главная изюминка сервиса — стилистическая выразительность. Если сравнивать с тем же DALL·E 3, который тяготеет к «чистой» иллюстративности, или со Stable Diffusion, где без тонкой настройки моделей результат бывает довольно сырым, то Midjourney сразу выдаёт картинку с характером. Особый интерес вызывает работа с освещением: даже на ранних версиях движка нейросеть умудрялась выстраивать такие светотеневые переходы, что снимок напоминал кадр из авторского кино. С выходом пятой, а затем и шестой версии модели этот эффект усилился многократно. Текстуры кожи, отражения в стекле, мельчайшие детали ткани — всё это прорабатывается с пугающей скрупулёзностью.

Вторая сторона медали — простота входа. Не нужно разбираться в установке Python-библиотек, не нужно арендовать видеокарту в облаке, не нужно часами подбирать веса модели. Достаточно написать текстовый запрос (промпт) на английском языке, и через 30–60 секунд нейросеть вернёт четыре варианта изображения. А если какой-то из них зацепил — можно увеличить разрешение или попросить сервис сгенерировать вариации на основе понравившегося кадра. Это довольно интуитивный процесс, который затягивает с первого раза. Да и кошелёк от базовой подписки (около десяти долларов в месяц) не сильно пострадает.

Промпт — искусство или ремесло?

Тут мнения расходятся. Одни утверждают, что грамотно составленный промпт — это полноценный творческий навык, сродни умению писать сценарий. Другие возражают: мол, ничего сложного, просто перечисли, что хочешь увидеть. На самом деле истина где-то посередине. Базовые результаты действительно получить несложно — вводишь «a cat sitting on a windowsill, sunset light, oil painting style» и получаешь вполне приличного кота на подоконнике в закатных лучах. Но стоит копнуть глубже, и начинаются подводные камни.

Например, порядок слов в промпте влияет на итоговый результат. Слова, стоящие ближе к началу, нейросеть «слышит» громче. К тому же существует целая система параметров: —ar задаёт соотношение сторон, —stylize регулирует степень художественной обработки (от реалистичной до вычурной), —chaos увеличивает разброс вариаций, а —no позволяет исключить нежелательные элементы. И это лишь верхушка айсберга. Опытные пользователи комбинируют десятки модификаторов, добавляют ссылки на референсные изображения, смешивают стили конкретных художников — и результат порой приковывает внимание даже скептиков.

Стоит ли доверять фотореализму нейросети?

Грандиозный скачок.

Именно так можно описать прогресс Midjourney в области фотореалистичных изображений. Версия 5.2 уже вызывала восторг: люди с правильным количеством пальцев, натуральная фактура кожи, естественные позы. Но шестая версия, появившаяся в конце 2023 года, довела фотореализм до уровня, на котором отличить сгенерированный кадр от настоящей фотографии стало по-настоящему сложно. Многие считают, что нейросетевым снимкам не хватает «души». Впрочем, когда смотришь на портрет пожилого рыбака с прожилками на руках и каплями морской воды на куртке — «бездушным» его назвать язык не поворачивается.

Нужно отметить, что фотореализм — палка о двух концах. С одной стороны, дизайнеры получили мощнейший инструмент для создания мокапов, рекламных концепций и визуализаций, которые раньше требовали дорогостоящих фотосессий. С другой — всплывают вопросы этического характера. Фейковые фотографии политиков, несуществующие «свидетельства» событий, поддельные портреты для мошеннических схем — всё это уже не гипотетическая угроза, а реальность. И Midjourney, надо отдать должное, старается с этим бороться: в сервисе запрещены промпты с упоминанием реальных публичных персон, а алгоритмы модерации с каждым обновлением становятся жёстче.

Для чего Midjourney используют на практике?

Спектр применения внушительный, и с каждым месяцем он расширяется. Один из самых популярных сценариев — концепт-арт для игр и кино. Раньше на создание десятка вариантов окружения или персонажа у художника уходило несколько дней, а теперь арт-директор может сгенерировать сотню направлений за пару часов, отобрать лучшие и передать их команде для детальной проработки. Это не заменяет художника — это ускоряет мозговой штурм в разы.

Далее следует маркетинг и реклама. Небольшие бренды, у которых нет бюджета на профессиональную съёмку (а это зачастую сотни тысяч рублей за один день работы с фотографом, моделью, визажистом и студией), обращаются к нейросети. Карточки товаров, баннеры для социальных сетей, иллюстрации для блогов — всё это Midjourney генерирует за считаные минуты. Разумеется, качество промпта здесь решает многое, и «сырой» результат всё равно нужно дорабатывать в Photoshop или Canva, но стартовая точка уже на порядок лучше, чем стоковая фотография с водяным знаком.

Отдельно стоит упомянуть архитектуру и дизайн интерьеров. Нейросеть довольно уверенно справляется с визуализацией пространств: достаточно описать стиль, материалы и настроение, чтобы получить добротный эскиз комнаты или фасада здания. Конечно, до точного чертежа ему далеко, но для презентации заказчику на раннем этапе — самое то. Ну и, конечно же, тысячи обычных пользователей просто развлекаются: генерируют аватарки, обложки для плейлистов, фантастические пейзажи и портреты в стиле эпохи Возрождения. Тем более что процесс затягивает не хуже хорошей видеоигры.

Ложка дёгтя: о чём не стоит забывать

Было бы нечестно расхваливать Midjourney, не упомянув проблемные места. Во-первых, с кириллическим текстом на изображениях сервис справляется из рук вон плохо — впрочем, и с латиницей дела обстоят лишь немногим лучше. Любая надпись, встроенная в картинку, почти наверняка будет содержать ошибки или нечитаемые символы. Это связано с тем, что модель «рисует» буквы как графические элементы, а не воспроизводит их как текст. Во-вторых, точный контроль композиции до сих пор остаётся слабым местом. Хочешь, чтобы персонаж стоял строго слева, а второй — справа, держа в правой руке конкретный предмет? Готовься к множеству неудачных попыток.

И всё же самый неоднозначный момент — авторское право. Модель обучалась на миллиардах изображений из интернета, и многие художники справедливо возмущаются: их работы использовали без спроса. Судебные процессы идут в нескольких странах, а единого правового решения пока нет. Для коммерческого использования сгенерированных изображений подписка уровня «Pro» формально разрешает это, но юридическая практика в разных юрисдикциях различается. Так что не стоит слепо полагаться на «всё нормально, это же нейросеть» — щепетильный подход к правовым нюансам убережёт от неприятностей.

Подписки и тарифы: бьёт ли по бюджету?

Бесплатного доступа у Midjourney на данный момент нет — пробный период давно отменили из-за колоссальной нагрузки на серверы. Базовый тариф стартует от десяти долларов в месяц и даёт около двухсот генераций — для знакомства с сервисом и нечастого использования вполне хватает. Стандартный план за тридцать долларов снимает это ограничение, добавляя режим «relax», при котором генерации идут медленнее (от одной до десяти минут), зато без лимита. А вот профессиональная подписка за шестьдесят долларов открывает режим «stealth» — ваши промпты и результаты не будут видны другим пользователям. Для коммерческих проектов это существенно.

Сравнивая с расходами на традиционную фотосъёмку или услуги иллюстратора, стоимость подписки выглядит смехотворно. Но ведь нейросеть не заменяет фотографа полностью — она дополняет его. К тому же расходы на подбор правильных промптов, доработку в графических редакторах и время на эксперименты тоже стоит учитывать. Кошелёк станет легче не только от подписки, но и от часов, потраченных на бесконечное «ну ещё разочек, вдруг получится лучше».

Как получить максимум от генераций?

Задача не из лёгких. Но несколько наблюдений из практики помогут сэкономить и время, и нервы. Начать стоит с изучения чужих работ — на сайте Midjourney есть галерея лучших генераций с открытыми промптами. Это настоящий кладезь приёмов: какие стили хорошо работают, какие модификаторы дают нужный эффект, как описывать освещение и настроение. Не стоит пренебрегать параметром —stylize: при значении около 100 результат получается довольно нейтральным, а при 750 и выше нейросеть начинает «фантазировать», добавляя колоритные детали от себя.

Ещё один важный момент — работа с негативными промптами через параметр —no. Если в кадре упорно появляются нежелательные элементы (например, лишние люди на заднем плане или неуместные растения), достаточно явно их исключить. И да, английский язык критичен. Midjourney понимает и другие языки, но результат на английском стабильно лучше — это связано с тем, что львиная доля обучающей выборки была англоязычной. А если нужен конкретный художественный стиль, стоит упомянуть имя реального художника или направление: «in the style of Edward Hopper» или «art nouveau aesthetic» творят чудеса с атмосферой изображения.

Midjourney и будущее визуального контента

Буквально два года назад нейросетевые изображения легко было распознать по характерным артефактам: шесть пальцев на руке, расплывшиеся зубы, абсурдная геометрия зданий. Сейчас эти проблемы почти полностью решены, и темпы прогресса не замедляются. Команда Midjourney уже анонсировала работу над видеогенерацией, а конкуренты вроде Sora от OpenAI подстёгивают гонку ещё сильнее. Через пару лет генерация фотореалистичного короткого ролика по текстовому описанию, вероятно, станет такой же обыденностью, как сегодня — создание статичного изображения.

Многие грезят о том, что нейросети полностью заменят фотографов и иллюстраторов. Но на самом деле всё сложнее. Инструмент без оператора — просто инструмент. Фотограф, освоивший Midjourney, станет эффективнее. Иллюстратор, использующий нейросеть для черновых набросков, ускорит рабочий процесс. А вот тот, кто откажется разбираться в новых технологиях, рискует остаться за бортом. Это не приговор — это вызов, и довольно захватывающий.

Midjourney уже доказал, что самобытная визуальная культура может рождаться на стыке человеческой фантазии и машинного интеллекта. Не стоит бояться этого симбиоза — лучше извлечь из него максимум пользы. Удачи в экспериментах, и пусть каждая генерация приближает вас к тому самому идеальному кадру, который запомнится надолго.