Когда в 2022 году интернет буквально захлестнула волна невероятных изображений — от фантастических пейзажей до портретов людей, никогда не существовавших, — многие обыватели всерьёз задумались: а кто же стоит за этим цифровым волшебством? Львиная доля таких картинок рождалась в одном и том же сервисе, название которого мгновенно стало нарицательным среди дизайнеров, маркетологов и просто любопытствующих. Речь о Midjourney — нейросети, которая за считаные секунды превращает текстовый запрос в детализированную визуальную работу. Многие грезят о том, чтобы овладеть этим инструментом в совершенстве, но мало кто знает историю человека, который всё это затеял. А начать стоит именно с неё — с истории разработчика и страны, где грандиозный проект увидел свет.
Откуда родом Midjourney?
Короткий ответ — Соединённые Штаты Америки. Если точнее, то корни проекта тянутся в Сан-Франциско, штат Калифорния — туда, где традиционно оседает львиная доля технологических стартапов и где сам воздух, кажется, пропитан амбициями. Компания Midjourney, Inc. была основана в 2021 году, а первую открытую бета-версию своего генератора изображений команда запустила в июле 2022-го. Дело в том, что Сан-Франциско и соседняя Кремниевая долина давно превратились в своеобразный магнит для людей, которые тяготеют к экспериментам на стыке науки и искусства. И всё же Midjourney — это не типичный стартап из гаража. Ведь за этой нейросетью стоит человек с внушительным бэкграундом в совсем другой области.
Дэвид Хольц — визионер с нестандартным путём
Имя основателя — Дэвид Хольц (David Holz). К моменту запуска Midjourney этому предпринимателю не было и сорока, но за плечами у него уже лежал довольно богатый опыт работы с передовыми технологиями. Образование Хольц получил в области прикладной математики и дизайна, а затем несколько лет посвятил исследованиям в институтах Макса Планка и NASA. К слову, именно в NASA он изучал гидродинамику — тему, бесконечно далёкую от генеративных нейросетей, но развившую в нём скрупулёзный научный подход. А ведь именно этот подход впоследствии и стал фундаментом для амбициозного проекта.
Но настоящую предпринимательскую закалку Хольц получил ещё до Midjourney. В 2010 году он основал компанию Leap Motion — стартап, который разрабатывал контроллер для отслеживания движений рук в трёхмерном пространстве. Устройство размером с флешку считывало жесты пальцев с точностью до сотой доли миллиметра. Звучит впечатляюще? Безусловно. Однако коммерческий успех Leap Motion оказался довольно скромным. Технология опередила своё время: рынок виртуальной реальности ещё не дозрел, а простому пользователю такой гаджет был попросту ни к чему. В 2019 году компанию продали за относительно небольшую сумму британской Ultrahaptics (позже переименованной в Ultraleap). Для Хольца это стало болезненным, но бесценным уроком.
Ваш личный ИИ-отдел маркетинга, который работает 24/7 📈
Ускорьте создание контента в 10 раз! Этот мульти-ИИ сервис позволяет писать безупречные продающие посты, генерировать уникальные фото для соцсетей, создавать рекламные промо-ролики с нуля и писать для них музыку в пару кликов. Идеальное решение для предпринимателей, маркетологов и SMM-специалистов. Всё в едином удобном интерфейсе — больше не нужно переключаться между десятком вкладок.
Делегируйте рутину искусственному интеллекту и увеличивайте продажи. Начните работу здесь 👉 https://clck.ru/3RNCRL
Как появилась идея генеративного сервиса?
После продажи Leap Motion Дэвид не собирался уходить на покой. Наоборот — он стал присматриваться к стремительно развивающейся области генеративного искусственного интеллекта. Буквально за пару лет до этого мир увидел первые впечатляющие результаты моделей, способных создавать изображения по текстовому описанию. OpenAI экспериментировала с DALL·E, Google развивала свой Imagen, а независимые исследователи публиковали одну научную работу за другой. И всё же до удобного массового инструмента было далеко. Хольц уловил этот разрыв между научным прорывом и пользовательским удобством — и решил его заполнить.
Нюанс в том, что Дэвид не пытался конкурировать с гигантами «в лоб». Стратегия вышла неоднозначной, но на редкость удачной. Вместо того чтобы строить громоздкую платформу с веб-интерфейсом, команда Midjourney выбрала в качестве точки входа Discord — мессенджер, популярный среди геймеров и IT-сообществ. Пользователю достаточно зайти на сервер в Discord, набрать текстовую команду, и через несколько десятков секунд нейросеть возвращает четыре варианта изображения. Просто. Элегантно. И, что немаловажно, затягивающе — ведь результат непредсказуем, и каждый новый запрос превращается в маленький эксперимент.
Штаб-квартира и команда
Маленькая деталь, которая бросается в глаза: на момент запуска бета-версии в 2022 году в штате Midjourney работало всего около одиннадцати человек. Одиннадцать. Для сравнения — у конкурирующих проектов в крупных корпорациях над аналогичными задачами трудились сотни инженеров. Штаб-квартира компании расположилась в Сан-Франциско, но по духу команда больше напоминала исследовательскую лабораторию, нежели типичный технологический офис с пуфиками и смузи. Хольц не раз подчёркивал в интервью, что ему важнее качество мышления каждого участника, чем количество людей в штате. Да и сам стиль управления тяготеет скорее к академическому: небольшая группа единомышленников, минимум бюрократии, максимум свободы для эксперимента.
К тому же стоит отметить одну любопытную вещь: Midjourney, Inc. не привлекала венчурного финансирования. Ни единого раунда инвестиций. Компания вышла на самоокупаемость практически с первых месяцев работы за счёт подписной модели — пользователи платят ежемесячно за генерацию определённого количества изображений. Кошелёк подписчика при этом страдает не так уж сильно: базовый тариф стартует от десяти долларов в месяц. Для профессионалов предусмотрены расширенные планы, но даже они не бьют по бюджету слишком болезненно. Такой подход — редкость в мире стартапов, где принято сначала годами сжигать деньги инвесторов, а прибыль откладывать на потом.
Почему именно Америка?
Можно ли было создать подобный проект в другой стране? Теоретически — да. Но на практике дело обстоит сложнее. Вся инфраструктура, необходимая для обучения генеративных моделей, сконцентрирована преимущественно в США. Это и доступ к мощнейшим облачным кластерам на базе GPU от NVIDIA, и близость к ведущим исследовательским центрам, и — что немаловажно — доступ к огромным массивам визуальной информации, на которых нейросети обучаются. Ну и, конечно же, культурный контекст: именно в Калифорнии сложилась та самая среда, где чудаковатый учёный с идеей-фикс может найти десяток таких же «безумцев» и за год выкатить продукт мирового масштаба.
Впрочем, не стоит идеализировать американскую экосистему. Подводные камни там тоже имеются. Конкуренция жесточайшая — одновременно с Midjourney рынок штурмовали DALL·E от OpenAI, Stable Diffusion от Stability AI (британский стартап, кстати) и несколько китайских аналогов. А ещё — постоянное давление со стороны правообладателей, художников и юристов, считающих, что обучение нейросетей на существующих произведениях искусства нарушает авторские права. Этот вопрос до сих пор не разрешён, и именно он может стать той самой ложкой дёгтя для всей индустрии генеративных изображений.
Чем Midjourney отличается от конкурентов?
Изюминка Midjourney — в её эстетике. Если сравнивать результаты разных генераторов, то работы Midjourney чаще всего выглядят так, словно над ними трудился живой художник с хорошим вкусом. Изображения получаются насыщенными, с продуманной композицией и характерной «кинематографичностью». Это связано с тем, что Хольц и его команда целенаправленно настраивали модель на создание визуально привлекательных картинок, а не просто точного воспроизведения текстового описания. Другие сервисы зачастую тяготеют к фотореализму или, наоборот, выдают довольно «сырой» результат, требующий серьёзной доработки. Midjourney же солирует именно в области художественной генерации — там, где важна атмосфера, цвет и настроение.
Отдельно стоит упомянуть скорость развития. Между первой и пятой версией модели прошло менее двух лет, а разница в качестве — колоссальная. Ранние генерации вызывали скорее улыбку: деформированные пальцы, «расплавленные» лица и абсурдные анатомические ошибки. Но уже к версии 5.2 нейросеть научилась создавать портреты, которые от фотографий отличить довольно затруднительно. Шестая версия, вышедшая в конце 2023-го, добавила грамотную работу с текстом внутри изображений — то, над чем бились все конкуренты и что долгое время оставалось ахиллесовой пятой генеративных моделей.
Философия Дэвида Хольца
Хольц — фигура неоднозначная. С одной стороны, он избегает публичности и крайне редко появляется на крупных конференциях. С другой — регулярно общается с пользователями на сервере Midjourney в Discord, отвечая на вопросы и делясь планами по развитию. В нескольких интервью он говорил вещи, которые многих удивляли. Например, признавался, что не считает искусственный интеллект угрозой для художников. По его мнению, генеративные модели — это «воображательный двигатель», инструмент для усиления человеческой креативности, а не её замена.
«Мы не заменяем художников. Мы даём воображению новый язык.» — Дэвид Хольц, из интервью для The Verge.
Многие считают, что подобные заявления — лишь красивая обёртка для бизнеса, который зарабатывает на автоматизации творческого труда. Но на самом деле позиция Хольца более глубокая. Он неоднократно подчёркивал, что Midjourney создавалась не для профессиональных иллюстраторов (хотя они ею активно пользуются), а для людей, у которых есть идеи, но нет технических навыков рисования. Дизайнер интерьеров, который хочет показать клиенту «атмосферу» будущей гостиной. Автор книги, которому нужна обложка. Предприниматель, набрасывающий концепцию логотипа. Для всех этих людей Midjourney стала своеобразным спасательным кругом.
Скандалы и подводные камни
Без громких скандалов не обошлось. В начале 2023 года мир облетела фотография Папы Римского Франциска в модном белом пуховике — изображение, созданное в Midjourney, которое миллионы людей приняли за настоящее. Этот случай стал первым по-настоящему масштабным примером того, как генеративный ИИ может использоваться для создания дезинформации. А если вспомнить политические дипфейки и фальшивые «фотографии» катастроф, становится понятно, почему тема вызывает столько тревоги.
Вторая серьёзная проблема — авторские права. Группа художников подала коллективный иск против Midjourney, Stability AI и DeviantArt, утверждая, что нейросети обучались на их работах без разрешения. Процесс тянется до сих пор, и его исход может серьёзно повлиять на будущее всей индустрии. Хольц и его команда занимают осторожную позицию: они не раскрывают точный состав обучающей выборки, ссылаясь на коммерческую тайну. Решение щепетильное, и критики справедливо указывают на его двусмысленность. Впрочем, стоит отметить, что аналогичные претензии звучат и в адрес всех крупных игроков — от Google до OpenAI.
Что ждёт Midjourney в будущем?
Планы у команды амбициозные. В 2024 году Хольц анонсировал работу над полноценным веб-интерфейсом, который позволит пользователям генерировать изображения без Discord. Кроме того, компания экспериментирует с генерацией трёхмерных моделей и видео — направлениями, которые пока находятся на самых ранних стадиях. Тем более что конкуренты не дремлют: OpenAI выпустила Sora для генерации видео, а Google продолжает развивать Veo. Гонка технологий набирает обороты.
И всё же у Midjourney есть то, чего не хватает многим конкурентам, — сообщество. Миллионы пользователей на сервере Discord ежедневно делятся результатами, обмениваются промптами и помогают друг другу. Это живой организм, который развивается вместе с продуктом. Да и сам Хольц, похоже, понимает, что именно в сообществе кроется настоящая сила его детища. Ведь технологии рано или поздно скопируют, а вот лояльную аудиторию, выросшую вместе с тобой с первого дня, — нет.
История Midjourney — это история о том, как один добротный замысел, помноженный на правильное время и место, способен изменить целую индустрию. Американский стартап из Сан-Франциско, основанный человеком с опытом в NASA и провалившимся стартапом жестового контроллера, за пару лет стал культурным феноменом. Не стоит забывать об этом, когда в очередной раз набираешь текстовый запрос в окне генератора. За каждой картинкой стоит не просто алгоритм, а вполне конкретные люди с их мечтами, ошибками и упрямой верой в то, что воображение заслуживает нового инструмента. Удачи в творческих экспериментах — и пусть каждая сгенерированная картинка приближает вас к собственному визуальному идеалу.
