Картинки, сгенерированные нейросетью, за последние пару лет буквально заполонили интернет — от обложек музыкальных альбомов до иллюстраций в серьёзных деловых изданиях. Львиная доля этих изображений создана при помощи одного и того же инструмента, название которого на слуху даже у далёких от технологий обывателей. Midjourney. Слово мелькает в новостных лентах, в дизайнерских чатах, в спорах об авторском праве и в восторженных постах блогеров. Но вот парадокс: при всей невероятной популярности продукта о его создателях известно на удивление мало, а сама компания окутана атмосферой почти нарочитой скрытности. Поэтому стоит разобраться, кто же стоит за этим грандиозным проектом и какой путь привёл команду к столь громкому успеху.
Дэвид Хольц — человек за кулисами
Имя основателя Midjourney — Дэвид Хольц. Звучит довольно скромно для человека, чьё детище перевернуло представление миллионов людей о цифровом искусстве. Родился он в Соединённых Штатах, а образование получил в области прикладной математики и компьютерных наук. Впрочем, академическую карьеру Хольц выстраивать не стал — его всегда больше тянуло к практике, к осязаемым продуктам, которые можно «потрогать» руками. И эта тяга к прикладным вещам определила весь его дальнейший маршрут. К слову, ещё до Midjourney за плечами Хольца был довольно внушительный предпринимательский опыт, о котором многие почему-то забывают.
Что было до Midjourney?
Leap Motion. Именно так называлась первая крупная компания Дэвида Хольца, основанная им ещё в 2010 году. Идея была дерзкой: создать контроллер, способный отслеживать движения рук и пальцев с точностью до сотой доли миллиметра, без перчаток и без дополнительных датчиков на теле. Устройство размером с флешку подключалось к компьютеру и превращало пространство перед экраном в трёхмерный интерфейс. Звучит как фантастика? В 2013 году, когда гаджет вышел на рынок, именно так к нему и относились — с восторгом и лёгким недоверием.
Добротный технический продукт, однако, столкнулся с суровой реальностью. Дело в том, что экосистема приложений для Leap Motion оставалась скудной, а массовый потребитель так и не понял, зачем ему махать руками перед ноутбуком, когда есть проверенная мышка. Продажи оказались далеки от ожиданий. Но Хольц из этой истории вынес колоссальный опыт: он научился собирать небольшие, но фанатично преданные команды инженеров, и — что ещё важнее — осознал, как сильно успех продукта зависит от правильного момента выхода на рынок. Ведь технология может быть гениальной, а вот мир к ней ещё не готов.
Все топовые нейросети в одной подписке! 🚀
Устали оплачивать десятки сервисов отдельно и постоянно включать VPN? Появилась платформа, которая объединяет более 90 передовых ИИ в одном окне. Пишите тексты с новейшими версиями GPT и Claude, создавайте шедевры в Midjourney и генерируйте видео в Sora и Kling. Тексты, изображения, видео и музыка — всё работает на любых устройствах без «танцев с бубном».
Попробуйте бесплатно прямо сейчас! Переходите по ссылке и получите бонусные токены для старта 👉 https://clck.ru/3RNCRL
Рождение идеи: почему именно генерация изображений?
К 2021 году ландшафт машинного обучения изменился до неузнаваемости. Трансформерные архитектуры, диффузионные модели, многомиллиардные датасеты — всё это из узкоспециальных статей на arXiv перекочёвывало в реальные продукты. Хольц, внимательно следивший за прогрессом в области генеративных нейросетей, почувствовал: момент настал. Не стоит забывать, что к тому времени уже существовали прототипы DALL·E от OpenAI, и шум вокруг них нарастал с каждым месяцем. Но Хольц решил пойти другим путём.
Его подход тяготел не столько к научной демонстрации возможностей, сколько к созданию инструмента, которым сможет пользоваться любой — художник, дизайнер или просто человек, далёкий от программирования. Изюминка замысла состояла в акценте на эстетику. Если конкуренты делали ставку на точность воспроизведения текстового запроса, то Хольц хотел, чтобы результат был красивым. Красивым настолько, чтобы у зрителя перехватывало дыхание. И вот в этой точке пересеклись его математический бэкграунд и чутьё к визуальному искусству.
Компания без офиса
Midjourney Inc. — структура, мягко говоря, нетипичная для Кремниевой долины. Ни громадного офиса со столами для пинг-понга, ни раздутого штата в тысячи сотрудников. На момент запуска бета-версии летом 2022 года в команде работало около одиннадцати человек. Одиннадцать. Это не опечатка. Небольшая распределённая группа инженеров и исследователей, разбросанных по разным городам и странам, координировавшая работу через Discord. К слову, именно Discord стал и основной платформой для взаимодействия с пользователями — ход, который поначалу казался странным, а потом оказался невероятно удачным маркетинговым решением.
Хольц сознательно отказался от венчурного капитала на ранних этапах. Многие считают, что без миллиардных инвестиций создать конкурентоспособный ИИ-продукт невозможно, но на самом деле Midjourney довольно быстро вышла на самоокупаемость за счёт подписной модели. Пользователи платили от десяти до тридцати долларов в месяц (в зависимости от тарифа), и при миллионах подписчиков этого хватало на аренду серверных мощностей и развитие модели. Никаких внешних инвесторов, никаких советов директоров, навязывающих стратегию. Дэвид Хольц сохранил полный контроль над компанией. Это, безусловно, редкость в современном технологическом бомонде.
Как устроена нейросеть изнутри?
Техническая сторона. Midjourney основана на диффузионной архитектуре — том же семействе моделей, что и Stable Diffusion или DALL·E 2. Вся суть в том, что нейросеть обучается «очищать» зашумлённое изображение, постепенно превращая случайный визуальный хаос в осмысленную картинку, соответствующую текстовому описанию. Процесс этот проходит в несколько десятков шагов, и каждый из них чуть-чуть уточняет детали. Довольно элегантная математика, если вдуматься.
Но есть один нюанс, который отличает Midjourney от конкурентов. Команда Хольца уделила огромное внимание так называемому «эстетическому обучению» модели. Нейросеть тренировали не просто на миллионах изображений из интернета, а скрупулёзно отбирали референсы с высоким художественным качеством — живопись, фотография, иллюстрация. Это дало результат, который сразу бросается в глаза: картинки Midjourney выглядят впечатляюще даже при минимальном промте. Конкуренты генерировали «правильно», а Midjourney — «красиво». И вот эта тонкая грань определила коммерческий триумф продукта.
Стоит ли доверять одной маленькой команде?
Скептики, разумеется, нашлись сразу. Как может горстка инженеров без публичных научных статей и без привычного корпоративного антуража конкурировать с гигантами вроде Google, Meta или OpenAI? Ведь у тех — десятки тысяч исследователей, петабайты вычислительных ресурсов и бездонные бюджеты. А Midjourney при всей своей популярности даже не опубликовала толком техническую документацию по модели. Информации минимум. Закрытый код, закрытые веса, никаких белых бумаг.
Однако результаты говорят сами за себя. Версия 5, вышедшая в марте 2023 года, произвела настоящий фурор в профессиональном сообществе. Фотореалистичные портреты, которые было практически невозможно отличить от снимков с дорогой зеркальной камеры. Текстуры ткани, блеск капель воды на коже, правдоподобная глубина резкости — всё это творило настоящие чудеса. А версия 6, появившаяся позднее, добавила куда более точную работу с текстом внутри изображений и ещё более тонкое понимание сложных промтов. Так что маленький размер команды не помешал, а, возможно, даже помог: решения принимались быстрее, бюрократия не тормозила процесс.
Философия создателя
В редких интервью Дэвид Хольц не раз подчёркивал одну мысль, которая приковывает внимание: он не воспринимает Midjourney как инструмент замены художников. По его словам, нейросеть ближе к понятию «воображение для тех, кто не умеет рисовать». Нечто вроде калькулятора для визуального мышления. Идея в том, что у каждого человека в голове роятся образы, но далеко не каждый способен перенести их на холст или экран. Midjourney выступает мостом между замыслом и его визуальным воплощением.
Неоднозначный подход? Да. Тем более, что споры об этике генеративного ИИ не утихают. Художники по всему миру обвиняют Midjourney в том, что модель обучалась на их работах без разрешения. Несколько коллективных исков уже было подано в американские суды. Хольц же занимает позицию, которую можно назвать осторожно примирительной: он признаёт сложность проблемы, но настаивает на том, что технология сама по себе нейтральна, а правовые рамки должны формировать законодатели, а не разработчики. Впрочем, далеко не все с этим согласны.
Discord как среда обитания
Выбор Discord в качестве главной площадки — это, пожалуй, самый колоритный элемент всей истории Midjourney. Ни веб-приложения, ни мобильного клиента (по крайней мере, долгое время). Хочешь генерировать картинки — заходи на сервер, набирай команду /imagine и жди результат в общем чате, на глазах у тысяч других пользователей. Ощущение коллективного творчества, где каждый видит промты и результаты соседей, создало совершенно особую атмосферу.
К тому же это решало сразу несколько задач. Во-первых, отсутствие собственного фронтенда экономило ресурсы крошечной команды. Во-вторых, вирусный эффект оказался феноменальным: люди делились результатами прямо внутри Discord, и каждое удачное изображение становилось бесплатной рекламой. Ну и, конечно же, Хольц получил мгновенную обратную связь от миллионов пользователей — кладезь информации для доработки модели. Позднее, правда, появился и веб-интерфейс, но дух дискордовского сообщества до сих пор остаётся важной частью ДНК проекта.
Команда: кто ещё внёс лепту?
Говорить о Midjourney как о проекте одного человека было бы несправедливо. Да, Хольц — лицо компании и её идеолог, но рядом с ним работали и работают специалисты, чей вклад трудно переоценить. Нужно отметить, что Midjourney привлекала экспертов из самых разных областей: от исследователей глубинного обучения до специалистов по компьютерной графике и даже бывших сотрудников игровых студий. Имена большинства из них широкой публике неизвестны — компания придерживается политики максимальной непубличности.
Отдельно стоит упомянуть роль консультантов и советников. Среди тех, кто помогал формировать стратегию Midjourney на ранних этапах, числились люди из академической среды — профессора, занимавшиеся генеративными состязательными сетями (GAN) задолго до того, как диффузионные модели вышли на первый план. Их опыт помог команде избежать ряда тупиковых направлений и сосредоточиться на том, что действительно работало. А ведь в мире машинного обучения выбор архитектуры на старте — это буквально вопрос жизни и смерти продукта.
Коммерческий успех без лишнего шума
Цифры впечатляют. К середине 2023 года Discord-сервер Midjourney насчитывал более шестнадцати миллионов участников, а годовая выручка компании, по оценкам аналитиков, перевалила за двести миллионов долларов. И это без единого доллара внешних инвестиций. Без рекламных бюджетов. Без отдела продаж. Продукт продавал сам себя — через «сарафанное радио» и визуальный wow-эффект генерируемых изображений.
При этом кошелёк пользователя страдал не сильно: базовая подписка стоила десять долларов в месяц, а за тридцать можно было получить практически безлимитную генерацию. Для сравнения — лицензия на профессиональный графический пакет бьёт по бюджету куда серьёзнее. Да и фрилансеры быстро смекнули, что Midjourney экономит десятки часов работы: концепт-арт, мудборды, черновые визуалы для презентаций — всё это нейросеть выдавала за считанные минуты. Серьёзное вложение? Скорее, серьёзная экономия.
Конкуренция и подводные камни
Было бы наивно думать, что Midjourney существует в вакууме. Stable Diffusion от Stability AI предложил открытую модель, которую можно запускать на собственном компьютере — а это для щепетильных к конфиденциальности пользователей стало весомым аргументом. DALL·E 3 от OpenAI теснее интегрировался с ChatGPT и получил преимущество в виде огромной пользовательской базы. Adobe Firefly сделал ставку на легальность обучающего датасета, используя только лицензированные стоковые изображения. Каждый конкурент нашёл свою нишу и свои козыри.
Для Midjourney ложкой дёгтя остаются судебные разбирательства. Группа художников, среди которых были довольно известные иллюстраторы, подала коллективный иск ещё в начале 2023 года. Суть претензий проста: модель обучалась на их работах, защищённых авторским правом, без какого-либо согласия или компенсации. Хольц публично не отрицал, что в обучающую выборку входили изображения из открытых источников, но юридическая сторона вопроса до сих пор не разрешена. А ведь исход этих дел может повлиять на всю индустрию генеративного ИИ, не только на Midjourney.
Что ждёт проект дальше?
Слухи о Midjourney V7 и возможном переходе к генерации видео будоражат сообщество с конца 2024 года. Хольц в одном из своих редких появлений на «офисных часах» в Discord намекнул, что команда экспериментирует с трёхмерными моделями и даже с интерактивными сценами. Если эти планы реализуются, Midjourney из генератора картинок превратится в нечто совершенно иное — возможно, в полноценный движок для создания визуальных миров.
Кроме того, компания начала выстраивать собственную аппаратную инфраструктуру, снижая зависимость от облачных провайдеров вроде Google Cloud. Это довольно амбициозный шаг для команды, которая ещё два года назад умещалась за одним обеденным столом. Но Хольц всегда тяготел к независимости — и в финансах, и в технологиях. Ему, похоже, комфортнее строить всё самому, с нуля, пусть и медленнее. Тем более, что спешить ему некуда: пользовательская база растёт органически, а продукт продолжает удивлять даже бывалых скептиков.
История Midjourney — это, по сути, история одного человека с математическим складом ума и художественным чутьём, который собрал вокруг себя горстку единомышленников и изменил целую индустрию. Без миллиардных инвестиций, без шумных пресс-конференций, без армии маркетологов. Просто хороший продукт в правильное время. И если вдруг захочется окунуться в мир генеративного искусства — Midjourney по-прежнему остаётся одним из лучших способов это сделать. Удачи в творческих экспериментах — результат наверняка запомнится надолго.

