В мире генеративных нейросетей за последние пару лет произошёл настоящий переворот, и львиная доля внимания со стороны обывателей досталась инструментам для создания изображений. Стоит только набрать в поисковике «нейросеть рисует картинки» — и тут же натыкаешься на десятки названий, от DALL·E до Stable Diffusion. Но одно имя в этом ряду буквально солирует. Midjourney — сервис, породивший волну восхищения, скандалов и бесконечных споров об авторском праве одновременно. Кто-то грезит о том, чтобы заменить этой штукой целый отдел дизайнеров, а кто-то до сих пор не верит, что за нейросетью стоит компания из нескольких десятков человек, а не технологический гигант с многомиллиардным оборотом. Но чтобы разобраться в феномене Midjourney, стоит начать с самого начала — с людей, которые всё это затеяли.
Кто стоит за Midjourney?
Компанию, подарившую миру один из самых обсуждаемых генеративных инструментов, основал Дэвид Хольц (David Holz). Это имя в технологической среде мелькало задолго до появления нейросети, хотя широкой публике оно стало знакомо лишь в 2022 году. Хольц — не просто программист, решивший поэкспериментировать с диффузионными моделями ради забавы. За его плечами — серьёзная научная карьера и опыт создания стартапов, которые привлекали внимание инвесторов из Кремниевой долины ещё в начале 2010-х. К слову, именно этот бэкграунд во многом объясняет, почему Midjourney с первых месяцев работы выглядела как зрелый продукт, а не как студенческий проект.
Штаб-квартира компании расположена в Сан-Франциско — городе, где, кажется, на каждом углу рождается очередной стартап. Но вот что бросается в глаза: Midjourney Inc. — это независимая исследовательская лаборатория. Ни Google, ни Microsoft, ни Meta к ней отношения не имеют. Да и сторонних крупных инвесторов, по заявлениям самого Хольца, компания долгое время не привлекала. Звучит почти неправдоподобно на фоне новостей о миллиардных раундах финансирования у конкурентов. Однако Хольц в интервью неоднократно подчёркивал, что прибыльной Midjourney стала практически с момента запуска — за счёт подписок пользователей. Без венчурных денег. Без долговых обязательств.
Дэвид Хольц: от Leap Motion до генеративного искусства
Путь Хольца к нейросетям начался задолго до того, как диффузионные модели стали мейнстримом. Ещё будучи студентом, он занимался исследованиями в области математики и физики в Университете Северной Каролины в Чапел-Хилле, а затем работал в NASA — факт, который сам по себе приковывает внимание. Впрочем, настоящую известность ему принесла компания Leap Motion, сооснователем которой он стал в 2010 году. Идея была по тем временам довольно дерзкой: устройство размером с флешку, способное отслеживать движения рук и пальцев с точностью до сотой доли миллиметра. По сути, контроллер для управления компьютером без мыши и клавиатуры.
Ваш личный ИИ-отдел маркетинга, который работает 24/7 📈
Ускорьте создание контента в 10 раз! Этот мульти-ИИ сервис позволяет писать безупречные продающие посты, генерировать уникальные фото для соцсетей, создавать рекламные промо-ролики с нуля и писать для них музыку в пару кликов. Идеальное решение для предпринимателей, маркетологов и SMM-специалистов. Всё в едином удобном интерфейсе — больше не нужно переключаться между десятком вкладок.
Делегируйте рутину искусственному интеллекту и увеличивайте продажи. Начните работу здесь 👉 https://clck.ru/3RNCRL
Leap Motion наделала шума. Ведь технология обещала революцию в интерфейсах — от хирургических симуляторов до виртуальной реальности. Компания привлекла более 90 миллионов долларов инвестиций, а предзаказов на устройство поступило свыше полумиллиона. Но вот ложка дёгтя: массового потребительского рынка Leap Motion так и не завоевала. Технология опередила своё время, и в 2019 году компания была продана британской Ultrahaptics (ныне Ultraleap). Хольц покинул проект, но разочарованным не выглядел — скорее, наоборот. Именно в этот период у него, по собственному признанию, начал вызревать замысел чего-то нового. Чего-то на стыке искусственного интеллекта и человеческого воображения.
Как всё начиналось?
Первые строчки кода. Именно с них, а не с громких презентаций, стартовал проект. В 2021 году Хольц собрал небольшую команду исследователей и инженеров, увлечённых генеративными моделями. Название «Midjourney» — «середина пути» — он объяснял философски: это путешествие к раскрытию творческого потенциала человека с помощью машин, и все мы сейчас находимся где-то посередине этого маршрута. Красиво? Безусловно. Но за поэтичным названием скрывалась вполне прагматичная задача — создать инструмент, доступный не только инженерам, но и людям без технического образования.
Открытая бета-версия нейросети появилась в июле 2022 года, и распространялась она через довольно неожиданную площадку — Discord. Не через собственный сайт с красивым интерфейсом, не через мобильное приложение, а именно через мессенджер, который изначально ассоциировался с геймерами. Решение казалось странным, но сработало блестяще. Дело в том, что Discord уже имел сформированную аудиторию — технически подкованную, любопытную и готовую тестировать новые инструменты прямо в чате. К тому же это снимало с маленькой команды необходимость тратить ресурсы на разработку собственного фронтенда на начальном этапе.
Что за команда создаёт «картинки по текстовому описанию»?
Удивительный нюанс. Midjourney, сервисом которой к 2023 году пользовались миллионы людей по всему миру, управляла команда, насчитывавшая менее 40 штатных сотрудников. Для сравнения: у OpenAI (создатели DALL·E и ChatGPT) на тот же период работало несколько сотен человек, а в подразделениях Google, связанных с генеративным ИИ, — ещё больше. Как компании из нескольких десятков инженеров удаётся конкурировать с гигантами? Вся суть в том, что Хольц сознательно делал ставку на компактную структуру, где каждый человек несёт ответственность сразу за несколько направлений.
Имена большинства членов команды публично не раскрываются — компания довольно скрытная в этом отношении. Но кое-что известно. Среди ранних участников проекта фигурировали специалисты по машинному обучению, имевшие опыт работы в крупных исследовательских лабораториях. Отдельно стоит упомянуть, что Хольц привлекал людей не только из мира технологий, но и из сферы искусства. Это неслучайно. Ведь конечный результат работы нейросети — изображение, а значит, понимание эстетики, композиции и колористики для команды не менее важно, чем умение оптимизировать веса нейронной сети. Да и сам Хольц в интервью Bloomberg подчёркивал: «Мы не AI-компания. Мы — компания, которая занимается расширением воображения».
Технология и подводные камни
Midjourney работает на основе диффузионной модели — технологии, которая обучается превращать «шум» (случайный набор пикселей) в осмысленное изображение, руководствуясь текстовым описанием пользователя. Буквально пять-шесть лет назад такое казалось фантастикой, а сейчас — рутинная операция, занимающая от 10 до 60 секунд в зависимости от нагрузки серверов. Но не стоит забывать о внушительном вычислительном ресурсе, который стоит за каждой сгенерированной картинкой. Компания арендует тысячи графических процессоров, и расходы на инфраструктуру бьют по бюджету даже при стабильном потоке доходов от подписчиков.
Нужно отметить, что Midjourney никогда не публиковала научных статей о своей архитектуре — в отличие от тех же OpenAI или Stability AI. Это вызывает неоднозначную реакцию в академическом сообществе. С одной стороны, коммерческая тайна — вещь понятная. С другой — отсутствие прозрачности порождает вопросы о том, на каких конкретно наборах данных обучалась модель. И вот тут всплывают самые горячие подводные камни. В январе 2024 года в сеть утёк внутренний документ, который, по утверждениям журналистов, содержал перечень из тысяч художников, чьи работы предположительно использовались для тренировки нейросети. Скандал получился грандиозный.
Скандалы вокруг авторских прав
Тема щепетильная. Ведь вопрос о том, имеет ли нейросеть «право» учиться на произведениях живых художников без их согласия, до сих пор не получил однозначного юридического ответа ни в одной стране мира. Группа художников подала коллективный иск против Midjourney ещё в 2023 году, утверждая, что их стиль и работы были использованы без разрешения. Хольц в ответ занял позицию, которую можно описать как «осторожный оптимизм»: мол, технология развивается быстрее, чем законодательство, и со временем всё урегулируется. Впрочем, многих такой ответ не удовлетворил.
К тому же всплыла другая история — пользователь Midjourney выиграл художественный конкурс в штате Колорадо с изображением, полностью сгенерированным нейросетью. Зрелище было впечатляющим: картина в стиле барочного фэнтези, с глубокой детализацией и выразительной атмосферой. Но реакция арт-сообщества оказалась далёкой от восторга. «Это конец профессии» — примерно так звучал общий тон комментариев. На самом деле ситуация несколько сложнее. Нейросеть — это инструмент, а не автор. И от того, насколько скрупулёзно человек составляет промпт, зависит финальный результат. Однако граница между «инструментом» и «соавтором» становится всё более размытой, да и само понятие авторства в эпоху генеративного ИИ нуждается в переосмыслении.
Как Midjourney зарабатывает деньги?
Модель монетизации — подписочная. Пользователь выбирает один из тарифных планов, стоимость которых начинается от 10 долларов в месяц (базовый доступ с ограниченным количеством генераций) и доходит до 120 долларов за «мега-план» с практически неограниченными возможностями. Корпоративные клиенты платят отдельно — суммы там, разумеется, совсем другие. Хольц утверждал в интервью журналу The Verge, что уже к концу 2022 года выручка компании измерялась «девятизначными числами» в пересчёте на годовой объём. Для команды из нескольких десятков человек цифра внушительная.
Но стоит задуматься: а долго ли продержится такая модель? Конкуренция на рынке генеративных изображений обостряется буквально каждый квартал. Adobe внедрила собственный генератор Firefly, Google развивает Imagen, а у Stability AI вышла третья версия Stable Diffusion. И если раньше Midjourney могла похвастаться безоговорочным превосходством в качестве «картинки», то сейчас разрыв стремительно сокращается. Да и бесплатные альтернативы не дремлют — кошелёк пользователя ведь не бездонный. Впрочем, Хольц, судя по всему, делает ставку не на ценовую войну, а на сообщество и экосистему, выстроенную вокруг продукта.
Версии Midjourney: от первых экспериментов до пятого поколения
Первая версия модели (V1), появившаяся в 2022 году, по нынешним меркам выглядит довольно примитивно. Изображения были размытыми, анатомия человеческих фигур — странной, а лица напоминали нечто из сюрреалистических кошмаров. Но даже в таком виде нейросеть приковывала внимание — ведь сам факт генерации «чего-то осмысленного» из текстовой строки казался волшебством. Далее последовала вторая версия, потом третья — каждая со значительными улучшениями в детализации и понимании промптов. Настоящий качественный скачок произошёл с выходом V4 в ноябре 2022 года: нейросеть научилась создавать реалистичные текстуры, правдоподобные отражения и куда более адекватную анатомию.
А вот V5, вышедшая весной 2023-го, буквально взорвала интернет. Фотореалистичные портреты людей, которых не существует, пейзажи, неотличимые от фотографий National Geographic, — всё это стало возможным благодаря кропотливой доработке архитектуры модели. К слову, именно на этом этапе появились и новые опасения: ведь если нейросеть генерирует фотореалистичное лицо за считанные секунды, то до массового производства дипфейков — рукой подать. Хольц в одном из интервью признал эту проблему, но предложил решать её не запретами, а разработкой инструментов для маркировки сгенерированного контента. Шестая версия модели, представленная в конце 2023 года, ещё сильнее подняла планку качества, а ожидание V7 в 2025-м подогревает интерес сообщества до сих пор.
Роль Discord-сообщества
Отдельно стоит поговорить о том, какую роль в становлении Midjourney сыграло именно комьюнити. Discord-сервер проекта к середине 2023 года насчитывал более 16 миллионов участников — это один из крупнейших серверов на платформе в принципе. Люди обменивались промптами, обсуждали результаты, делились секретами «правильных» формулировок запросов и даже устраивали неформальные соревнования. Фактически сообщество взяло на себя функцию бесплатного отдела по обучению пользователей — ресурс, который любая другая компания вынуждена была бы создавать за немалые деньги.
Но есть и обратная сторона медали. По мере роста популярности сервиса модерация чатов превратилась в настоящее испытание. Генерация неприемлемого контента, попытки обойти встроенные фильтры, бесконечные споры о «правильном» использовании ИИ — всё это ложилось на плечи маленькой команды. В какой-то момент Midjourney отключила бесплатный тариф, объяснив это «массовым злоупотреблением». Многие восприняли решение негативно, но с точки зрения бизнеса ход был логичным: бесплатные пользователи создавали колоссальную нагрузку на серверы, при этом не принося дохода. Да и качество модерации при таком наплыве поддерживать становилось всё сложнее.
Философия Дэвида Хольца
Хольц — фигура довольно необычная для мира стартапов. Он не стремится к публичности, редко появляется на конференциях и предпочитает общаться с аудиторией через тот же Discord, проводя еженедельные «офисные часы» (office hours) в голосовых каналах. В этих сессиях он рассуждает о будущем технологий, о природе творчества и о том, зачем человеку вообще нужны машины для создания изображений. Тон разговора — без бомонда и понтов, скорее, как беседа у камина с умным собеседником.
Его позиция по отношению к ИИ — неоднозначная и потому интересная. Хольц не относит себя ни к лагерю «ИИ спасёт мир», ни к лагерю «ИИ нас погубит». Он говорит про воображение как про «воду»: нейросеть — это трубопровод, который помогает доставить эту воду до людей, у которых раньше доступа к ней не было. Метафора красивая, хотя скептики справедливо замечают, что «вода» в этом трубопроводе создана из работ реальных художников. Тем не менее философия «доступного воображения» привлекает миллионы пользователей, и спорить с её эффективностью не приходится.
Конкуренты и будущее
Рынок генеративных изображений сейчас напоминает гонку вооружений. OpenAI с моделью DALL·E 3, интегрированной в ChatGPT, бьёт по массовости. Stability AI продвигает открытый исходный код и модель Stable Diffusion, доступную для локальной установки на собственном компьютере, — а это изюминка, привлекающая энтузиастов и разработчиков. Adobe Firefly делает ставку на «безопасность авторских прав», обучаясь только на лицензионных изображениях из Adobe Stock. Ну и, конечно же, Google с Imagen — гигант, ресурсы которого несопоставимы с возможностями маленькой лаборатории из Сан-Франциско.
Однако Midjourney пока уверенно стоит на ногах. И этому есть объяснение. Во-первых, продукт тяготеет к «художественному» стилю генерации — изображения из Midjourney, как правило, выглядят более эстетично и «готово к публикации» прямо из коробки, без долгой постобработки. Во-вторых, экосистема Discord-сообщества создаёт эффект сетевого притяжения: чем больше людей пользуются сервисом, тем больше контента, обучающих материалов и вдохновения появляется вокруг него. Ну, а в-третьих, Хольц анонсировал работу над совершенно новыми направлениями — генерацией 3D-моделей и видео. Если хотя бы одно из них выстрелит, компания выйдет на совершенно другой уровень.
Midjourney — это история про то, как маленькая самобытная команда с дерзкой идеей может конкурировать с корпоративными гигантами. Не благодаря миллиардным бюджетам, а благодаря фокусу на качестве, философии и сообществе. Подводные камни на этом пути никуда не делись — вопросы авторского права, этики и будущего профессий в сфере искусства всё ещё ждут ответов. Но сам по себе проект заслуживает истинного уважения как пример того, чего можно добиться, если за штурвалом стоят люди, искренне увлечённые своим делом. А тем, кто только присматривается к генеративным нейросетям, стоит попробовать Midjourney хотя бы раз — впечатления наверняка запомнятся надолго.
