Создание Дипсик: история разработки и технологии китайской нейросети

Ожесточённые споры о будущем искусственного интеллекта в сети не утихают довольно давно. Буквально десятилетие назад алгоритмы генерации связного текста считались забавой узкого круга гиков, но сейчас нейросети плотно вошли в повседневную рутину. Многие считают безоговорочным лидером заокеанские корпорации с их бесконечными бюджетами, однако на самом деле восточные инженеры давно готовят свой масштабный и крайне дешёвый ответ. И всё же обыватель редко задумывается о том, какие колоссальные человеческие ресурсы стоят за бегущими строчками на мониторе. Поэтому для понимания истинных масштабов происходящего стоит внимательно изучить тернистый путь одной весьма амбициозной азиатской разработки.

Достопримечательности Ханчжоу: рождение стартапа

Запах перегретого текстолита. Именно так начиналась эта история в небольших серверных комнатах. Изначально инвестиционный хедж-фонд High-Flyer, сколотивший капитал на скрупулёзных математических моделях для биржи, решил применить накопленный опыт в новой сфере. Ведь именно он имел в своём распоряжении внушительный вычислительный кластер, собранный для финансовых прогнозов. В представлении многих создание сильного алгоритма требует работы тысяч людей, но первую версию собирала относительно небольшая группа энтузиастов. Дело в том, что китайские инженеры сделали ставку не на раздувание корпоративного штата, а на предельную оптимизацию уже имеющегося кода. К слову, львиная доля успеха зависела именно от грамотного распределения скудных аппаратных мощностей в условиях жёстких санкционных ограничений на поставку чипов.

В чём секрет архитектуры?

Точный расчёт. Техническая изнанка не вызывает восторга у неподготовленного зрителя, пугая сухими формулами. Сложно ли обучить машину человеческой логике при дефиците памяти? Да, но результат того стоит. За основу создатели взяли изящную концепцию «смеси экспертов» (MoE — Mixture of Experts). Этот сложный математический подход позволяет активировать при ответе на запрос не всю огромную нейросеть, а лишь её крошечную специализированную часть. В итоге затраты на электричество не сильно ударят по кошельку создателей, да и сами вычисления происходят за считанные миллисекунды. А вот конкуренты из США долгое время предпочитали запускать целые фермы видеокарт ради генерации простого рецепта блинчиков. Тем более, что гибкая маршрутизация запросов внутри системы значительно снижает общую нагрузку на серверы.

Обучение

Разумеется, свеженаписанная программа глупа и абсолютно беспомощна. Процесс подготовки искусственного разума проходил строго последовательно. Сначала в недра серверов загрузили терабайты сырого текста на английском и китайском языках, собранного электронными пауками по всему интернету. Затем полученную неповоротливую информационную массу начали аккуратно шлифовать программисты, задавая сотни тысяч тестовых вопросов вручную. Третьим этапом выступило обучение с подкреплением на основе предпочтений человека, когда цифровой мозг наказывали за логические ошибки и поощряли за добротный связный ответ. Ну и, наконец, финальную полировку прошли способности к программированию, ради которых в систему влили колоссальный пласт профильной литературы с открытых хранилищ.

Открытый исходный код

Выбор стратегии определяет всё. Большинство западных техногигантов прячут свои наработки за семью печатями, продавая потребителям лишь платный доступ через интерфейс. Азиатские же разработчики пошли совершенно иным путём. Выложенная в свободный доступ тяжеловесная модель сразу приковала внимание мирового бомонда исследователей. Безусловно, такой широкий жест выглядит как щедрый подарок обществу. Это хитро. Ведь открытый код ежедневно тестируют миллионы независимых специалистов абсолютно бесплатно. Ошибки или логические дыры всплывут моментально. К тому же, увлечённые энтузиасты сами дописывают нужные программные модули, внося свою посильную лепту в развитие базовой архитектуры.

Вредно ли доверять машине?

Конечно, любая инновация имеет обе стороны медали, однако слепо верить цифровому оракулу точно не стоит. Главная ложка дёгтя в этой бочке технологического мёда — строгая азиатская цензура. Алгоритм, ограниченный жёсткими правилами (вшитыми на этапе финальной настройки), наотрез отказывается обсуждать многие острые политические темы. При попытке вывести собеседника на откровенный разговор вы просто натыкаетесь на вежливую стандартную заглушку. Тем более, локальная специфика сильно тяготеет к восточному менталитету, из-за чего ответы на западные культурные феномены могут казаться слегка вычурными. Не стоит забывать и про банальные галлюцинации, когда программа с уверенным экспертным тоном выдаёт откровенную чепуху за подлинный научный факт.

Экономика

Счета за свет. Обучение больших языковых моделей бьёт по бюджету даже самых состоятельных игроков рынка. Однако инженеры из Поднебесной умудрились сотворить настоящее чудо, потратив на тренировку флагманской версии всего около шести миллионов долларов. Для честного сравнения, аналогичные американские продукты сжигают сотни миллионов на одной только аренде облачных серверов. Вся суть в том, что авторы применили агрессивную оптимизацию памяти оборудования, заставив устаревающие графические процессоры работать далеко за пределами заводских лимитов. Само собой, подобные изощрённые махинации с «железом» требуют высочайшей инженерной квалификации. Но есть и минусы, ведь оборудование изнашивается невероятными темпами из-за постоянного перегрева.

Сможет ли новичок победить гигантов?

Нельзя не упомянуть тот очевидный факт, что настоящая конкуренция на рынке генеративных сетей только начинается. Исконно западная монополия дала очень серьёзную и глубокую трещину. Естественно, рядовой обыватель от этой жёсткой гонки корпоративных вооружений только выигрывает. Не стоит пугаться сложных технических терминов или непривычных интерфейсов на чужом языке, лучше сразу воспринимать эти новые инструменты как верных помощников. Если научиться скрупулёзно формулировать свои мысли в текстовом окне, эта колоритная восточная диковинка быстро раскроет свой истинный потенциал. Нужно отметить, что разработчики не планируют останавливаться на достигнутом результате, активно проектируя следующее поколение логических ядер.

Интеграция высоких технологий в нашу жизнь давно прошла точку невозврата. Освоение этих неочевидных цифровых горизонтов обязательно расширит ваши личные профессиональные возможности и сбережёт массу драгоценного времени. Знакомство с передовым открытым алгоритмом однозначно станет отличным решением для тех, кто не желает переплачивать за дорогие западные подписки. Удачи в продуктивном диалоге с искусственным интеллектом!