Новости
2025-01-31

Уже не только DeepSeek, но и Alibaba: к чему ведет схватка в ИИ-технологиях

Константин Романов — о новом пути развития искусственного интеллекта

В истории развития больших языковых моделей можно выделить два переломных момента. Первый — это релиз ChatGPT от компании OpenAI в 2022 году, а второй мы наблюдаем прямо сейчас. На выход нового чат-бота от китайской компании DeepSeek отреагировали все главные технологические компании и даже политики. Акции американских техкомпаний обрушились на $1 трлн всего за один день, а капитализация Nvidia упала на рекордные $600 млрд. И несмотря на то, что однозначных подтверждений заявленной производительности модели со стороны экспертного сообщества еще нет, считаю, что прецедент DeepSeek может оказать значительное влияние не только на роли игроков на рынке, но и на сам подход к разработке моделей искусственного интеллекта.

Made in China по-новому

По заявлению китайской компании DeepSeek, на разработку новой модели она потратила менее $6 млн, что несопоставимо с затратами технологических гигантов.

DeepSeek R1 — это модель рассуждений, способная к самопроверке и отличающаяся способностью к решению сложных задач, требующих логических выводов. Подобная модель от компании OpenAI в свое время стала революцией, но, в отличие от нее, китайский аналог размещен в свободном доступе.

Рецепт успеха оказался довольно прост: • используем оптимизированную архитектуру, зарекомендовавшую себя на других проектах, а именно Mixture of Experts (MoE), которая ранее применялась в модели Mixtral компанией Mistral (МоЕ — метод машинного обучения, использует несколько специализированных моделей, называемых экспертами, для решения сложных задач. Вместо того чтобы полагаться на одну универсальную модель, MoE позволяет активировать только те эксперты, которые наиболее подходят для обработки конкретного входного сигнала); • генерируем большое количество синтетических данных, используя другие модели вместо привлечения дорогостоящей ручной разметки; • набираем ультраклассных программистов, которые не боятся писать код на низком уровне (assemblylike) на архитектуре PTX компании Nvidia вместо высокоуровневой CUDA; • заставляем инженеров думать над каждым доступным потоком исполнения и оптимизацией обмена данными в распределенной системе.

Как итог — существенное снижение расходов за счет множественной оптимизации.

Модель построена на архитектуре Multi-head Latent Attention (MLA), но именно реализация разработки на более низком уровне и оптимизация позволили использовать меньше вычислительных мощностей на каждый поиск или взаимодействие с системой.

Компания DeepSeek утверждает, что ее модель R1 уже превосходит OpenAI-o1-1217 на задачах, требующих рассуждений. Но, повторюсь, пока можно опираться только на позицию компании, модель еще не получила глубокой оценки от независимых организаций и общественности.