Модель DeepSeek-R1: как развернуть локально, как пользоваться и какие требования. В чём отличие версий Zero, Distill, Qwen, Llama

Обозреваем новую китайскую LLM от DeepSeek. Какую версию модели выбрать и как её развернуть?

Выпущенная 20 января 2025 года, ИИ-модель DeepSeek-R1 быстро завоевала популярность благодаря высокой производительности и доступной цене. Она сопоставима с моделью OpenAI o1 и даже превосходит её по ряду характеристик.

Модель DeepSeek-R1: как развернуть локально, как пользоваться и какие требования. В чём отличие версий Zero, Distill, Qwen, Llama

С момента запуска DeepSeek уже успела занять первые места среди ИИ-чат-ботов в App Store и Google Play. Откуда столько шума? Что она из себя представляет? Как установить её себе на ПК? Давайте разбираться.

Модель DeepSeek-R1

DeepSeek-R1 — это мощная языковая модель с открытым исходным кодом, разработанная китайской компаний DeepSeek AI. Модель стремительно завоевывает популярность благодаря выдающимся когнитивным способностям, высокой скорости работы и демократичной ценовой политике.

Модель DeepSeek-R1: как развернуть локально, как пользоваться и какие требования. В чём отличие версий Zero, Distill, Qwen, Llama

DeepSeek-R1 имеет открытый исходный код. Репозиторий GitHub с кодом моделей распространяется под лицензией MIT. Модели серии DeepSeek-R1 поддерживают коммерческое использование, позволяют вносить изменения и создавать производные работы, включая, но не ограничиваясь, дистилляцией для обучения других моделей. Архитектура включает 671 миллиард параметров (671B) и поддерживает контекст длиной до 128,000 токенов — это больше, чем у GPT-4o. Такой объем позволяет боту эффективно анализировать сложные запросы, программный код и даже научные статьи.

Основа DeepSeek-R1 — инновационная архитектура Mixture-of-Experts (MoE), которая использует 671 миллиард параметров, но активирует лишь 37 миллиардов за раз. Такой подход позволяет значительно снизить затраты на вычисления, сохраняя при этом высокое качество генерации текстов.

С технической стороны DeepSeek-R1 основана на базовой модели DeepSeek-V3, которая была усовершенствована с помощью сочетания контролируемой тонкой настройки (SFT) на тщательно размеченных данных и обучения с подкреплением (RL).

В отличие от многих аналогов, использование приложений и веб-версий DeepSeek полностью бесплатное.

DeepSeek-R1-Zero

DeepSeek-R1-Zero — это языковая модель, разработанная компанией DeepSeek, которая представляет собой улучшенную версию модели DeepSeek-R1 с использованием метода обучения с подкреплением (reinforcement learning, RL), без участия человеческой разметки (SFT).

В отличие от других моделей, которые полагаются на обучение с использованием разметки от специалистов (SFT), R1-Zero использует исключительно обучение с подкреплением, что позволяет модели самостоятельно создавать внутренний язык для обработки задач в своей области. Это значительное улучшение, так как устраняет необходимость в ручной разметке и снижает затраты на обучение.

R1-Zero продемонстрировала отличные результаты в бенчмарках, таких как ARC-AGI-1, с показателями в 14%, что соответствует высокой точности для модели, работающей с минимальными вычислительными ресурсами. Важно отметить, что R1-Zero значительно опережает по эффективности модели, которые используют более традиционные подходы к обучению.

Модель также стала важной вехой для исследовательской сферы ИИ, так как она показывает, как можно разрабатывать системы с минимальными затратами и в то же время с высокой степенью адаптации и обобщения, что делает её потенциально важной для создания более надежных ИИ-агентов и систем, которые могут работать в различных областях без необходимости вмешательства человека.

Основные особенности DeepSeek-R1-Zero:

  • Без SFT: Отказ от использования разметки с участием специалистов.
  • Обучение с подкреплением (RL): Модель обучается самостоятельно, оптимизируя свои действия и результаты.
  • Высокая эффективность: Хорошие результаты при минимальных вычислительных затратах.
  • Гибкость и адаптивность: Способность создавать внутренний язык для решения задач в различных областях.

Как релиз DeepSeek-R1 повлиял на рынок

Релиз DeepSeek-R1 состоялся 20 января 2025 года. Уже спустя неделю акции ведущих технологических компаний, на примере NVIDIA, рухнули на 17,8% за один день. Причиной стал не сам факт релиза новой модели, а данные из отчета DeepSeek, которые раскрыли, что при использовании лишь 2048 чипов NVIDIA, создание DeepSeek обошлось компании всего в $5,5 миллионов (ChatGPT-4o от OpenAI — $100 миллионов).

Модель DeepSeek-R1: как развернуть локально, как пользоваться и какие требования. В чём отличие версий Zero, Distill, Qwen, Llama
Влияние отчета DeepSeek на IT-рынок. Зафиксировано падение стоимости акций на 7%-28%.

Последствия этого прорыва глубоки. Потребность в энергоемкой инфраструктуре оказалась не такой срочной, как предполагалось ранее, что вызвало значительные изменения в отраслях, связанных с производством энергии, особенно в ядерной энергетике.

С учетом того, что ИИ больше не требует такого количества графических процессоров и не нуждается в огромных объемах электроэнергии, компании вроде Vistra и Constellation, которые рассчитывали на рост спроса на энергию из-за ИИ, теперь вынуждены пересматривать свои стратегии.

Общее влияние DeepSeek на 3 ключевых отрасли

Революционный эффект DeepSeek ощущается не только в сфере технологий и энергетики, но и в других отраслях. Вот как это может изменить ключевые сектора:

  1. Производство и цепочки поставок
    Снижение потребности в графических процессорах и энергоемкой инфраструктуре может оказать существенное влияние на глобальные цепочки поставок. Отрасли, зависящие от масштабного производства технологических компонентов — такие как производство полупроводников и логистика — столкнутся с необходимостью адаптировать свои модели. Это открывает возможности для локализованного, маломасштабного производства, ориентированного на эффективность, а не на объемы.
  2. Финансовые рынки и инвестиции
    Инвесторы уже начали корректировать свои стратегии. Традиционные вложения в дорогостоящую инфраструктуру для ИИ уступают место более легким и энергоэффективным моделям. Венчурный капитал, вероятно, переключится на стартапы, которые фокусируются на эффективных решениях и прозрачности, а не на вычислительной мощности.
  3. Образование и развитие кадров
    С появлением более доступных и эффективных инструментов ИИ образовательные учреждения и программы подготовки специалистов должны будут адаптироваться. Акцент будет смещен с дорогостоящей инфраструктуры на развитие практических навыков работы с ИИ, что позволит большему числу людей войти в отрасль и активно участвовать в ее развитии.

Как развернуть DeepSeek-R1 локально

Существует ряд способов использовать DeepSeek. Самые простые — через веб-сайт и приложение. Однако не всегда удается пользоваться чат-ботом в период загруженности или технических работ — спрос на сервис большой, сервера могут не выдерживать поток пользователей.

Как быть? Развернуть DeepSeek локально. От юзера потребуется только мощная система и базовое представление о потребностях ИИ.

Разработчики DeepSeek предлагают аж шесть методов локального развертывания, включая достаточно сложные решения с использованием SGLang, LMDeploy, TRT-LLM и vLLM, которые требуют каких-никаких навыков элементарного программирования.

Гайд на два простых и удобных способа локального развертывания читайте в нашей статье: Китайская нейросеть DeepSeek: что это такое, как установить и использовать

Какие версии DeepSeek-R1 развертывают

В семейство моделей DeepSeek-R1 входят как сверхмощные версии для многогранных вычислений, так и облегчённые Distill-модели, оптимизированные под потребности пользователей с ограниченными ресурсами. Подробнее о них — далее.

DeepSeek-R1-Distill

DeepSeek-R1-Distill — это облегчённая версия базовой модели DeepSeek-R1, созданная с помощью дистилляции знаний. Этот процесс позволяет «сжать» полноразмерную нейросеть, сохраняя её ключевые функции, но значительно снижая потребление ресурсов.

«Distill» (от «distillation», дистилляция) — это метод оптимизации нейросетей, при котором большая, сложная модель используется для обучения более компактной версии. В результате получается модель с меньшим числом параметров, которая сохраняет значительную часть функциональности исходной, но требует меньше вычислительных ресурсов.

  • Производительность сохраняется, но модель работает быстрее.
  • Снижается нагрузка на железо, что делает модель более удобной для использования на мобильных устройствах и в облачных сервисах.
  • Скорость отклика увеличивается, что важно для приложений в реальном времени, таких как чат-боты или поисковые алгоритмы

Эта модель не требует серверных мощностей, как полноразмерные модели, но сохраняет высокое качество ответов. Это делает её отличным выбором для приложений, где критичны скорость и доступность, при этом не теряя в интеллектуальных возможностях.

DeepSeek-Distill-Qwen

DeepSeek-R1-Distill-Qwen — это дистиллированная LLM, основанная на еще одной китайской модели Qwen 2.5 от Alibaba, в которой использован вывод от DeepSeek-R1. Модель была оптимизирована для улучшения производительности при меньших вычислительных затратах. Это означает, что она сохраняет многие возможности исходной модели, но работает быстрее и требует меньше ресурсов.

Модель используется в нескольких версиях с разным количеством параметров, которые позволяют выбирать подходящий вариант в зависимости от требований к производительности и вычислительным ресурсам. Вот основные версии:

  • DeepSeek-R1-Distill-Qwen-1.5B: Модель с 1.5 миллиардами параметров, предназначенная для легких задач с меньшими вычислительными требованиями.
  • DeepSeek-R1-Distill-Qwen-7B: Модель с 7 миллиардами параметров, подходящая для более сложных задач, но все еще требующая относительно малых вычислительных мощностей.
  • DeepSeek-R1-Distill-Llama-8B: Версия с 8 миллиардами параметров, использующая оптимизацию для большего баланса между точностью и ресурсозатратностью.
  • DeepSeek-R1-Distill-Qwen-14B: Модель с 14 миллиардами параметров, подходящая для более ресурсоемких задач, где требуется высокая производительность.
  • DeepSeek-R1-Distill-Qwen-32B: Наиболее мощная версия с 32 миллиардами параметров, обеспечивающая наилучшую точность и производительность при больших вычислительных затратах.

DeepSeek-R1-Llamа

DeepSeek-R1-Distill-Llama-70B — это LLM, основанная на Llama-3.3-70B-Instruct от Meta AI*, которая, аналогично предыдущей, использует метод дистилляции и вывод через DeepSeek-R1.

* — признана экстремистской и террористической организацией в России.

Требования DeepSeek-R1

Версия модели, количество параметров и использование методов квантования напрямую влияют на требования к видеопамяти (VRAM). Далее мы рассмотрим потребности различных моделей DeepSeek-R1 и их требований к GPU.

Для полноразмерных моделей

Для полноразмерной версии модели, которая требует мощных вычислительных ресурсов, оптимальным вариантом являются системы с несколькими GPU, обладающими значительным объёмом видеопамяти, например, NVIDIA A100 80GB x16. Это обеспечит максимальную производительность при решении сложных задач.

МодельПараметры (B)Потребление VRAM (GB)Рекомендуемая видеокарта
DeepSeek-R1-Zero671B~1 543 ГБМульти-GPU (например, NVIDIA A100 80GB x16)
DeepSeek-R1671B~1 543 ГБМульти-GPU (например, NVIDIA A100 80GB x16)
DeepSeek-R1-Distill-Qwen-1.5B1.5B~3.9 ГБNVIDIA RTX 3060 12GB или выше
DeepSeek-R1-Distill-Qwen-7B7B~18 ГБNVIDIA RTX 4090 24GB или выше
DeepSeek-R1-Distill-Llama-8B8B~21 ГБNVIDIA RTX 4090 24GB или выше
DeepSeek-R1-Distill-Qwen-14B14B~36 ГБМульти-GPU (например, NVIDIA RTX 4090 x2)
DeepSeek-R1-Distill-Qwen-32B32B~82 ГБМульти-GPU (например, NVIDIA RTX 4090 x4)
DeepSeek-R1-Distill-Llama-70B70B~181 ГБМульти-GPU (например, NVIDIA A100 80GB x3)

Для квантированных моделей

Квантированные модели требуют значительно меньше вычислительных ресурсов по сравнению с высокоточной версией, что делает их идеальными для работы в условиях ограниченных вычислительных мощностей.

МодельПараметры (B)Потребление VRAM (GB) (4-bit)Рекомендуемая видеокарта
DeepSeek-R1-Zero671B~436 ГБМульти-GPU (например, NVIDIA A100 80GB x6)
DeepSeek-R1671B~436 ГБМульти-GPU (например, NVIDIA A100 80GB x6)
DeepSeek-R1-Distill-Qwen-1.5B1.5B~1 ГБNVIDIA RTX 3050 8GB или выше
DeepSeek-R1-Distill-Qwen-7B7B~4.5 ГБNVIDIA RTX 3060 12GB или выше
DeepSeek-R1-Distill-Llama-8B8B~5 ГБNVIDIA RTX 3060 12GB или выше
DeepSeek-R1-Distill-Qwen-14B14B~9 ГБNVIDIA RTX 4080 16GB или выше
DeepSeek-R1-Distill-Qwen-32B32B~21 ГБNVIDIA RTX 4090 24GB или выше
DeepSeek-R1-Distill-Llama-70B70B~46 ГБМульти-GPU (например, NVIDIA RTX 4090 24GB x2)

Квантование — это метод оптимизации нейросетей, позволяющий уменьшить размер и сложность моделей, снижая требования к вычислительным ресурсам. Оно достигается путём сокращения разрядности чисел (например, с 16 бит до 4 бит), что уменьшает объём памяти и ускоряет вычисления, не оказывая значительного влияния на производительность модели.

Модель DeepSeek-R1: как развернуть локально, как пользоваться и какие требования. В чём отличие версий Zero, Distill, Qwen, Llama
Сравнение квантированных и высокоточных представлений различных типов данных. Иллюстрация показывает, как квантизация снижает объём данных и потребность в вычислительных ресурсах при обработке разных типов информации. Источник: TensorOps.

Возвращаясь к вопросу о выборе модели и версии в соответствии с количества её параметров, вот основные рекомендации:

  • Для мощных multi-GPU: Если у вас есть доступ к мульти-GPU-системам с большим объёмом видеопамяти (например, NVIDIA A100 80GB x16), можно использовать полноразмерную версию DeepSeek-R1 для достижения максимальной производительности.

  • Для смешанных нагрузок: Distill-модели подойдут для тестирования и небольших проектов, а полноразмерные версии стоит использовать для продакшн-задач, где требуется высокая точность.

  • При ограниченных ресурсах: Оптимальный выбор — Distill-модели 14B или 32B (4-bit). Они адаптированы для работы на одной видеокарте, обеспечивая хорошее соотношение производительности и требований к железу.

  • При очень слабых ресурсах: Версии 1.5-7B могут быть запущена даже на бюджетных GPU, но их точность оставляет желать лучшего. Однако она всё же может подойти для простых задач, например, классификации данных.

Рекомендации к настройке и использованию развернутой DeepSeek-R1

Разработчики рекомендуют придерживаться следующих настроек при использовании моделей серии DeepSeek-R1, включая тестирование производительности, для достижения ожидаемых результатов:

  • Установить температуру генерации в пределах 0,5-0,7 (рекомендуется 0,6), чтобы избежать бесконечных повторений или несогласованных выводов.
  • Не добавлять системные подсказки; все инструкции должны быть внутри запроса пользователя.
  • Для математических задач рекомендуется в запросе указать следующее: «Пожалуйста, решите шаг за шагом и представьте окончательный ответ в \boxed{}».
  • При оценке производительности модели рекомендуется проводить несколько тестов и усреднять результаты.
  • Также было замечено, что модели серии DeepSeek-R1 склонны обходить процесс размышлений (например, выводя «<think>\n\n</think>») при ответах на определённые запросы, что может негативно сказаться на производительности модели. Чтобы гарантировать, что модель будет проводить полноценное рассуждение, рекомендуется начинать каждый её ответ с «<think>\n».

Температура в контексте использования моделей искусственного интеллекта (например, GPT или других языковых моделей) регулирует степень случайности в ответах модели. Если вы хотите изменить температуру в диапазоне от 0,5 до 0,7, это обычно делается через параметр, заданный в API или интерфейсе, через который вы работаете с моделью.

Вот как это можно сделать в различных контекстах:

  1. API (например, OpenAI API): Если вы используете API, вы можете указать параметр temperature в запросе. Например, для Python с использованием библиотеки OpenAI это будет выглядеть так:

    import openai

    openai.Completion.create(
    engine=«text-davinci-003»,
    prompt=«Как ты себя чувствуешь?»,
    temperature=0.6, # Устанавливаем температуру
    max_tokens=100
    )

  2. Платформы с интерфейсом (например, через веб-интерфейс или интеграции): В некоторых платформах, использующих модели ИИ, может быть ползунок или поле, куда вы можете ввести нужное значение температуры. В таких случаях достаточно просто выбрать температуру от 0,5 до 0,7.

  3. В настройках или конфигурациях программного обеспечения: Если вы используете инструмент с настройками, выберите параметр для изменения температуры и установите значение между 0,5 и 0,7, в зависимости от ваших потребностей. Чаще всего это можно сделать в разделе настроек генерации текста.

Что изменяет температура:

  • Температура 0: Модель будет давать более точные и предсказуемые ответы, минимизируя случайность.
  • Температура 1: Ответы будут более разнообразными, но может появиться больше ошибок и нелогичностей.
  • Температура 0,5-0,7: Это баланс между точностью и креативностью. Обычно это значение позволяет моделям быть достаточно точными, при этом не становясь слишком предсказуемыми.

Заключение

DeepSeek-R1 быстро завоевала популярность благодаря высокой производительности и низким затратам на вычислительные ресурсы. Модель использует инновационную архитектуру Mixture-of-Experts, что позволяет эффективно обрабатывать запросы с минимальными затратами.

В зависимости от потребностей, пользователи могут выбирать различные версии модели — от мощных полноразмерных до облегчённых Distill-версий, которые экономят ресурсы, но сохраняют высокое качество. Это делает DeepSeek-R1 универсальным инструментом для разных задач и пользователей.

Гибкость модели и её доступность на различных устройствах делают её привлекательной для широкого круга пользователей, от исследователей до компаний, нуждающихся в эффективных решениях для ИИ.

Оцените статью
( Пока оценок нет )
Поделиться с друзьями
IaaS SaaS PaaS
Добавить комментарий