Как релиз DeepSeek-R1 повлиял на рынок
Релиз DeepSeek-R1 состоялся 20 января 2025 года. Уже спустя неделю акции ведущих технологических компаний, на примере NVIDIA, рухнули на 17,8% за один день. Причиной стал не сам факт релиза новой модели, а данные из отчета DeepSeek, которые раскрыли, что при использовании лишь 2048 чипов NVIDIA, создание DeepSeek обошлось компании всего в $5,5 миллионов (ChatGPT-4o от OpenAI — $100 миллионов).

Последствия этого прорыва глубоки. Потребность в энергоемкой инфраструктуре оказалась не такой срочной, как предполагалось ранее, что вызвало значительные изменения в отраслях, связанных с производством энергии, особенно в ядерной энергетике.
С учетом того, что ИИ больше не требует такого количества графических процессоров и не нуждается в огромных объемах электроэнергии, компании вроде Vistra и Constellation, которые рассчитывали на рост спроса на энергию из-за ИИ, теперь вынуждены пересматривать свои стратегии.
Общее влияние DeepSeek на 3 ключевых отрасли
Революционный эффект DeepSeek ощущается не только в сфере технологий и энергетики, но и в других отраслях. Вот как это может изменить ключевые сектора:
- Производство и цепочки поставок
Снижение потребности в графических процессорах и энергоемкой инфраструктуре может оказать существенное влияние на глобальные цепочки поставок. Отрасли, зависящие от масштабного производства технологических компонентов — такие как производство полупроводников и логистика — столкнутся с необходимостью адаптировать свои модели. Это открывает возможности для локализованного, маломасштабного производства, ориентированного на эффективность, а не на объемы. - Финансовые рынки и инвестиции
Инвесторы уже начали корректировать свои стратегии. Традиционные вложения в дорогостоящую инфраструктуру для ИИ уступают место более легким и энергоэффективным моделям. Венчурный капитал, вероятно, переключится на стартапы, которые фокусируются на эффективных решениях и прозрачности, а не на вычислительной мощности. - Образование и развитие кадров
С появлением более доступных и эффективных инструментов ИИ образовательные учреждения и программы подготовки специалистов должны будут адаптироваться. Акцент будет смещен с дорогостоящей инфраструктуры на развитие практических навыков работы с ИИ, что позволит большему числу людей войти в отрасль и активно участвовать в ее развитии.
Как развернуть DeepSeek-R1 локально
Существует ряд способов использовать DeepSeek. Самые простые — через веб-сайт и приложение. Однако не всегда удается пользоваться чат-ботом в период загруженности или технических работ — спрос на сервис большой, сервера могут не выдерживать поток пользователей.
Как быть? Развернуть DeepSeek локально. От юзера потребуется только мощная система и базовое представление о потребностях ИИ.
Разработчики DeepSeek предлагают аж шесть методов локального развертывания, включая достаточно сложные решения с использованием SGLang, LMDeploy, TRT-LLM и vLLM, которые требуют каких-никаких навыков элементарного программирования.
Гайд на два простых и удобных способа локального развертывания читайте в нашей статье: Китайская нейросеть DeepSeek: что это такое, как установить и использовать
Какие версии DeepSeek-R1 развертывают
В семейство моделей DeepSeek-R1 входят как сверхмощные версии для многогранных вычислений, так и облегчённые Distill-модели, оптимизированные под потребности пользователей с ограниченными ресурсами. Подробнее о них — далее.
DeepSeek-R1-Distill
DeepSeek-R1-Distill — это облегчённая версия базовой модели DeepSeek-R1, созданная с помощью дистилляции знаний. Этот процесс позволяет «сжать» полноразмерную нейросеть, сохраняя её ключевые функции, но значительно снижая потребление ресурсов.
«Distill» (от «distillation», дистилляция) — это метод оптимизации нейросетей, при котором большая, сложная модель используется для обучения более компактной версии. В результате получается модель с меньшим числом параметров, которая сохраняет значительную часть функциональности исходной, но требует меньше вычислительных ресурсов.
- Производительность сохраняется, но модель работает быстрее.
- Снижается нагрузка на железо, что делает модель более удобной для использования на мобильных устройствах и в облачных сервисах.
- Скорость отклика увеличивается, что важно для приложений в реальном времени, таких как чат-боты или поисковые алгоритмы
Эта модель не требует серверных мощностей, как полноразмерные модели, но сохраняет высокое качество ответов. Это делает её отличным выбором для приложений, где критичны скорость и доступность, при этом не теряя в интеллектуальных возможностях.
DeepSeek-Distill-Qwen
DeepSeek-R1-Distill-Qwen — это дистиллированная LLM, основанная на еще одной китайской модели Qwen 2.5 от Alibaba, в которой использован вывод от DeepSeek-R1. Модель была оптимизирована для улучшения производительности при меньших вычислительных затратах. Это означает, что она сохраняет многие возможности исходной модели, но работает быстрее и требует меньше ресурсов.
Модель используется в нескольких версиях с разным количеством параметров, которые позволяют выбирать подходящий вариант в зависимости от требований к производительности и вычислительным ресурсам. Вот основные версии:
- DeepSeek-R1-Distill-Qwen-1.5B: Модель с 1.5 миллиардами параметров, предназначенная для легких задач с меньшими вычислительными требованиями.
- DeepSeek-R1-Distill-Qwen-7B: Модель с 7 миллиардами параметров, подходящая для более сложных задач, но все еще требующая относительно малых вычислительных мощностей.
- DeepSeek-R1-Distill-Llama-8B: Версия с 8 миллиардами параметров, использующая оптимизацию для большего баланса между точностью и ресурсозатратностью.
- DeepSeek-R1-Distill-Qwen-14B: Модель с 14 миллиардами параметров, подходящая для более ресурсоемких задач, где требуется высокая производительность.
- DeepSeek-R1-Distill-Qwen-32B: Наиболее мощная версия с 32 миллиардами параметров, обеспечивающая наилучшую точность и производительность при больших вычислительных затратах.
DeepSeek-R1-Llamа
DeepSeek-R1-Distill-Llama-70B — это LLM, основанная на Llama-3.3-70B-Instruct от Meta AI*, которая, аналогично предыдущей, использует метод дистилляции и вывод через DeepSeek-R1.
* — признана экстремистской и террористической организацией в России.
Требования DeepSeek-R1
Версия модели, количество параметров и использование методов квантования напрямую влияют на требования к видеопамяти (VRAM). Далее мы рассмотрим потребности различных моделей DeepSeek-R1 и их требований к GPU.
Для полноразмерных моделей
Для полноразмерной версии модели, которая требует мощных вычислительных ресурсов, оптимальным вариантом являются системы с несколькими GPU, обладающими значительным объёмом видеопамяти, например, NVIDIA A100 80GB x16. Это обеспечит максимальную производительность при решении сложных задач.
Модель | Параметры (B) | Потребление VRAM (GB) | Рекомендуемая видеокарта |
---|---|---|---|
DeepSeek-R1-Zero | 671B | ~1 543 ГБ | Мульти-GPU (например, NVIDIA A100 80GB x16) |
DeepSeek-R1 | 671B | ~1 543 ГБ | Мульти-GPU (например, NVIDIA A100 80GB x16) |
DeepSeek-R1-Distill-Qwen-1.5B | 1.5B | ~3.9 ГБ | NVIDIA RTX 3060 12GB или выше |
DeepSeek-R1-Distill-Qwen-7B | 7B | ~18 ГБ | NVIDIA RTX 4090 24GB или выше |
DeepSeek-R1-Distill-Llama-8B | 8B | ~21 ГБ | NVIDIA RTX 4090 24GB или выше |
DeepSeek-R1-Distill-Qwen-14B | 14B | ~36 ГБ | Мульти-GPU (например, NVIDIA RTX 4090 x2) |
DeepSeek-R1-Distill-Qwen-32B | 32B | ~82 ГБ | Мульти-GPU (например, NVIDIA RTX 4090 x4) |
DeepSeek-R1-Distill-Llama-70B | 70B | ~181 ГБ | Мульти-GPU (например, NVIDIA A100 80GB x3) |
Для квантированных моделей
Квантированные модели требуют значительно меньше вычислительных ресурсов по сравнению с высокоточной версией, что делает их идеальными для работы в условиях ограниченных вычислительных мощностей.
Модель | Параметры (B) | Потребление VRAM (GB) (4-bit) | Рекомендуемая видеокарта |
---|---|---|---|
DeepSeek-R1-Zero | 671B | ~436 ГБ | Мульти-GPU (например, NVIDIA A100 80GB x6) |
DeepSeek-R1 | 671B | ~436 ГБ | Мульти-GPU (например, NVIDIA A100 80GB x6) |
DeepSeek-R1-Distill-Qwen-1.5B | 1.5B | ~1 ГБ | NVIDIA RTX 3050 8GB или выше |
DeepSeek-R1-Distill-Qwen-7B | 7B | ~4.5 ГБ | NVIDIA RTX 3060 12GB или выше |
DeepSeek-R1-Distill-Llama-8B | 8B | ~5 ГБ | NVIDIA RTX 3060 12GB или выше |
DeepSeek-R1-Distill-Qwen-14B | 14B | ~9 ГБ | NVIDIA RTX 4080 16GB или выше |
DeepSeek-R1-Distill-Qwen-32B | 32B | ~21 ГБ | NVIDIA RTX 4090 24GB или выше |
DeepSeek-R1-Distill-Llama-70B | 70B | ~46 ГБ | Мульти-GPU (например, NVIDIA RTX 4090 24GB x2) |
Квантование — это метод оптимизации нейросетей, позволяющий уменьшить размер и сложность моделей, снижая требования к вычислительным ресурсам. Оно достигается путём сокращения разрядности чисел (например, с 16 бит до 4 бит), что уменьшает объём памяти и ускоряет вычисления, не оказывая значительного влияния на производительность модели.

Возвращаясь к вопросу о выборе модели и версии в соответствии с количества её параметров, вот основные рекомендации:
Для мощных multi-GPU: Если у вас есть доступ к мульти-GPU-системам с большим объёмом видеопамяти (например, NVIDIA A100 80GB x16), можно использовать полноразмерную версию DeepSeek-R1 для достижения максимальной производительности.
Для смешанных нагрузок: Distill-модели подойдут для тестирования и небольших проектов, а полноразмерные версии стоит использовать для продакшн-задач, где требуется высокая точность.
При ограниченных ресурсах: Оптимальный выбор — Distill-модели 14B или 32B (4-bit). Они адаптированы для работы на одной видеокарте, обеспечивая хорошее соотношение производительности и требований к железу.
При очень слабых ресурсах: Версии 1.5-7B могут быть запущена даже на бюджетных GPU, но их точность оставляет желать лучшего. Однако она всё же может подойти для простых задач, например, классификации данных.
Рекомендации к настройке и использованию развернутой DeepSeek-R1
Разработчики рекомендуют придерживаться следующих настроек при использовании моделей серии DeepSeek-R1, включая тестирование производительности, для достижения ожидаемых результатов:
- Установить температуру генерации в пределах 0,5-0,7 (рекомендуется 0,6), чтобы избежать бесконечных повторений или несогласованных выводов.
- Не добавлять системные подсказки; все инструкции должны быть внутри запроса пользователя.
- Для математических задач рекомендуется в запросе указать следующее: «Пожалуйста, решите шаг за шагом и представьте окончательный ответ в \boxed{}».
- При оценке производительности модели рекомендуется проводить несколько тестов и усреднять результаты.
- Также было замечено, что модели серии DeepSeek-R1 склонны обходить процесс размышлений (например, выводя «<think>\n\n</think>») при ответах на определённые запросы, что может негативно сказаться на производительности модели. Чтобы гарантировать, что модель будет проводить полноценное рассуждение, рекомендуется начинать каждый её ответ с «<think>\n».
Температура в контексте использования моделей искусственного интеллекта (например, GPT или других языковых моделей) регулирует степень случайности в ответах модели. Если вы хотите изменить температуру в диапазоне от 0,5 до 0,7, это обычно делается через параметр, заданный в API или интерфейсе, через который вы работаете с моделью.
Вот как это можно сделать в различных контекстах:
API (например, OpenAI API): Если вы используете API, вы можете указать параметр
temperature
в запросе. Например, для Python с использованием библиотеки OpenAI это будет выглядеть так:Платформы с интерфейсом (например, через веб-интерфейс или интеграции): В некоторых платформах, использующих модели ИИ, может быть ползунок или поле, куда вы можете ввести нужное значение температуры. В таких случаях достаточно просто выбрать температуру от 0,5 до 0,7.
В настройках или конфигурациях программного обеспечения: Если вы используете инструмент с настройками, выберите параметр для изменения температуры и установите значение между 0,5 и 0,7, в зависимости от ваших потребностей. Чаще всего это можно сделать в разделе настроек генерации текста.
Что изменяет температура:
- Температура 0: Модель будет давать более точные и предсказуемые ответы, минимизируя случайность.
- Температура 1: Ответы будут более разнообразными, но может появиться больше ошибок и нелогичностей.
- Температура 0,5-0,7: Это баланс между точностью и креативностью. Обычно это значение позволяет моделям быть достаточно точными, при этом не становясь слишком предсказуемыми.
Заключение
DeepSeek-R1 быстро завоевала популярность благодаря высокой производительности и низким затратам на вычислительные ресурсы. Модель использует инновационную архитектуру Mixture-of-Experts, что позволяет эффективно обрабатывать запросы с минимальными затратами.
В зависимости от потребностей, пользователи могут выбирать различные версии модели — от мощных полноразмерных до облегчённых Distill-версий, которые экономят ресурсы, но сохраняют высокое качество. Это делает DeepSeek-R1 универсальным инструментом для разных задач и пользователей.
Гибкость модели и её доступность на различных устройствах делают её привлекательной для широкого круга пользователей, от исследователей до компаний, нуждающихся в эффективных решениях для ИИ.