
Как установить и использовать локальные Large Language Models. Как выбрать подходящую модель, как повысить скорость и качество вашей работы с LLM.

Как установить и использовать локальные Large Language Models. Как выбрать подходящую модель, как повысить скорость и качество вашей работы с LLM.
Саммари митапа
Гайд по запуску больших языковых моделей (LLM) локально на компьютере. Спикер разбирает, как обойти блокировки OpenAI и сохранить приватность данных, используя локальные аналоги. Рассматриваются инструменты (LM Studio, Llamafile, Jan), требования к железу (почему Mac M1/M2 — топ) и принципы сжатия моделей (квантование) для работы на обычных ПК.
Спикер — продакт-менеджер с бэкграундом в мобильной разработке. Доклад посвящен проблеме доступа к ChatGPT из РФ (блокировки, сложности с оплатой) и рискам утечки конфиденциальных данных (OpenAI может использовать диалоги для обучения). Решение предлагается через запуск Open Source моделей локально.
Что сказали: Использование ChatGPT в корпоративной среде рискованно: ваши промпты (стратегии, код, данные) сохраняются и могут "утечь" в ответы другим пользователям. Плюс, доступ из РФ требует "танцев с бубном" (VPN, зарубежные карты). Почему это важно: Для бизнеса это риск потери интеллектуальной собственности. Для частного лица — неудобство использования. Как применить: Переходить на локальные модели для работы с чувствительными данными.
Что сказали:
Оригинальные модели весят много (7 млрд параметров × 4 байта ≈ 28 ГБ VRAM). Обычному пользователю это не запустить. Но есть квантование (сжатие) — уменьшение точности весов с 32/16 бит до 4-8 бит.
Почему это важно:
Модель практически не теряет в "уме", но начинает весить в разы меньше (например, 4 ГБ вместо 28 ГБ) и помещается в память обычного ноутбука.
Как применить:
Искать модели с пометкой GGUF или quantized (q4_k_m, q5_k_m) на HuggingFace.
Что сказали: На Windows нужна мощная видеокарта с большим объемом VRAM. На Mac (M1/M2/M3) используется Unified Memory (общая память для CPU и GPU). Если у вас Mac с 16+ ГБ RAM, вы можете запускать крутые модели без покупки дорогой видеокарты. Почему это важно: Это снижает порог входа. Не нужно собирать ферму, достаточно современного ультрабука от Apple. Как применить: Если выбираете ноутбук для работы с нейросетями — смотрите в сторону Mac с увеличенным объемом оперативки.
Что сказали: Не нужно быть программистом и мучиться с консолью. Есть готовые GUI-решения:
.exe / скрипт, который запускает и сервер, и чат-интерфейс.Что сказали:
Идея "закинуть PDF и поговорить с ним" локально (PrivateGPT) звучит круто, но на практике установка сложная, работает криво и требует танцев с бубном.
Почему это важно:
Не стоит ожидать User Experience уровня "загрузил и готово" от локальных Open Source решений для работы с документами прямо сейчас.
Как применить:
Использовать специализированные инструменты (например, AnythingLLM или встроенные функции в Jan, если заработают), но быть готовым к настройке.
llama.cpp и компилировать всё самому — сложно для новичка. Лучше брать готовые GUI-оболочки.Q4_K_M или Q5_K_M.«Если у вас есть секретные данные, то используя ChatGPT... ваши данные сохраняются в компании и используются дальше для дообучения».
«Начиная с Apple M1 всё довольно сильно упрощается... их оперативная память по сути выделяется под видео. Имея 16 ГБ, вы можете запускать крутые модели».
Локальные LLM совершили огромный скачок. Благодаря инструментам вроде LM Studio и оптимизации (квантованию), любой разработчик может запустить аналог GPT-3.5 у себя на ноутбуке за 5 минут. Это идеальный вариант для работы с чувствительными данными или при отсутствии стабильного доступа к зарубежным сервисам. Первый шаг — просто скачать LM Studio и попробовать.
Разберём вашу задачу, подберём формат и покажем, как AI может усилить ваши процессы.
50+
компаний прошли путь AI-трансформации с нами — от аудита до работающих решений.
© 2026 Кактус.AI — подразделение ScrumTrek