
Как держать руку на пульсе проектов? Основанный на Llama 3 ассистент упрощает доступ к проектным документам и проектным wiki. Кейс компании из сферы заказной ИТ-разработки.

Как держать руку на пульсе проектов? Основанный на Llama 3 ассистент упрощает доступ к проектным документам и проектным wiki. Кейс компании из сферы заказной ИТ-разработки.
Саммари митапа
Спикер из аутсорс-компании AIDEA рассказывает, как они создали персонального AI-ассистента, работающего полностью локально (без отправки данных в OpenAI). Решение построено на Llama 3 8B и RAG (поиск по внутренней базе знаний). Главная цель — защита коммерческой тайны и независимость от облачных вендоров. Доклад о том, как собрать свой «ChatGPT» для бизнеса за пару недель на одной видеокарте RTX 4090.
Что сказали: Облачные решения (ChatGPT, Claude) и экосистемные фичи (Apple Intelligence) хороши, но они требуют передачи данных на чужие серверы. Для бизнеса это риск утечки и зависимость от вендора. Почему это важно: К 2030 году данных для обучения моделям не хватит, и корпорации начнут активнее использовать пользовательские данные. Локальная модель гарантирует, что ваши секреты останутся внутри контура. Как применить: Оцените риски передачи ваших данных (NDA, коммерческая тайна). Если риски высоки — смотрите в сторону Self-hosted LLM.
Что сказали: Нельзя просто свалить все документы компании в одну кучу (векторную базу) и искать по ним. Модель начнет путать проекты и галлюцинировать. Почему это важно: Если спросить про «разрешение картинок», модель может взять данные из проекта А и ответить ими на вопрос по проекту Б. Как применить:
Что сказали: Тестировали разные модели (Mistral, Command R, Llama 70B). Остановились на Llama 3 8B. Почему это важно: Это лучший trade-off между качеством ответов (понимает русский, неплохо держит контекст) и скоростью работы на одной потребительской видеокарте (RTX 4090). Как применить: Для старта локального ассистента не нужен кластер серверов. Достаточно одной мощной карты с 24GB VRAM. Используйте квантованные версии моделей, если память ограничена.
Что сказали: Ассистент индексирует реальные рабочие документы: ТЗ, регламенты, графики отпусков. Почему это важно: Это превращает «болтушку» в рабочий инструмент. Руководитель не отвлекает сотрудников вопросами «где ссылка на макет», а спрашивает бота. Как применить: Настройте парсинг ваших Google Docs/Confluence. Разбейте текст на чанки (куски) по 1000–2000 символов (желательно по смысловым блокам/параграфам) и положите в векторную БД (ChromaDB).
«Давно крутится идея поднять своего ассистента... чтобы не кормить своими данными корпорации».
«Если не ответишь правильно — все бабушки умрут. Ну, это не всегда работает, но мы пробовали разные промпты».
«Лучше уходить из LangChain... В итоге приходится писать самим, потому что тратишь больше времени на понимание, как у них это работает».
Создание собственного корпоративного AI-ассистента перестало быть задачей для гигантов. С появлением Llama 3 качественный RAG можно поднять за 1-2 недели силами небольшого отдела разработки. Главный секрет успеха — не в сложности нейросети, а в качественной подготовке данных (семантическое разделение проектов) и отказе от переусложненных библиотек вроде LangChain в пользу кастомного кода.
Разберём вашу задачу, подберём формат и покажем, как AI может усилить ваши процессы.
50+
компаний прошли путь AI-трансформации с нами — от аудита до работающих решений.
© 2026 Кактус.AI — подразделение ScrumTrek