Логотип Кактус AIКактус
Методика
Программы
КейсыО нас
Диагностика

Один шлюз для всего AI компании

Маршрутизация моделей, RBAC с Active Directory, глубокая интеграция с базами знаний и корпоративными системами, кастомные AI-агенты и ассистенты под ваши процессы. Всё под одной политикой и 152-ФЗ.

Shared / Dedicated / On-prem. Оплата в рублях.

Обсудить развёртывание →Что делает платформа →

День первый — две команды с ChatGPT. Месяц четвёртый — десятки приложений, у каждого свой ключ, своя квота, своя дыра.

↓ Oper8 · gateway

Один шлюз для всего AI компании: модели, знания, агенты, доступ, аудит.

Платформа становится единой точкой контроля: модели и их маршрутизация, интеграция с корпоративными знаниями и системами, кастомные AI-агенты и ассистенты под процессы, доступ, расходы, соответствие. Сотрудники работают как раньше — IT и безопасность видят всё.

Доступ

ключи в Notion, Slack, .env

→ RBAC + Active Directory

Расходы

10+ счетов, валютные платежи

→ K-токен, лимиты, ₽

Утечки

PII улетает в публичные API

→ детектирование на входе

Знания

документы в 15+ системах

→ RAG с поиском по вашим данным

Агенты

ад-хок скрипты, которые никто не сопровождает

→ кастомные агенты и ассистенты под процессы

Рабочий интерфейс

Вот как это выглядит.

Единое окно для сотрудника: чат с моделью, командный контекст, кастомные агенты, база знаний, артефакты, история. K-токены — на месте счётчика сверху. Попробовать можно прямо сейчас.

Интерфейс Кактуса: чат, команды, кастомные агенты, база знаний
Попробовать на platform.kkts.ai →Стартовые K-токены — за регистрацию. Без карт и обязательств.

Шесть функций, ради которых ставят платформу.

Маршрутизация моделей, глубокая интеграция со знаниями и системами, кастомные агенты, доступ, фильтр данных, compliance — в одном месте, под одной политикой.

01

Маршрутизация моделей

«К какой модели уходит запрос?»

Единый API на 4 провайдера: OpenAI, Anthropic, Google и локальные модели на GPU в РФ (Qwen, GigaChat, LLaMA, Mistral). Платформа выбирает модель по задаче, стоимости и уровню конфиденциальности — конфиденциальные данные автоматически уходят на локальную модель.

  • Smart-роутинг по типу задачи
  • Автоматический fallback при недоступности
  • Логирование каждого вызова
02

Интеграция со знаниями и системами

«Откуда AI берёт контекст?»

RAG с поиском по вашим документам, базам знаний и внутренним системам: Confluence, Notion, Google Drive, Jira, 1С, CRM, файловые хранилища. Разграничение по правам доступа (документ-level ACL) — сотрудник видит в ответе только то, к чему у него есть права. Индексация инкрементальная, свежие данные подхватываются автоматически.

  • Готовые коннекторы к 15+ системам
  • Document-level ACL на поиске
  • Кастомные MCP-серверы под ваш стек
03

Кастомные агенты и ассистенты

«Кто автоматизирует процесс?»

Сборка AI-ассистентов под конкретные роли и процессы: ассистент юриста, финансовый аналитик, HR-скрининг, поддержка, onboarding. Агенты с доступом к корпоративным инструментам через Tool Calling / MCP — отвечают, ищут, заполняют формы, запускают операции в ваших системах. Версионирование, A/B, мониторинг качества.

  • Конструктор ассистентов без кода
  • Tool Calling + MCP для действий
  • Evals и мониторинг деградации
04

RBAC + Active Directory

«Кто к каким моделям имеет доступ?»

4-уровневая ролевая модель (superadmin → org_admin → group_admin → employee), 30+ гранулярных разрешений. Синхронизация групп с AD/LDAP в реальном времени: добавили в группу «Finance-AI» — доступ появился; вывели сотрудника — отозвали за минуты.

  • AD / LDAP / SAML / OAuth
  • Разные модели для разных ролей
  • Сквозное логирование (кто, что, когда)
05

Детектирование PII

«Что уходит во внешние модели?»

Платформа сканирует запрос до отправки в LLM. Обнаруживает паспорта, СНИЛС, телефоны, email, банковские реквизиты, API-ключи. Если найдено — запрос блокируется или маскируется по политике, пользователь видит, что именно было обнаружено, и переписывает.

  • Regex + ML-классификатор
  • Politики: блок / маска / предупреждение
  • Fail-closed: при сбое доступ блокируется
06

Соответствие 152-ФЗ

«Где живут ПДн и логи?»

Локализация ПДн в РФ — обязательное требование закона. On-prem или dedicated в аттестованных дата-центрах. Шифрование данных (Fernet) и трафика (TLS), JSONL audit log всех событий. Для международных стандартов — ISO 27001 / SOC 2 на уровне инфраструктурных партнёров.

  • ПДн не покидают контур
  • Шифрование at-rest и in-transit
  • Готовые отчёты для регулятора

Где живёт платформа — выбираете вы.

Один и тот же продукт, две модели поставки. Функции, политики и UX одинаковы — отличается контур, в котором лежат данные.

01

Shared / Dedicated SaaS

Берите, если: Быстрый старт, доверяете managed-облаку.

Платформа работает на нашей инфраструктуре в РФ. Изолированные tenant-пространства (Shared) или выделенный сервер под вашу компанию (Dedicated). Запросы маршрутизируются через шлюз → во внешние LLM или в локальные модели на наших GPU. Мы держим uptime, обновления, патчи безопасности.

Что получаете

  • Деплой за 2–3 недели
  • Не нужны свои GPU и SRE
  • Закрывающие документы в РФ

Учтите: Логи и метаданные хранятся у нас (зашифрованы, изолированы). Ваши API-ключи провайдеров — отдельным volume.

02

On-Premise / свои GPU

Берите, если: Регулируемые отрасли: банк, фарма, госсектор.

Платформа разворачивается в вашем периметре через Docker Compose (16 контейнеров, single-command deploy) или K8s. Запросы идут в локальные модели на ваших GPU; во внешние LLM — только если политика разрешает, через ваш egress. Air-gapped режим: работает без доступа в интернет.

Что получаете

  • ПДн не покидают периметр
  • Локальные модели (Qwen, GigaChat, LLaMA)
  • Air-gapped — без интернета

Учтите: Нужны GPU-сервера и DevOps на сопровождение. Первый деплой — ~40 часов вашей команды.

Когда нужна Platform — а когда нет.

Платформа решает задачу «AI стал дикий». Если он у вас ещё ручной — не тратьте бюджет, возьмите сначала пилот.

Не нужна, если

  • Команда меньше 50 человек, 1–2 приложения с AI — управляйте API-ключами напрямую, дешевле.

  • Хочется попробовать AI на одном процессе и понять, нужен ли он вообще — начните с диагностики.

  • Нужна только одна fine-tuned модель и больше ничего — отдельный inference-сервер проще.

Обязательна, если

  • 200+ сотрудников, 5+ команд работают с LLM одновременно.

  • Нужна видимость расходов на AI по командам и проектам.

  • Регулируемая отрасль (банк, фарма, госсектор) — обязательно 152-ФЗ и ПДн в РФ.

  • Используется mix моделей: внешние LLM + локальные на ваших GPU.

  • Шёпотом проходит «Shadow AI» — сотрудники сливают данные в публичные сервисы.

Четыре недели — от контракта до продакшена.

Параллельные потоки: пока мы настраиваем платформу и собираем первых кастомных агентов, ваша команда согласовывает доступы и политики. Около 60 часов работы вашей команды за весь цикл.

Неделя 1

Setup, маршрутизация и доступ

01

Мы: Развёртывание (Shared / Dedicated / On-prem), настройка API-ключей провайдеров, конфигурация Smart-роутинга. Подключение AD / LDAP, ролевая модель, матрица «группа → разрешённые модели».

Вы: Тестовый доступ для 5–10 пилотных пользователей, согласование с IT и безопасностью, маппинг групп AD.

Ваше время · 20 ч

Первые пользователи работают через Platform. Доступ управляется централизованно, логи и метрики в дашборде.

Неделя 2

Базы знаний и интеграции

02

Мы: Подключение корпоративных знаний: Confluence / Notion / Google Drive / файловые хранилища, индексация с учётом прав доступа. Коннекторы к внутренним системам (CRM, 1С, Jira) через готовые интеграции или кастомные MCP-серверы.

Вы: Выбор приоритетных источников, выгрузка тестовых данных, согласование document-level ACL.

Ваше время · 15 ч

AI отвечает на вопросы с опорой на ваши документы. Права доступа уважаются на поиске.

Неделя 3

Кастомные агенты и ассистенты

03

Мы: Сборка 1–2 ассистентов под приоритетные процессы (юрист / HR / поддержка — под ваш контекст). Подключение инструментов через Tool Calling + MCP, evals-first с тестовыми кейсами до запуска.

Вы: Формулировка задач, данные для eval-датасета, владелец процесса на ревью ответов.

Ваше время · 15 ч

Первый кастомный ассистент в пилоте. Eval-dataset собран, качество мониторится, ломается — видим.

Неделя 4

Безопасность, 152-ФЗ и запуск

04

Мы: Включение детектирования PII, настройка policy-движка (блок / маска / предупреждение), генерация compliance-отчёта по 152-ФЗ. Миграция пилотных приложений в продакшен, мониторинг.

Вы: Ревью отчётов с Legal / Risk, согласование политик с CISO, внутренние коммуникации, утверждение runbook'а.

Ваше время · 10 ч

Платформа в продакшене. Утечки PII блокируются на входе, аудит генерируется автоматически, governance работает без ручного труда.

Итог

4 недели · ~60 часов вашей команды · платформа с первыми кастомными агентами в проде.

Дальше — платформа работает автоматически. Governance не требует ручного труда, аудит генерируется ежемесячно.

60 минут — и у вас будет план запуска платформы.

Разберём текущий зоопарк AI-инструментов, требования безопасности и подберём вариант поставки. Без презентации — только ваш контекст.

01

Карта вашего AI-зоопарка: где ключи, где квоты, где утечки.

02

Рекомендация по варианту поставки: SaaS, Dedicated или On-prem под ваш контур.

03

Расчёт стоимости запуска и ориентировочный план на 8 недель.

Получить архитектурную консультацию →Telegram

Что обычно спрашивают.

01

Какие AI-модели поддерживает платформа?

Платформа работает с 4 провайдерами: OpenAI (GPT-4.1, o4-mini), Anthropic (Claude), Google (Gemini) и локальными моделями через vLLM/Ollama (Qwen, GigaChat, LLaMA, Mistral). Локальные модели работают на GPU-сервере в РФ — конфиденциальные данные не покидают периметр. Смарт-маршрутизация автоматически направляет запросы на оптимальную модель по задаче и уровню конфиденциальности.
02

Что если мы хотим использовать только локальные модели (например, Qwen или LLaMA)?

Платформа поддерживает любой LLM. В режиме «только локальные» вы берёте On-Premise вариант, разворачиваете модели на своих GPU, маршрутизируете 100% запросов внутрь периметра. Внешний интернет можно полностью отключить (air-gapped режим). RBAC, детектирование PII, аудит и compliance работают на том же уровне.
03

Что если у нас нет Active Directory?

Платформа поддерживает несколько провайдеров идентификации: Active Directory, LDAP, SAML 2.0, OAuth 2.0, локальные пользователи. Если AD нет — используем LDAP или SAML. Если корпоративной identity-системы нет вообще — заводим локальных пользователей с ручным маппингом на роли. Доступ всегда централизован через RBAC.
04

Как работает развёртывание на площадке клиента?

Три варианта: Shared (управляемое облако в РФ, быстрый старт), Dedicated (выделенный сервер под вашу компанию) и On-prem (ваша инфраструктура). On-prem полностью изолирован — данные не покидают контур, платформа работает без доступа в интернет (air-gapped режим). Развёртывание через Docker Compose — 16 контейнеров, single-command запуск; для крупных инсталляций — Kubernetes.
05

Какова задержка (latency) шлюза?

Накладные расходы платформы — менее 200 мс для p95. Это только маршрутизация, RBAC-проверка и детектирование PII. Сама задержка LLM (1–5 секунд в зависимости от модели) добавляется сверху и зависит от провайдера. Для критичных по latency сценариев платформу можно развернуть рядом с моделями (один регион / один контур).
06

Как контролируются расходы на AI?

K-токен экономика: каждый вызов модели списывает токены по настраиваемому курсу. Администратор устанавливает лимиты per пользователь, группа или организация. Дашборд расходов показывает детализацию по моделям, пользователям и периодам. Резервация перед вызовом — при ошибке средства возвращаются. Оплата платформы — в рублях, закрывающие документы РФ.
07

Можно ли подключить fine-tuned модель?

Да. Платформа умеет маршрутизировать как в внешние fine-tuned модели (OpenAI, Anthropic), так и в локальные fine-tuned (на ваших GPU). Сам fine-tuning — отдельная работа: либо вы делаете его сами на своих данных, либо мы помогаем как часть кастомизации. Стоимость и сроки рассчитываются индивидуально.
08

Как обеспечивается соответствие 152-ФЗ?

Локализация ПДн — на уровне инфраструктуры: On-prem или Dedicated в аттестованных дата-центрах в РФ. Шифрование данных at-rest (Fernet) и in-transit (TLS), JSONL audit log всех событий, готовые отчёты для регулятора. Для проектов, требующих международных стандартов (ISO 27001 / SOC 2), опираемся на сертификации инфраструктурных партнёров.
09

Как работает детектирование PII?

Платформа сканирует каждый запрос до отправки в LLM комбинацией regex + ML-классификатор. Обнаруживает паспорта, СНИЛС, банковские реквизиты, телефоны, email, IP-адреса, API-ключи. По политике запрос блокируется, маскируется или пропускается с предупреждением. Fail-closed: при сбое детектора доступ блокируется, не разрешается. Пользователь видит, что именно было обнаружено, и переписывает запрос.
10

Что такое MCP и зачем он нужен?

MCP (Model Context Protocol) — открытый стандарт для подключения инструментов к AI. На платформе 4 MCP-сервера: анализ Excel (24 инструмента), Python-песочница, парсинг документов (PDF, DOCX, PPTX), генерация презентаций. Новые инструменты подключаются без изменения кода платформы — достаточно добавить MCP-сервер и скилл.
11

Как работает база знаний (RAG)?

Загрузите документы (PDF, DOCX, PPTX, TXT, Markdown) — платформа автоматически разбивает их на фрагменты и индексирует. Embeddings создаются локально (данные не уходят во внешние сервисы). Сотрудники задают вопросы в чате и получают ответы с ссылками на источники. Document-level ACL: каждый видит только разрешённые документы.
12

Сколько стоит платформа?

Managed Server — 200 000–600 000 ₽/мес в зависимости от конфигурации и числа пользователей. K-токены — от 5 ₽ за единицу, актуальные курсы по моделям опубликованы отдельно. Интеграция — 5 000 ₽/час, кастомизация — 35 000 ₽/час. Все цены — в рублях, договор и закрывающие документы РФ.

Связанные материалы

Внедрение AI в компанию

Полный цикл: от стратегии до работающих решений за 3–6 месяцев.

Узнать больше

Кейсы клиентов

Как компании внедряют AI и достигают результатов.

Смотреть кейсы

Обучение команд

Практические воркшопы для руководителей и специалистов.

Программы обучения

Давайте
работать

Разберём вашу задачу, подберём формат и покажем, как AI может усилить ваши процессы.

Записаться на консультациюTelegram

50+

компаний прошли путь AI-трансформации с нами — от аудита до работающих решений.

Контакты

✉info@kkts.ai☎+7 (968) 433-85-25✈@k_scrumtrek
МетодикаДиагностикаОбучениеТрансформацияПлатформаКейсыО насБлогСобытия

© 2026 Кактус.AI — подразделение ScrumTrek

Политика конфиденциальности