Один шлюз для всего AI компании

Маршрутизация моделей, RBAC с Active Directory, глубокая интеграция с базами знаний и корпоративными системами, кастомные AI-агенты и ассистенты под ваши процессы. Всё под одной политикой и 152-ФЗ.

Shared / Dedicated / On-prem. Оплата в рублях.

Обсудить развёртывание →Что делает платформа →

День первый — две команды с ChatGPT. Месяц четвёртый — десятки приложений, у каждого свой ключ, своя квота, своя дыра.

↓ Oper8 · gateway

Один шлюз для всего AI компании: модели, знания, агенты, доступ, аудит.

Платформа становится единой точкой контроля: модели и их маршрутизация, интеграция с корпоративными знаниями и системами, кастомные AI-агенты и ассистенты под процессы, доступ, расходы, соответствие. Сотрудники работают как раньше — IT и безопасность видят всё.

Доступ

ключи в Notion, Slack, .env

→ RBAC + Active Directory

Расходы

10+ счетов, валютные платежи

→ K-токен, лимиты, ₽

Утечки

PII улетает в публичные API

→ детектирование на входе

Знания

документы в 15+ системах

→ RAG с поиском по вашим данным

Агенты

ад-хок скрипты, которые никто не сопровождает

→ кастомные агенты и ассистенты под процессы

Рабочий интерфейс

Вот как это выглядит.

Единое окно для сотрудника: чат с моделью, командный контекст, кастомные агенты, база знаний, артефакты, история. K-токены — на месте счётчика сверху. Попробовать можно прямо сейчас.

Интерфейс Кактуса: чат, команды, кастомные агенты, база знаний

Попробовать на platform.kkts.ai →Стартовые K-токены — за регистрацию. Без карт и обязательств.

Шесть функций, ради которых ставят платформу.

Маршрутизация моделей, глубокая интеграция со знаниями и системами, кастомные агенты, доступ, фильтр данных, compliance — в одном месте, под одной политикой.

Маршрутизация моделей

«К какой модели уходит запрос?»

Единый API на 4 провайдера: OpenAI, Anthropic, Google и локальные модели на GPU в РФ (Qwen, GigaChat, LLaMA, Mistral). Платформа выбирает модель по задаче, стоимости и уровню конфиденциальности — конфиденциальные данные автоматически уходят на локальную модель.

Smart-роутинг по типу задачи
Автоматический fallback при недоступности
Логирование каждого вызова

Интеграция со знаниями и системами

«Откуда AI берёт контекст?»

RAG с поиском по вашим документам, базам знаний и внутренним системам: Confluence, Notion, Google Drive, Jira, 1С, CRM, файловые хранилища. Разграничение по правам доступа (документ-level ACL) — сотрудник видит в ответе только то, к чему у него есть права. Индексация инкрементальная, свежие данные подхватываются автоматически.

Готовые коннекторы к 15+ системам
Document-level ACL на поиске
Кастомные MCP-серверы под ваш стек

Кастомные агенты и ассистенты

«Кто автоматизирует процесс?»

Сборка AI-ассистентов под конкретные роли и процессы: ассистент юриста, финансовый аналитик, HR-скрининг, поддержка, onboarding. Агенты с доступом к корпоративным инструментам через Tool Calling / MCP — отвечают, ищут, заполняют формы, запускают операции в ваших системах. Версионирование, A/B, мониторинг качества.

Конструктор ассистентов без кода
Tool Calling + MCP для действий
Evals и мониторинг деградации

RBAC + Active Directory

«Кто к каким моделям имеет доступ?»

4-уровневая ролевая модель (superadmin → org_admin → group_admin → employee), 30+ гранулярных разрешений. Синхронизация групп с AD/LDAP в реальном времени: добавили в группу «Finance-AI» — доступ появился; вывели сотрудника — отозвали за минуты.

AD / LDAP / SAML / OAuth
Разные модели для разных ролей
Сквозное логирование (кто, что, когда)

Детектирование PII

«Что уходит во внешние модели?»

Платформа сканирует запрос до отправки в LLM. Обнаруживает паспорта, СНИЛС, телефоны, email, банковские реквизиты, API-ключи. Если найдено — запрос блокируется или маскируется по политике, пользователь видит, что именно было обнаружено, и переписывает.

Regex + ML-классификатор
Politики: блок / маска / предупреждение
Fail-closed: при сбое доступ блокируется

Соответствие 152-ФЗ

«Где живут ПДн и логи?»

Локализация ПДн в РФ — обязательное требование закона. On-prem или dedicated в аттестованных дата-центрах. Шифрование данных (Fernet) и трафика (TLS), JSONL audit log всех событий. Для международных стандартов — ISO 27001 / SOC 2 на уровне инфраструктурных партнёров.

ПДн не покидают контур
Шифрование at-rest и in-transit
Готовые отчёты для регулятора

Где живёт платформа — выбираете вы.

Один и тот же продукт, две модели поставки. Функции, политики и UX одинаковы — отличается контур, в котором лежат данные.

Shared / Dedicated SaaS

Берите, если: Быстрый старт, доверяете managed-облаку.

Платформа работает на нашей инфраструктуре в РФ. Изолированные tenant-пространства (Shared) или выделенный сервер под вашу компанию (Dedicated). Запросы маршрутизируются через шлюз → во внешние LLM или в локальные модели на наших GPU. Мы держим uptime, обновления, патчи безопасности.

Что получаете

Деплой за 2–3 недели
Не нужны свои GPU и SRE
Закрывающие документы в РФ

Учтите: Логи и метаданные хранятся у нас (зашифрованы, изолированы). Ваши API-ключи провайдеров — отдельным volume.

On-Premise / свои GPU

Берите, если: Регулируемые отрасли: банк, фарма, госсектор.

Платформа разворачивается в вашем периметре через Docker Compose (16 контейнеров, single-command deploy) или K8s. Запросы идут в локальные модели на ваших GPU; во внешние LLM — только если политика разрешает, через ваш egress. Air-gapped режим: работает без доступа в интернет.

Что получаете

ПДн не покидают периметр
Локальные модели (Qwen, GigaChat, LLaMA)
Air-gapped — без интернета

Учтите: Нужны GPU-сервера и DevOps на сопровождение. Первый деплой — ~40 часов вашей команды.

Когда нужна Platform — а когда нет.

Платформа решает задачу «AI стал дикий». Если он у вас ещё ручной — не тратьте бюджет, возьмите сначала пилот.

Не нужна, если

Команда меньше 50 человек, 1–2 приложения с AI — управляйте API-ключами напрямую, дешевле.
Хочется попробовать AI на одном процессе и понять, нужен ли он вообще — начните с диагностики.
Нужна только одна fine-tuned модель и больше ничего — отдельный inference-сервер проще.

Обязательна, если

200+ сотрудников, 5+ команд работают с LLM одновременно.
Нужна видимость расходов на AI по командам и проектам.
Регулируемая отрасль (банк, фарма, госсектор) — обязательно 152-ФЗ и ПДн в РФ.
Используется mix моделей: внешние LLM + локальные на ваших GPU.
Шёпотом проходит «Shadow AI» — сотрудники сливают данные в публичные сервисы.

Четыре недели — от контракта до продакшена.

Параллельные потоки: пока мы настраиваем платформу и собираем первых кастомных агентов, ваша команда согласовывает доступы и политики. Около 60 часов работы вашей команды за весь цикл.

Неделя 1

Setup, маршрутизация и доступ

Мы: Развёртывание (Shared / Dedicated / On-prem), настройка API-ключей провайдеров, конфигурация Smart-роутинга. Подключение AD / LDAP, ролевая модель, матрица «группа → разрешённые модели».

Вы: Тестовый доступ для 5–10 пилотных пользователей, согласование с IT и безопасностью, маппинг групп AD.

Ваше время · 20 ч

Первые пользователи работают через Platform. Доступ управляется централизованно, логи и метрики в дашборде.

Неделя 2

Базы знаний и интеграции

Мы: Подключение корпоративных знаний: Confluence / Notion / Google Drive / файловые хранилища, индексация с учётом прав доступа. Коннекторы к внутренним системам (CRM, 1С, Jira) через готовые интеграции или кастомные MCP-серверы.

Вы: Выбор приоритетных источников, выгрузка тестовых данных, согласование document-level ACL.

Ваше время · 15 ч

AI отвечает на вопросы с опорой на ваши документы. Права доступа уважаются на поиске.

Неделя 3

Кастомные агенты и ассистенты

Мы: Сборка 1–2 ассистентов под приоритетные процессы (юрист / HR / поддержка — под ваш контекст). Подключение инструментов через Tool Calling + MCP, evals-first с тестовыми кейсами до запуска.

Вы: Формулировка задач, данные для eval-датасета, владелец процесса на ревью ответов.

Ваше время · 15 ч

Первый кастомный ассистент в пилоте. Eval-dataset собран, качество мониторится, ломается — видим.

Неделя 4

Безопасность, 152-ФЗ и запуск

Мы: Включение детектирования PII, настройка policy-движка (блок / маска / предупреждение), генерация compliance-отчёта по 152-ФЗ. Миграция пилотных приложений в продакшен, мониторинг.

Вы: Ревью отчётов с Legal / Risk, согласование политик с CISO, внутренние коммуникации, утверждение runbook'а.

Ваше время · 10 ч

Платформа в продакшене. Утечки PII блокируются на входе, аудит генерируется автоматически, governance работает без ручного труда.

Итог

4 недели · ~60 часов вашей команды · платформа с первыми кастомными агентами в проде.

Дальше — платформа работает автоматически. Governance не требует ручного труда, аудит генерируется ежемесячно.

60 минут — и у вас будет план запуска платформы.

Разберём текущий зоопарк AI-инструментов, требования безопасности и подберём вариант поставки. Без презентации — только ваш контекст.

Карта вашего AI-зоопарка: где ключи, где квоты, где утечки.

Рекомендация по варианту поставки: SaaS, Dedicated или On-prem под ваш контур.

Расчёт стоимости запуска и ориентировочный план на 8 недель.

Получить архитектурную консультацию →Telegram

Что обычно спрашивают.

Какие AI-модели поддерживает платформа?

Платформа работает с 4 провайдерами: OpenAI (GPT-4.1, o4-mini), Anthropic (Claude), Google (Gemini) и локальными моделями через vLLM/Ollama (Qwen, GigaChat, LLaMA, Mistral). Локальные модели работают на GPU-сервере в РФ — конфиденциальные данные не покидают периметр. Смарт-маршрутизация автоматически направляет запросы на оптимальную модель по задаче и уровню конфиденциальности.

Что если мы хотим использовать только локальные модели (например, Qwen или LLaMA)?

Платформа поддерживает любой LLM. В режиме «только локальные» вы берёте On-Premise вариант, разворачиваете модели на своих GPU, маршрутизируете 100% запросов внутрь периметра. Внешний интернет можно полностью отключить (air-gapped режим). RBAC, детектирование PII, аудит и compliance работают на том же уровне.

Что если у нас нет Active Directory?

Платформа поддерживает несколько провайдеров идентификации: Active Directory, LDAP, SAML 2.0, OAuth 2.0, локальные пользователи. Если AD нет — используем LDAP или SAML. Если корпоративной identity-системы нет вообще — заводим локальных пользователей с ручным маппингом на роли. Доступ всегда централизован через RBAC.

Как работает развёртывание на площадке клиента?

Три варианта: Shared (управляемое облако в РФ, быстрый старт), Dedicated (выделенный сервер под вашу компанию) и On-prem (ваша инфраструктура). On-prem полностью изолирован — данные не покидают контур, платформа работает без доступа в интернет (air-gapped режим). Развёртывание через Docker Compose — 16 контейнеров, single-command запуск; для крупных инсталляций — Kubernetes.

Какова задержка (latency) шлюза?

Накладные расходы платформы — менее 200 мс для p95. Это только маршрутизация, RBAC-проверка и детектирование PII. Сама задержка LLM (1–5 секунд в зависимости от модели) добавляется сверху и зависит от провайдера. Для критичных по latency сценариев платформу можно развернуть рядом с моделями (один регион / один контур).

Как контролируются расходы на AI?

K-токен экономика: каждый вызов модели списывает токены по настраиваемому курсу. Администратор устанавливает лимиты per пользователь, группа или организация. Дашборд расходов показывает детализацию по моделям, пользователям и периодам. Резервация перед вызовом — при ошибке средства возвращаются. Оплата платформы — в рублях, закрывающие документы РФ.

Можно ли подключить fine-tuned модель?

Да. Платформа умеет маршрутизировать как в внешние fine-tuned модели (OpenAI, Anthropic), так и в локальные fine-tuned (на ваших GPU). Сам fine-tuning — отдельная работа: либо вы делаете его сами на своих данных, либо мы помогаем как часть кастомизации. Стоимость и сроки рассчитываются индивидуально.

Как обеспечивается соответствие 152-ФЗ?

Локализация ПДн — на уровне инфраструктуры: On-prem или Dedicated в аттестованных дата-центрах в РФ. Шифрование данных at-rest (Fernet) и in-transit (TLS), JSONL audit log всех событий, готовые отчёты для регулятора. Для проектов, требующих международных стандартов (ISO 27001 / SOC 2), опираемся на сертификации инфраструктурных партнёров.

Как работает детектирование PII?

Платформа сканирует каждый запрос до отправки в LLM комбинацией regex + ML-классификатор. Обнаруживает паспорта, СНИЛС, банковские реквизиты, телефоны, email, IP-адреса, API-ключи. По политике запрос блокируется, маскируется или пропускается с предупреждением. Fail-closed: при сбое детектора доступ блокируется, не разрешается. Пользователь видит, что именно было обнаружено, и переписывает запрос.

Что такое MCP и зачем он нужен?

MCP (Model Context Protocol) — открытый стандарт для подключения инструментов к AI. На платформе 4 MCP-сервера: анализ Excel (24 инструмента), Python-песочница, парсинг документов (PDF, DOCX, PPTX), генерация презентаций. Новые инструменты подключаются без изменения кода платформы — достаточно добавить MCP-сервер и скилл.

Как работает база знаний (RAG)?

Загрузите документы (PDF, DOCX, PPTX, TXT, Markdown) — платформа автоматически разбивает их на фрагменты и индексирует. Embeddings создаются локально (данные не уходят во внешние сервисы). Сотрудники задают вопросы в чате и получают ответы с ссылками на источники. Document-level ACL: каждый видит только разрешённые документы.

Сколько стоит платформа?

Managed Server — 200 000–600 000 ₽/мес в зависимости от конфигурации и числа пользователей. K-токены — от 5 ₽ за единицу, актуальные курсы по моделям опубликованы отдельно. Интеграция — 5 000 ₽/час, кастомизация — 35 000 ₽/час. Все цены — в рублях, договор и закрывающие документы РФ.

Связанные материалы

Внедрение AI в компанию

Полный цикл: от стратегии до работающих решений за 3–6 месяцев.

Узнать больше

Кейсы клиентов

Как компании внедряют AI и достигают результатов.

Смотреть кейсы

Обучение команд

Практические воркшопы для руководителей и специалистов.

Программы обучения

Один шлюз для всего AI компании

Shared / Dedicated / On-prem. Оплата в рублях.

Обсудить развёртывание →Что делает платформа →

↓ Oper8 · gateway

Один шлюз для всего AI компании: модели, знания, агенты, доступ, аудит.

Доступ

ключи в Notion, Slack, .env

→ RBAC + Active Directory

Расходы

10+ счетов, валютные платежи

→ K-токен, лимиты, ₽

Утечки

PII улетает в публичные API

→ детектирование на входе

Знания

документы в 15+ системах

→ RAG с поиском по вашим данным

Агенты

ад-хок скрипты, которые никто не сопровождает

→ кастомные агенты и ассистенты под процессы

Рабочий интерфейс

Вот как это выглядит.

Попробовать на platform.kkts.ai →Стартовые K-токены — за регистрацию. Без карт и обязательств.

Шесть функций, ради которых ставят платформу.

Маршрутизация моделей

«К какой модели уходит запрос?»

Smart-роутинг по типу задачи
Автоматический fallback при недоступности
Логирование каждого вызова

Интеграция со знаниями и системами

«Откуда AI берёт контекст?»

Готовые коннекторы к 15+ системам
Document-level ACL на поиске
Кастомные MCP-серверы под ваш стек

Кастомные агенты и ассистенты

«Кто автоматизирует процесс?»

Конструктор ассистентов без кода
Tool Calling + MCP для действий
Evals и мониторинг деградации

RBAC + Active Directory

«Кто к каким моделям имеет доступ?»

AD / LDAP / SAML / OAuth
Разные модели для разных ролей
Сквозное логирование (кто, что, когда)

Детектирование PII

«Что уходит во внешние модели?»

Regex + ML-классификатор
Politики: блок / маска / предупреждение
Fail-closed: при сбое доступ блокируется

Соответствие 152-ФЗ

«Где живут ПДн и логи?»

ПДн не покидают контур
Шифрование at-rest и in-transit
Готовые отчёты для регулятора

Где живёт платформа — выбираете вы.

Shared / Dedicated SaaS

Берите, если: Быстрый старт, доверяете managed-облаку.

Что получаете

Деплой за 2–3 недели
Не нужны свои GPU и SRE
Закрывающие документы в РФ

On-Premise / свои GPU

Берите, если: Регулируемые отрасли: банк, фарма, госсектор.

Что получаете

ПДн не покидают периметр
Локальные модели (Qwen, GigaChat, LLaMA)
Air-gapped — без интернета

Учтите: Нужны GPU-сервера и DevOps на сопровождение. Первый деплой — ~40 часов вашей команды.

Когда нужна Platform — а когда нет.

Платформа решает задачу «AI стал дикий». Если он у вас ещё ручной — не тратьте бюджет, возьмите сначала пилот.

Не нужна, если

Команда меньше 50 человек, 1–2 приложения с AI — управляйте API-ключами напрямую, дешевле.
Хочется попробовать AI на одном процессе и понять, нужен ли он вообще — начните с диагностики.
Нужна только одна fine-tuned модель и больше ничего — отдельный inference-сервер проще.

Обязательна, если

200+ сотрудников, 5+ команд работают с LLM одновременно.
Нужна видимость расходов на AI по командам и проектам.
Регулируемая отрасль (банк, фарма, госсектор) — обязательно 152-ФЗ и ПДн в РФ.
Используется mix моделей: внешние LLM + локальные на ваших GPU.
Шёпотом проходит «Shadow AI» — сотрудники сливают данные в публичные сервисы.

Четыре недели — от контракта до продакшена.

Неделя 1

Setup, маршрутизация и доступ

Вы: Тестовый доступ для 5–10 пилотных пользователей, согласование с IT и безопасностью, маппинг групп AD.

Ваше время · 20 ч

Первые пользователи работают через Platform. Доступ управляется централизованно, логи и метрики в дашборде.

Неделя 2

Базы знаний и интеграции

Вы: Выбор приоритетных источников, выгрузка тестовых данных, согласование document-level ACL.

Ваше время · 15 ч

AI отвечает на вопросы с опорой на ваши документы. Права доступа уважаются на поиске.

Неделя 3

Кастомные агенты и ассистенты

Вы: Формулировка задач, данные для eval-датасета, владелец процесса на ревью ответов.

Ваше время · 15 ч

Первый кастомный ассистент в пилоте. Eval-dataset собран, качество мониторится, ломается — видим.

Неделя 4

Безопасность, 152-ФЗ и запуск

Вы: Ревью отчётов с Legal / Risk, согласование политик с CISO, внутренние коммуникации, утверждение runbook'а.

Ваше время · 10 ч

Итог

4 недели · ~60 часов вашей команды · платформа с первыми кастомными агентами в проде.

Дальше — платформа работает автоматически. Governance не требует ручного труда, аудит генерируется ежемесячно.

60 минут — и у вас будет план запуска платформы.

Карта вашего AI-зоопарка: где ключи, где квоты, где утечки.

Рекомендация по варианту поставки: SaaS, Dedicated или On-prem под ваш контур.

Расчёт стоимости запуска и ориентировочный план на 8 недель.

Получить архитектурную консультацию →Telegram

Один шлюз для всего AI компании

Один шлюз для всего AI компании: модели, знания, агенты, доступ, аудит.

Вот как это выглядит.

Шесть функций, ради которых ставят платформу.

Маршрутизация моделей

Интеграция со знаниями и системами

Кастомные агенты и ассистенты

RBAC + Active Directory

Детектирование PII

Соответствие 152-ФЗ

Где живёт платформа — выбираете вы.

Shared / Dedicated SaaS

On-Premise / свои GPU

Когда нужна Platform — а когда нет.

Четыре недели — от контракта до продакшена.

Setup, маршрутизация и доступ

Базы знаний и интеграции

Кастомные агенты и ассистенты

Безопасность, 152-ФЗ и запуск

60 минут — и у вас будет план запуска платформы.

Что обычно спрашивают.

Какие AI-модели поддерживает платформа?

Что если мы хотим использовать только локальные модели (например, Qwen или LLaMA)?

Что если у нас нет Active Directory?

Как работает развёртывание на площадке клиента?

Какова задержка (latency) шлюза?

Как контролируются расходы на AI?

Можно ли подключить fine-tuned модель?

Как обеспечивается соответствие 152-ФЗ?

Как работает детектирование PII?

Что такое MCP и зачем он нужен?

Как работает база знаний (RAG)?

Сколько стоит платформа?

Связанные материалы

Внедрение AI в компанию

Кейсы клиентов

Обучение команд

Давайтеработать

Один шлюз для всего AI компании

Один шлюз для всего AI компании: модели, знания, агенты, доступ, аудит.

Вот как это выглядит.

Шесть функций, ради которых ставят платформу.

Маршрутизация моделей

Интеграция со знаниями и системами

Кастомные агенты и ассистенты

RBAC + Active Directory

Детектирование PII

Соответствие 152-ФЗ

Где живёт платформа — выбираете вы.

Shared / Dedicated SaaS

On-Premise / свои GPU

Когда нужна Platform — а когда нет.

Четыре недели — от контракта до продакшена.

Setup, маршрутизация и доступ

Базы знаний и интеграции

Кастомные агенты и ассистенты

Безопасность, 152-ФЗ и запуск

60 минут — и у вас будет план запуска платформы.

Что обычно спрашивают.

Какие AI-модели поддерживает платформа?

Что если мы хотим использовать только локальные модели (например, Qwen или LLaMA)?

Что если у нас нет Active Directory?

Как работает развёртывание на площадке клиента?

Какова задержка (latency) шлюза?

Как контролируются расходы на AI?

Можно ли подключить fine-tuned модель?

Как обеспечивается соответствие 152-ФЗ?

Как работает детектирование PII?

Что такое MCP и зачем он нужен?

Как работает база знаний (RAG)?

Сколько стоит платформа?

Связанные материалы

Внедрение AI в компанию

Кейсы клиентов

Обучение команд

Давайтеработать

Давайте
работать

Давайте
работать