Маршрутизация моделей, RBAC с Active Directory, глубокая интеграция с базами знаний и корпоративными системами, кастомные AI-агенты и ассистенты под ваши процессы. Всё под одной политикой и 152-ФЗ.
День первый — две команды с ChatGPT. Месяц четвёртый — десятки приложений, у каждого свой ключ, своя квота, своя дыра.
↓ Oper8 · gateway
Один шлюз для всего AI компании: модели, знания, агенты, доступ, аудит.
Платформа становится единой точкой контроля: модели и их маршрутизация, интеграция с корпоративными знаниями и системами, кастомные AI-агенты и ассистенты под процессы, доступ, расходы, соответствие. Сотрудники работают как раньше — IT и безопасность видят всё.
Доступ
ключи в Notion, Slack, .env
→ RBAC + Active Directory
Расходы
10+ счетов, валютные платежи
→ K-токен, лимиты, ₽
Утечки
PII улетает в публичные API
→ детектирование на входе
Знания
документы в 15+ системах
→ RAG с поиском по вашим данным
Агенты
ад-хок скрипты, которые никто не сопровождает
→ кастомные агенты и ассистенты под процессы
Рабочий интерфейс
Вот как это выглядит.
Единое окно для сотрудника: чат с моделью, командный контекст, кастомные агенты, база знаний, артефакты, история. K-токены — на месте счётчика сверху. Попробовать можно прямо сейчас.
Маршрутизация моделей, глубокая интеграция со знаниями и системами, кастомные агенты, доступ, фильтр данных, compliance — в одном месте, под одной политикой.
01
Маршрутизация моделей
«К какой модели уходит запрос?»
Единый API на 4 провайдера: OpenAI, Anthropic, Google и локальные модели на GPU в РФ (Qwen, GigaChat, LLaMA, Mistral). Платформа выбирает модель по задаче, стоимости и уровню конфиденциальности — конфиденциальные данные автоматически уходят на локальную модель.
Smart-роутинг по типу задачи
Автоматический fallback при недоступности
Логирование каждого вызова
02
Интеграция со знаниями и системами
«Откуда AI берёт контекст?»
RAG с поиском по вашим документам, базам знаний и внутренним системам: Confluence, Notion, Google Drive, Jira, 1С, CRM, файловые хранилища. Разграничение по правам доступа (документ-level ACL) — сотрудник видит в ответе только то, к чему у него есть права. Индексация инкрементальная, свежие данные подхватываются автоматически.
Готовые коннекторы к 15+ системам
Document-level ACL на поиске
Кастомные MCP-серверы под ваш стек
03
Кастомные агенты и ассистенты
«Кто автоматизирует процесс?»
Сборка AI-ассистентов под конкретные роли и процессы: ассистент юриста, финансовый аналитик, HR-скрининг, поддержка, onboarding. Агенты с доступом к корпоративным инструментам через Tool Calling / MCP — отвечают, ищут, заполняют формы, запускают операции в ваших системах. Версионирование, A/B, мониторинг качества.
Конструктор ассистентов без кода
Tool Calling + MCP для действий
Evals и мониторинг деградации
04
RBAC + Active Directory
«Кто к каким моделям имеет доступ?»
4-уровневая ролевая модель (superadmin → org_admin → group_admin → employee), 30+ гранулярных разрешений. Синхронизация групп с AD/LDAP в реальном времени: добавили в группу «Finance-AI» — доступ появился; вывели сотрудника — отозвали за минуты.
AD / LDAP / SAML / OAuth
Разные модели для разных ролей
Сквозное логирование (кто, что, когда)
05
Детектирование PII
«Что уходит во внешние модели?»
Платформа сканирует запрос до отправки в LLM. Обнаруживает паспорта, СНИЛС, телефоны, email, банковские реквизиты, API-ключи. Если найдено — запрос блокируется или маскируется по политике, пользователь видит, что именно было обнаружено, и переписывает.
Regex + ML-классификатор
Politики: блок / маска / предупреждение
Fail-closed: при сбое доступ блокируется
06
Соответствие 152-ФЗ
«Где живут ПДн и логи?»
Локализация ПДн в РФ — обязательное требование закона. On-prem или dedicated в аттестованных дата-центрах. Шифрование данных (Fernet) и трафика (TLS), JSONL audit log всех событий. Для международных стандартов — ISO 27001 / SOC 2 на уровне инфраструктурных партнёров.
ПДн не покидают контур
Шифрование at-rest и in-transit
Готовые отчёты для регулятора
Где живёт платформа — выбираете вы.
Один и тот же продукт, две модели поставки. Функции, политики и UX одинаковы — отличается контур, в котором лежат данные.
Платформа работает на нашей инфраструктуре в РФ. Изолированные tenant-пространства (Shared) или выделенный сервер под вашу компанию (Dedicated). Запросы маршрутизируются через шлюз → во внешние LLM или в локальные модели на наших GPU. Мы держим uptime, обновления, патчи безопасности.
Что получаете
Деплой за 2–3 недели
Не нужны свои GPU и SRE
Закрывающие документы в РФ
Учтите: Логи и метаданные хранятся у нас (зашифрованы, изолированы). Ваши API-ключи провайдеров — отдельным volume.
Платформа разворачивается в вашем периметре через Docker Compose (16 контейнеров, single-command deploy) или K8s. Запросы идут в локальные модели на ваших GPU; во внешние LLM — только если политика разрешает, через ваш egress. Air-gapped режим: работает без доступа в интернет.
Что получаете
ПДн не покидают периметр
Локальные модели (Qwen, GigaChat, LLaMA)
Air-gapped — без интернета
Учтите: Нужны GPU-сервера и DevOps на сопровождение. Первый деплой — ~40 часов вашей команды.
Когда нужна Platform — а когда нет.
Платформа решает задачу «AI стал дикий». Если он у вас ещё ручной — не тратьте бюджет, возьмите сначала пилот.
Не нужна, если
Команда меньше 50 человек, 1–2 приложения с AI — управляйте API-ключами напрямую, дешевле.
Хочется попробовать AI на одном процессе и понять, нужен ли он вообще — начните с диагностики.
Нужна только одна fine-tuned модель и больше ничего — отдельный inference-сервер проще.
Обязательна, если
200+ сотрудников, 5+ команд работают с LLM одновременно.
Нужна видимость расходов на AI по командам и проектам.
Регулируемая отрасль (банк, фарма, госсектор) — обязательно 152-ФЗ и ПДн в РФ.
Используется mix моделей: внешние LLM + локальные на ваших GPU.
Шёпотом проходит «Shadow AI» — сотрудники сливают данные в публичные сервисы.
Четыре недели — от контракта до продакшена.
Параллельные потоки: пока мы настраиваем платформу и собираем первых кастомных агентов, ваша команда согласовывает доступы и политики. Около 60 часов работы вашей команды за весь цикл.
Вы: Тестовый доступ для 5–10 пилотных пользователей, согласование с IT и безопасностью, маппинг групп AD.
Ваше время · 20 ч
Первые пользователи работают через Platform. Доступ управляется централизованно, логи и метрики в дашборде.
Неделя 2
Базы знаний и интеграции
02
Мы: Подключение корпоративных знаний: Confluence / Notion / Google Drive / файловые хранилища, индексация с учётом прав доступа. Коннекторы к внутренним системам (CRM, 1С, Jira) через готовые интеграции или кастомные MCP-серверы.
Вы: Выбор приоритетных источников, выгрузка тестовых данных, согласование document-level ACL.
Ваше время · 15 ч
AI отвечает на вопросы с опорой на ваши документы. Права доступа уважаются на поиске.
Неделя 3
Кастомные агенты и ассистенты
03
Мы: Сборка 1–2 ассистентов под приоритетные процессы (юрист / HR / поддержка — под ваш контекст). Подключение инструментов через Tool Calling + MCP, evals-first с тестовыми кейсами до запуска.
Вы: Формулировка задач, данные для eval-датасета, владелец процесса на ревью ответов.
Ваше время · 15 ч
Первый кастомный ассистент в пилоте. Eval-dataset собран, качество мониторится, ломается — видим.
Платформа работает с 4 провайдерами: OpenAI (GPT-4.1, o4-mini), Anthropic (Claude), Google (Gemini) и локальными моделями через vLLM/Ollama (Qwen, GigaChat, LLaMA, Mistral). Локальные модели работают на GPU-сервере в РФ — конфиденциальные данные не покидают периметр. Смарт-маршрутизация автоматически направляет запросы на оптимальную модель по задаче и уровню конфиденциальности.
02
Что если мы хотим использовать только локальные модели (например, Qwen или LLaMA)?
Платформа поддерживает любой LLM. В режиме «только локальные» вы берёте On-Premise вариант, разворачиваете модели на своих GPU, маршрутизируете 100% запросов внутрь периметра. Внешний интернет можно полностью отключить (air-gapped режим). RBAC, детектирование PII, аудит и compliance работают на том же уровне.
03
Что если у нас нет Active Directory?
Платформа поддерживает несколько провайдеров идентификации: Active Directory, LDAP, SAML 2.0, OAuth 2.0, локальные пользователи. Если AD нет — используем LDAP или SAML. Если корпоративной identity-системы нет вообще — заводим локальных пользователей с ручным маппингом на роли. Доступ всегда централизован через RBAC.
04
Как работает развёртывание на площадке клиента?
Три варианта: Shared (управляемое облако в РФ, быстрый старт), Dedicated (выделенный сервер под вашу компанию) и On-prem (ваша инфраструктура). On-prem полностью изолирован — данные не покидают контур, платформа работает без доступа в интернет (air-gapped режим). Развёртывание через Docker Compose — 16 контейнеров, single-command запуск; для крупных инсталляций — Kubernetes.
05
Какова задержка (latency) шлюза?
Накладные расходы платформы — менее 200 мс для p95. Это только маршрутизация, RBAC-проверка и детектирование PII. Сама задержка LLM (1–5 секунд в зависимости от модели) добавляется сверху и зависит от провайдера. Для критичных по latency сценариев платформу можно развернуть рядом с моделями (один регион / один контур).
06
Как контролируются расходы на AI?
K-токен экономика: каждый вызов модели списывает токены по настраиваемому курсу. Администратор устанавливает лимиты per пользователь, группа или организация. Дашборд расходов показывает детализацию по моделям, пользователям и периодам. Резервация перед вызовом — при ошибке средства возвращаются. Оплата платформы — в рублях, закрывающие документы РФ.
07
Можно ли подключить fine-tuned модель?
Да. Платформа умеет маршрутизировать как в внешние fine-tuned модели (OpenAI, Anthropic), так и в локальные fine-tuned (на ваших GPU). Сам fine-tuning — отдельная работа: либо вы делаете его сами на своих данных, либо мы помогаем как часть кастомизации. Стоимость и сроки рассчитываются индивидуально.
08
Как обеспечивается соответствие 152-ФЗ?
Локализация ПДн — на уровне инфраструктуры: On-prem или Dedicated в аттестованных дата-центрах в РФ. Шифрование данных at-rest (Fernet) и in-transit (TLS), JSONL audit log всех событий, готовые отчёты для регулятора. Для проектов, требующих международных стандартов (ISO 27001 / SOC 2), опираемся на сертификации инфраструктурных партнёров.
09
Как работает детектирование PII?
Платформа сканирует каждый запрос до отправки в LLM комбинацией regex + ML-классификатор. Обнаруживает паспорта, СНИЛС, банковские реквизиты, телефоны, email, IP-адреса, API-ключи. По политике запрос блокируется, маскируется или пропускается с предупреждением. Fail-closed: при сбое детектора доступ блокируется, не разрешается. Пользователь видит, что именно было обнаружено, и переписывает запрос.
10
Что такое MCP и зачем он нужен?
MCP (Model Context Protocol) — открытый стандарт для подключения инструментов к AI. На платформе 4 MCP-сервера: анализ Excel (24 инструмента), Python-песочница, парсинг документов (PDF, DOCX, PPTX), генерация презентаций. Новые инструменты подключаются без изменения кода платформы — достаточно добавить MCP-сервер и скилл.
11
Как работает база знаний (RAG)?
Загрузите документы (PDF, DOCX, PPTX, TXT, Markdown) — платформа автоматически разбивает их на фрагменты и индексирует. Embeddings создаются локально (данные не уходят во внешние сервисы). Сотрудники задают вопросы в чате и получают ответы с ссылками на источники. Document-level ACL: каждый видит только разрешённые документы.
12
Сколько стоит платформа?
Managed Server — 200 000–600 000 ₽/мес в зависимости от конфигурации и числа пользователей. K-токены — от 5 ₽ за единицу, актуальные курсы по моделям опубликованы отдельно. Интеграция — 5 000 ₽/час, кастомизация — 35 000 ₽/час. Все цены — в рублях, договор и закрывающие документы РФ.