Что это такое
Двойной прогон — инженерный протокол запуска AI-процесса. Применяется на фазе развёртывания (DEPLOY) и далее на эволюции (EVOLVE) при каждом повышении уровня автономии. Без него переход с уровня A2 на A3 превращается в эксперимент, а не управляемый сдвиг. Разница в стоимости ошибки между этими режимами на масштабе легко даёт двузначный множитель.
Протокол решает три задачи одновременно. Первая: валидация качества модели на реальном трафике, а не на тестовых наборах. Вторая: накопление доверия команды; люди видят AI в деле, прежде чем его результаты применяются. Третья: сбор обучающих данных. Каждое расхождение между AI и человеком фиксируется в конвейере фиксации решений и питает маховик данных. Политическая задача (борд видит цифры, а не презентации) становится следствием первых трёх.
В методике Oper8 это главное правило перехода между уровнями автономии. Любое движение от Оператора (A1) к Консультанту (A3) и далее к более автономным уровням (A4–A5) проходит через четыре фазы протокола. Пропуск фазы — режим отказа: дешёвая внешне экономия времени, дорого выявляющаяся на масштабе.
Как делать
Четыре фазы со снижением страховки. На каждой фиксированный порог перехода, порог отката и ключевая метрика.
Фаза 1. Тень (1–2 недели)
AI обрабатывает 100% входящего потока, результаты не применяются. Человек работает как обычно. Ключевая метрика: доля расхождений между AI и экспертом. Порог перехода в Канарейку: меньше 30% расхождений на 10 дней подряд. Порог отмены проекта: больше 50% или систематическая ошибка одного типа. Артефакт фазы: лог расхождений с классификацией (AI лучше, AI хуже, контекст неполный, правило не формализовано).
Фаза 2. Канарейка (2–4 недели)
AI обрабатывает 5–10% реального трафика, результаты применяются. Человек проверяет каждый. Ключевая метрика: доля отмен (процент случаев, когда человек отменил решение AI). Порог перехода в Градуальный: меньше 15% отмен и ноль критических провалов за 2 недели. Порог отката в Тень: больше 25% отмен или любой критический провал. Главное действие на этой фазе: классификация расхождений по трём веткам (см. развилку ниже).
Фаза 3. Градуальный (4–8 недель)
AI обрабатывает постепенно растущую долю: 10% → 25% → 50% → 75% → 100%. Каждый шаг 1–2 недели. Ключевая метрика: стабильность eval-метрик при росте доли плюс бизнес-показатели (время цикла, стоимость, качество). Порог перехода: метрики не деградируют, бизнес-показатели растут или стабильны. Порог отката: eval-метрики опустились ниже базовой линии ИЛИ доля отмен больше 25% на каком-либо сегменте.
Фаза 4. Полный (Full)
AI обрабатывает основной поток. Человек в режиме мониторинга, эскалаций и улучшения системы. Ключевая метрика: бизнес-показатели (стоимость результата, время цикла, удовлетворённость клиентов). Ритм: еженедельный разбор метрик, ежемесячный разбор eval-набора, ежеквартальный архитектурный обзор.
Развилка три-в-одном: расхождения на Канарейке
Это главное место, где двойной прогон ломается. Канарейка идёт 2+ недели, доля отмен устойчиво 10–20%. Формально проходим (меньше 25%), но выше цели (меньше 15%). Что делать, зависит от того, где расходится и что происходит с бизнес-показателями.
| Что расходится | Бизнес-метрики | Действие | Дата пересмотра |
|---|
| Безопасность (агент нарушил регуляторное правило, провалил safety-тест) | любое | Откат на предыдущую версию свода. Разбор за 24 часа | Внеочередной |
| Точность, бизнес стабилен или растёт | стабильны / растут | Свод правил держим. Обновляем eval-набор: изменился трафик, а не агент | 3 недели, контрольный замер |
| Точность, бизнес просел | падают | Сужаем область допустимой автономии (ODD), оставляем AI только на сегментах, где работает | 3 недели на исправление, потом повтор |
Самый частый сбой: одинаковая реакция на любое расхождение, обычно быстрая правка промпта. Через 3 месяца свод правил и реальная конфигурация модели расходятся, никто не помнит, что было изначально, и откатить становится некуда. Развилка в три ветки работает как дешёвая страховка от этого исхода.
Когда применяется
Двойной прогон запускается при каждом повышении уровня автономии процесса, не один раз на проект. Запуск нового AI-процесса с целевым A2: проходим все четыре фазы. Повышение существующего A3 до A4 (расширили область автономии): Канарейка и Градуальный заново на расширенном сегменте, фазу Тени можно пропустить. Перевод с одной модели на другую: обязательны Канарейка и Градуальный с прежним сводом правил, иначе вы меняете две переменные одновременно и не понимаете, что из этого сработало.
Сегментный сдвиг. В SMB и Mid-market на одном процессе двойной прогон занимает 7–14 недель календарного времени. Владелец процесса ведёт его внутри своего еженедельного окна. Разбор расхождений на Канарейке требует непрерывного 30+ минутного окна; без защищённого времени протокол растягивается до 3–4 месяцев и теряет инерцию. В Enterprise добавляется совет управления AI (AI Governance Board), который утверждает переход между фазами для процессов на уровне A4 и выше. Известный риск — превращение этого совета в комитет «для галочки», блокирующий переходы на формальностях. Компенсация: KPI совета включают сроки прохождения фаз, а не только «провалов не было».
Не применяется в двух случаях. Первый: детерминированный процесс без вариативности (массовый ввод данных по фиксированной форме); двойной прогон не даёт информации, переходим к мониторингу качества. Второй: критический процесс с регуляторным запретом на автоматические решения (медицинская диагностика тяжёлых случаев, выдача больших кредитов); тут не AI как актёр, а AI как помощник эксперта на потолке A2.
Кто отвечает
Владелец процесса. На каждой фазе у него три обязательных артефакта: подписанные критерии выхода, дашборд с метриками, лог классификации расхождений. Конкретный человек ежедневно в окне владения разбирает расхождения: дашборд без имени рядом превращается в фон. Каждое решает на месте: одно идёт в проверки (evals), другое в свод правил, третье в сужение области автономии для сегмента. На уровне организации: руководитель AI-трансформации сводит дашборды процессов и отслеживает, где какой двойной прогон стоит на месте дольше нормы для своего сегмента.
Типичные ошибки
Бесконечная Тень. Тень длится 6+ недель, формальный порог пройден, переход в Канарейку не происходит. На вопрос «почему» отвечают «ещё данные собираем». На деле никто не хочет отвечать за первое применение AI к реальным клиентам. Лечение: критерии выхода каждой фазы подписываются до её начала, а не после. Порог «меньше 30% расхождений 10 дней подряд» — автоматический триггер перехода, а не решение для обсуждения.
Единая реакция на расхождения Канарейки. Через 3 месяца последние 15 изменений кода — все с комментарием «исправил промпт под выявленное расхождение», ни одно не прошло через safety-проверки. Лечение: развилка три-в-одном из раздела выше висит рядом с дашбордом. При каждом изменении промпта классификация расхождения по трём веткам делается до коммита, а не после.
Откат как событие, а не штатная операция. В плане двойного прогона нет слова «откат», коммуникация формулируется в духе «если всё пойдёт хорошо, дойдём до 100%». На Градуальном 50% появляется проседание метрик на VIP-сегменте, команда видит это как провал и тормозит весь процесс на полгода. Лечение: откат прописывается в плане каждой фазы как штатный исход. Сегментарный откат VIP в Канарейку с датой пересмотра 3 недели — штатная операция плана, такая же как переход между фазами. По нашим наблюдениям, команды, делающие 2–3 плановых отката на Градуальном, доходят до Полного режима заметно быстрее тех, кто идёт без откатов.