Справочник Oper8 · Практика

Двойной прогон

Правило перехода между уровнями автономии. Без него любая автономизация — слепое доверие.

Определение. Двойной прогон (Dual Run) — протокол запуска AI-процесса параллельно со старым через четыре фазы со снижением страховки: Тень → Канарейка → Градуальный → Полный. Без него повышение уровня автономии превращается в слепое доверие к модели.

TL;DR. Между «AI работает в Тени, ничего не меняет» и «AI обрабатывает весь поток» лежит не один шаг, а четыре. На каждом снимается одна форма страховки: сначала AI не действует, потом действует на 5–10% трафика под надзором, потом на основном с эскалациями, потом самостоятельно. Без этой лестницы переход между уровнями автономии становится скачком, на котором ошибки выявляются сразу на масштабе и стоят в 10–100 раз дороже. Главная развилка протокола: что делать с расхождениями на Канарейке. Одинаковая реакция на любое расхождение ломает свод правил и доверие команды.

Главное

Четыре фазы со снижением страховки: Тень → Канарейка → Градуальный → Полный. На каждой снимается одна форма защиты от ошибок AI.
Главная развилка — что делать с расхождениями на Канарейке. Безопасность, точность при стабильном бизнесе и точность при просевшем бизнесе требуют трёх разных реакций. Одинаковая реакция ломает свод правил за 3 месяца.
Сегментарный откат с датой пересмотра — рабочая операция, а не провал. Команды, делающие 2–3 плановых отката на Градуальном, доходят до Полного режима быстрее, чем те, кто «идёт без откатов».
В SMB и Mid-market один процесс проходит протокол за 7–14 недель. Без защищённого окна владельца — растягивается на 3–4 месяца и теряет инерцию.
Применяется при каждом повышении уровня автономии, не один раз на проект. Переход с A3 на A4 — это новая Канарейка плюс Градуальный, а не «AI уже работает, прибавим».

Что это такое

Двойной прогон — инженерный протокол запуска AI-процесса. Применяется на фазе развёртывания (DEPLOY) и далее на эволюции (EVOLVE) при каждом повышении уровня автономии. Без него переход с уровня A2 на A3 превращается в эксперимент, а не управляемый сдвиг. Разница в стоимости ошибки между этими режимами на масштабе легко даёт двузначный множитель.

Протокол решает три задачи одновременно. Первая: валидация качества модели на реальном трафике, а не на тестовых наборах. Вторая: накопление доверия команды; люди видят AI в деле, прежде чем его результаты применяются. Третья: сбор обучающих данных. Каждое расхождение между AI и человеком фиксируется в конвейере фиксации решений и питает маховик данных. Политическая задача (борд видит цифры, а не презентации) становится следствием первых трёх.

В методике Oper8 это главное правило перехода между уровнями автономии. Любое движение от Оператора (A1) к Консультанту (A3) и далее к более автономным уровням (A4–A5) проходит через четыре фазы протокола. Пропуск фазы — режим отказа: дешёвая внешне экономия времени, дорого выявляющаяся на масштабе.

Как делать

Четыре фазы со снижением страховки. На каждой фиксированный порог перехода, порог отката и ключевая метрика.

Фаза 1. Тень (1–2 недели)

AI обрабатывает 100% входящего потока, результаты не применяются. Человек работает как обычно. Ключевая метрика: доля расхождений между AI и экспертом. Порог перехода в Канарейку: меньше 30% расхождений на 10 дней подряд. Порог отмены проекта: больше 50% или систематическая ошибка одного типа. Артефакт фазы: лог расхождений с классификацией (AI лучше, AI хуже, контекст неполный, правило не формализовано).

Фаза 2. Канарейка (2–4 недели)

AI обрабатывает 5–10% реального трафика, результаты применяются. Человек проверяет каждый. Ключевая метрика: доля отмен (процент случаев, когда человек отменил решение AI). Порог перехода в Градуальный: меньше 15% отмен и ноль критических провалов за 2 недели. Порог отката в Тень: больше 25% отмен или любой критический провал. Главное действие на этой фазе: классификация расхождений по трём веткам (см. развилку ниже).

Фаза 3. Градуальный (4–8 недель)

AI обрабатывает постепенно растущую долю: 10% → 25% → 50% → 75% → 100%. Каждый шаг 1–2 недели. Ключевая метрика: стабильность eval-метрик при росте доли плюс бизнес-показатели (время цикла, стоимость, качество). Порог перехода: метрики не деградируют, бизнес-показатели растут или стабильны. Порог отката: eval-метрики опустились ниже базовой линии ИЛИ доля отмен больше 25% на каком-либо сегменте.

Фаза 4. Полный (Full)

AI обрабатывает основной поток. Человек в режиме мониторинга, эскалаций и улучшения системы. Ключевая метрика: бизнес-показатели (стоимость результата, время цикла, удовлетворённость клиентов). Ритм: еженедельный разбор метрик, ежемесячный разбор eval-набора, ежеквартальный архитектурный обзор.

Развилка три-в-одном: расхождения на Канарейке

Это главное место, где двойной прогон ломается. Канарейка идёт 2+ недели, доля отмен устойчиво 10–20%. Формально проходим (меньше 25%), но выше цели (меньше 15%). Что делать, зависит от того, где расходится и что происходит с бизнес-показателями.

Что расходится	Бизнес-метрики	Действие	Дата пересмотра
Безопасность (агент нарушил регуляторное правило, провалил safety-тест)	любое	Откат на предыдущую версию свода. Разбор за 24 часа	Внеочередной
Точность, бизнес стабилен или растёт	стабильны / растут	Свод правил держим. Обновляем eval-набор: изменился трафик, а не агент	3 недели, контрольный замер
Точность, бизнес просел	падают	Сужаем область допустимой автономии (ODD), оставляем AI только на сегментах, где работает	3 недели на исправление, потом повтор

Самый частый сбой: одинаковая реакция на любое расхождение, обычно быстрая правка промпта. Через 3 месяца свод правил и реальная конфигурация модели расходятся, никто не помнит, что было изначально, и откатить становится некуда. Развилка в три ветки работает как дешёвая страховка от этого исхода.

Когда применяется

Двойной прогон запускается при каждом повышении уровня автономии процесса, не один раз на проект. Запуск нового AI-процесса с целевым A2: проходим все четыре фазы. Повышение существующего A3 до A4 (расширили область автономии): Канарейка и Градуальный заново на расширенном сегменте, фазу Тени можно пропустить. Перевод с одной модели на другую: обязательны Канарейка и Градуальный с прежним сводом правил, иначе вы меняете две переменные одновременно и не понимаете, что из этого сработало.

Сегментный сдвиг. В SMB и Mid-market на одном процессе двойной прогон занимает 7–14 недель календарного времени. Владелец процесса ведёт его внутри своего еженедельного окна. Разбор расхождений на Канарейке требует непрерывного 30+ минутного окна; без защищённого времени протокол растягивается до 3–4 месяцев и теряет инерцию. В Enterprise добавляется совет управления AI (AI Governance Board), который утверждает переход между фазами для процессов на уровне A4 и выше. Известный риск — превращение этого совета в комитет «для галочки», блокирующий переходы на формальностях. Компенсация: KPI совета включают сроки прохождения фаз, а не только «провалов не было».

Не применяется в двух случаях. Первый: детерминированный процесс без вариативности (массовый ввод данных по фиксированной форме); двойной прогон не даёт информации, переходим к мониторингу качества. Второй: критический процесс с регуляторным запретом на автоматические решения (медицинская диагностика тяжёлых случаев, выдача больших кредитов); тут не AI как актёр, а AI как помощник эксперта на потолке A2.

Кто отвечает

Владелец процесса. На каждой фазе у него три обязательных артефакта: подписанные критерии выхода, дашборд с метриками, лог классификации расхождений. Конкретный человек ежедневно в окне владения разбирает расхождения: дашборд без имени рядом превращается в фон. Каждое решает на месте: одно идёт в проверки (evals), другое в свод правил, третье в сужение области автономии для сегмента. На уровне организации: руководитель AI-трансформации сводит дашборды процессов и отслеживает, где какой двойной прогон стоит на месте дольше нормы для своего сегмента.

Типичные ошибки

Бесконечная Тень. Тень длится 6+ недель, формальный порог пройден, переход в Канарейку не происходит. На вопрос «почему» отвечают «ещё данные собираем». На деле никто не хочет отвечать за первое применение AI к реальным клиентам. Лечение: критерии выхода каждой фазы подписываются до её начала, а не после. Порог «меньше 30% расхождений 10 дней подряд» — автоматический триггер перехода, а не решение для обсуждения.

Единая реакция на расхождения Канарейки. Через 3 месяца последние 15 изменений кода — все с комментарием «исправил промпт под выявленное расхождение», ни одно не прошло через safety-проверки. Лечение: развилка три-в-одном из раздела выше висит рядом с дашбордом. При каждом изменении промпта классификация расхождения по трём веткам делается до коммита, а не после.

Откат как событие, а не штатная операция. В плане двойного прогона нет слова «откат», коммуникация формулируется в духе «если всё пойдёт хорошо, дойдём до 100%». На Градуальном 50% появляется проседание метрик на VIP-сегменте, команда видит это как провал и тормозит весь процесс на полгода. Лечение: откат прописывается в плане каждой фазы как штатный исход. Сегментарный откат VIP в Канарейку с датой пересмотра 3 недели — штатная операция плана, такая же как переход между фазами. По нашим наблюдениям, команды, делающие 2–3 плановых отката на Градуальном, доходят до Полного режима заметно быстрее тех, кто идёт без откатов.

Связанные статьи

Главное

Четыре фазы со снижением страховки: Тень → Канарейка → Градуальный → Полный. На каждой снимается одна форма защиты от ошибок AI.
Главная развилка — что делать с расхождениями на Канарейке. Безопасность, точность при стабильном бизнесе и точность при просевшем бизнесе требуют трёх разных реакций. Одинаковая реакция ломает свод правил за 3 месяца.
Сегментарный откат с датой пересмотра — рабочая операция, а не провал. Команды, делающие 2–3 плановых отката на Градуальном, доходят до Полного режима быстрее, чем те, кто «идёт без откатов».
В SMB и Mid-market один процесс проходит протокол за 7–14 недель. Без защищённого окна владельца — растягивается на 3–4 месяца и теряет инерцию.
Применяется при каждом повышении уровня автономии, не один раз на проект. Переход с A3 на A4 — это новая Канарейка плюс Градуальный, а не «AI уже работает, прибавим».

К списку статей

Справочник Oper8 · Практика

Двойной прогон

Правило перехода между уровнями автономии. Без него любая автономизация — слепое доверие.

Определение. Двойной прогон (Dual Run) — протокол запуска AI-процесса параллельно со старым через четыре фазы со снижением страховки: Тень → Канарейка → Градуальный → Полный. Без него повышение уровня автономии превращается в слепое доверие к модели.

Главное

Четыре фазы со снижением страховки: Тень → Канарейка → Градуальный → Полный. На каждой снимается одна форма защиты от ошибок AI.
Главная развилка — что делать с расхождениями на Канарейке. Безопасность, точность при стабильном бизнесе и точность при просевшем бизнесе требуют трёх разных реакций. Одинаковая реакция ломает свод правил за 3 месяца.
Сегментарный откат с датой пересмотра — рабочая операция, а не провал. Команды, делающие 2–3 плановых отката на Градуальном, доходят до Полного режима быстрее, чем те, кто «идёт без откатов».
В SMB и Mid-market один процесс проходит протокол за 7–14 недель. Без защищённого окна владельца — растягивается на 3–4 месяца и теряет инерцию.
Применяется при каждом повышении уровня автономии, не один раз на проект. Переход с A3 на A4 — это новая Канарейка плюс Градуальный, а не «AI уже работает, прибавим».

Что это такое

Как делать

Четыре фазы со снижением страховки. На каждой фиксированный порог перехода, порог отката и ключевая метрика.

Фаза 1. Тень (1–2 недели)

Фаза 2. Канарейка (2–4 недели)

Фаза 3. Градуальный (4–8 недель)

Фаза 4. Полный (Full)

Развилка три-в-одном: расхождения на Канарейке

Что расходится	Бизнес-метрики	Действие	Дата пересмотра
Безопасность (агент нарушил регуляторное правило, провалил safety-тест)	любое	Откат на предыдущую версию свода. Разбор за 24 часа	Внеочередной
Точность, бизнес стабилен или растёт	стабильны / растут	Свод правил держим. Обновляем eval-набор: изменился трафик, а не агент	3 недели, контрольный замер
Точность, бизнес просел	падают	Сужаем область допустимой автономии (ODD), оставляем AI только на сегментах, где работает	3 недели на исправление, потом повтор

Когда применяется

Кто отвечает

Типичные ошибки

Связанные статьи

Главное

Четыре фазы со снижением страховки: Тень → Канарейка → Градуальный → Полный. На каждой снимается одна форма защиты от ошибок AI.
Главная развилка — что делать с расхождениями на Канарейке. Безопасность, точность при стабильном бизнесе и точность при просевшем бизнесе требуют трёх разных реакций. Одинаковая реакция ломает свод правил за 3 месяца.
Сегментарный откат с датой пересмотра — рабочая операция, а не провал. Команды, делающие 2–3 плановых отката на Градуальном, доходят до Полного режима быстрее, чем те, кто «идёт без откатов».
В SMB и Mid-market один процесс проходит протокол за 7–14 недель. Без защищённого окна владельца — растягивается на 3–4 месяца и теряет инерцию.
Применяется при каждом повышении уровня автономии, не один раз на проект. Переход с A3 на A4 — это новая Канарейка плюс Градуальный, а не «AI уже работает, прибавим».

Двойной прогон

Что это такое

Как делать

Фаза 1. Тень (1–2 недели)

Фаза 2. Канарейка (2–4 недели)

Фаза 3. Градуальный (4–8 недель)

Фаза 4. Полный (Full)

Развилка три-в-одном: расхождения на Канарейке

Когда применяется

Кто отвечает

Типичные ошибки

Давайте
работать

Двойной прогон

Что это такое

Как делать

Фаза 1. Тень (1–2 недели)

Фаза 2. Канарейка (2–4 недели)

Фаза 3. Градуальный (4–8 недель)

Фаза 4. Полный (Full)

Развилка три-в-одном: расхождения на Канарейке

Когда применяется

Кто отвечает

Типичные ошибки

Давайте
работать

Что это такое

Как делать

Фаза 1. Тень (1–2 недели)

Фаза 2. Канарейка (2–4 недели)

Фаза 3. Градуальный (4–8 недель)

Фаза 4. Полный (Full)

Развилка три-в-одном: расхождения на Канарейке

Когда применяется

Кто отвечает

Типичные ошибки

Куда смотреть дальше

Давайтеработать

Что это такое

Как делать

Фаза 1. Тень (1–2 недели)

Фаза 2. Канарейка (2–4 недели)

Фаза 3. Градуальный (4–8 недель)

Фаза 4. Полный (Full)

Развилка три-в-одном: расхождения на Канарейке

Когда применяется

Кто отвечает

Типичные ошибки

Куда смотреть дальше

Давайтеработать

Давайте
работать

Давайте
работать