Логотип Кактус AIКактус
Методика
Программы
КейсыО нас
Диагностика
К списку статей

Справочник Oper8 · Практика

Тесты раньше системы

Корень шестерни «Проверка качества». Что проверяем до запуска и на каждой итерации.

Определение. Тесты раньше системы (evals-first) — практика, при которой набор размеченных эталонных кейсов («eval-набор») создаётся ДО того, как AI-процесс собран, и определяет, какое поведение считается работающим.

TL;DR. Большинство AI-проектов начинают с модели и метрик — и через 3 месяца упираются в спор «новая версия лучше или хуже?» без ответа. Тесты раньше системы переворачивают порядок: сначала фиксируем 50 эталонных кейсов, прогоняем их на текущей системе и получаем опорную точку, потом каждая итерация сравнивается с эталоном. Без этой дисциплины маховик данных не запустится.

Главное

  • Eval-набор — спецификация поведения AI-процесса, ведётся параллельно версиям системы и обновляется каждую неделю из реальных решений.
  • Сначала набор, потом система: 50 эталонных кейсов в неделю 1, опорная точка 0 %, рост до 70–80 % за 4–6 недель.
  • Без человека, чьё имя стоит рядом с eval-набором, через 2 месяца команда привыкает к красной метрике и перестаёт реагировать.
  • Не работает на творческих задачах и долгосрочных стратегических решениях — там используем выборочную экспертную оценку.
  • Три главных сбоя: театр качества (набор не обновляется), eval после прода, подгонка под набор.

Что это такое

Тесты раньше системы — это спецификация поведения AI-процесса. Eval-набор фиксирует, какое поведение считается работающим, ещё до того как процесс собран: 50–500 размеченных примеров «правильный ответ для нашего процесса», ведутся параллельно версиям системы и обновляются каждую неделю из реальных решений.

Принцип напоминает привычное в разработке «сначала тест, потом код», но обманчиво. В разработке тест бинарный — прошёл или нет. В eval-наборе цель сложнее: распределение результатов по трём корзинам. 60 % кейсов с эталонным ответом, 30 % с допустимым отклонением, 10 % крайних случаев и провокаций.

Используется на фазе проектирования (DESIGN) до запуска процесса и продолжает работать всю фазу эволюции (EVOLVE). Без этой практики невозможен переход AI-процесса с уровня A2 на A3+ по шкале уровней автономии — человек так и останется проверять каждое решение вручную.

Как делать

1. Собрать первый набор: 50 эталонных кейсов

На неделе 1 — владелец процесса плюс один доменный эксперт разбирают 40–50 реальных решений из истории прошлого месяца. На каждый кейс — ожидаемый ответ. 50 примеров за один присест не делать: разметчики устают и начинают копировать. Лучше 40 за два часа, добить до 60 за следующие 2 недели.

2. Прогнать опорную точку

Опорная точка 0 % — это норма: исходный уровень, от которого мы измеряем рост. На неделе 2 хватает одного часа на прогон ручной или через простой скрипт.

3. Написать прогонщик

Прогонщик для eval-набора пишется за пару часов с AI-ассистентом. Главное — что это версионируемый код, а не одноразовая формула в табличке: иначе прогон не переживёт первую итерацию.

4. Итерировать контекст и промпт

Через 4–6 недель работы — рост с 0 % до 70–80 %. На каждое расхождение в продакшене — новый кейс в набор. Если в реальности 8 % обращений — праздничные заказы, а в наборе их нет, добавляем 12 кейсов и догоняем метрику.

5. Назначить владельца качества

Без человека, чьё имя стоит рядом с eval-набором, через 2 месяца команда привыкает к красной метрике и перестаёт реагировать. Это переход от практики к ритуалу — и самая частая причина провала.

Когда применяется

Запускаем тесты раньше системы на каждом AI-процессе, который должен дойти до автономии выше A2. Без eval-набора процесс остаётся на ручной проверке навсегда.

Не запускаем — на двух типах процессов. Первый: творческие задачи (написание текстов, исследовательский поиск), где «правильного ответа» нет. Там работает выборочная экспертная оценка 10–20 % выходов. Второй: долгосрочные стратегические решения, где обратная связь приходит через годы, а к тому моменту контекст изменился. Такие решения остаются на A1, потому что обратной связи в принципе нет.

В SMB (до 100 человек) запускаем на неделе 1 — пока процесс простой, разметка дешёвая. В Enterprise — после процесс-аудита, потому что часто eval нужно делить по подразделениям и юрисдикциям сразу.

Кто отвечает

Функция владения качеством — отдельная роль или часть роли владельца процесса. Без имени рядом с eval-набором практика не работает.

В Enterprise (1000+) — это специалист по проверке качества (англоязычный термин — Eval Specialist), отдельная штатная роль. Он работает со службой комплаенса по проверке безопасности и с доменным экспертом по точности.

В Mid-market (100–1000) эта роль часто вырастает из QA-инженера. По нашим наблюдениям, зарплата 150–400 тыс ₽/мес, защищённое время 30 % ставки.

В SMB (10–100) — функция совмещается с владельцем процесса. Минимум 4 часа в неделю защищённого времени плюс внешний эксперт-аудитор на 2 часа в месяц (15–30 тыс ₽/мес). Это нижняя граница, при которой практика ещё работает; ниже — методика технически выполняется, по существу нет.

Типичные ошибки

Театр качества. Eval-набор собрали один раз на запуске, через 3 месяца процесс обрабатывает новые типы запросов, в наборе их нет. Метрика на eval-наборе показывает 95 %, реальный поток держится на 70 %, дашборд при этом зелёный. Признак — версия набора не менялась 2+ месяца. Лечение — обновление набора как отдельный пункт в недельном плане владельца качества.

Eval написан после прода, не до. «Сначала запустим, потом покроем» превращает тесты в QA-постфактум. Спецификация перестаёт существовать: что считается работающим, определяется тем, что работает прямо сейчас. Лечение — дисциплина первой итерации: на пустом наборе результат 0 %, и это нормально.

Подгонка под набор. Команда оптимизирует под eval-набор, агент идеально его проходит, в продакшене качество не растёт. Eval из спецификации превращается в модель реальности, и эту модель никто не сверяет с реальностью. Признак — eval-метрика растёт, бизнес-метрики стоят или падают. Лечение — два независимых сигнала: статистический (eval) и поведенческий (бизнес-метрика). Если расходятся 2 недели подряд — набор обновляется под актуальный поток.

Связанные статьи

Куда смотреть дальше

  • Маховик данныхEval-набор и есть тот материал, на котором маховик крутится; без обновления набора маховик стоит.
  • Шесть метрик AI-процессаКакие именно метрики читать на eval-наборе и как отличить театр от настоящего качества.
  • AI поверх сломанного процессаПочему eval — главный детектор того, что мы автоматизируем не то.

Следующий шаг

Если хотите запустить тесты раньше системы на одном вашем процессе — мы делаем это во внедрении за 8–12 недель. На выходе: первый eval-набор, прогонщик, назначенный владелец качества, рост с 0 % до устойчивых 70–80 %.

Внедрение под ключ30-минутный разбор процессов

В этой статье

  • Что это такое
  • Как делать
  • Когда применяется
  • Кто отвечает
  • Типичные ошибки

Главное

  • Eval-набор — спецификация поведения AI-процесса, ведётся параллельно версиям системы и обновляется каждую неделю из реальных решений.
  • Сначала набор, потом система: 50 эталонных кейсов в неделю 1, опорная точка 0 %, рост до 70–80 % за 4–6 недель.
  • Без человека, чьё имя стоит рядом с eval-набором, через 2 месяца команда привыкает к красной метрике и перестаёт реагировать.
  • Не работает на творческих задачах и долгосрочных стратегических решениях — там используем выборочную экспертную оценку.
  • Три главных сбоя: театр качества (набор не обновляется), eval после прода, подгонка под набор.

Связанные статьи

  • Маховик данныхEval-набор и есть тот материал, на котором маховик крутится; без обновления набора маховик стоит.
  • Шесть метрик AI-процессаКакие именно метрики читать на eval-наборе и как отличить театр от настоящего качества.
  • AI поверх сломанного процессаПочему eval — главный детектор того, что мы автоматизируем не то.

Давайте
работать

Разберём вашу задачу, подберём формат и покажем, как AI может усилить ваши процессы.

Записаться на консультациюTelegram

50+

компаний прошли путь AI-трансформации с нами — от аудита до работающих решений.

Контакты

✉info@kkts.ai☎+7 (968) 433-85-25✈@k_scrumtrek

© 2026 Кактус.AI — подразделение ScrumTrek

Политика конфиденциальности