RAG26 мая 2026/7 мин4,3K

Как оценивать RAG-пилот в 2026

Красивый ответ - это ещё не пилот. Смотрим поиск, источники, отказы и деньги.

RAGLLMEvalsKnowledge baseSupport AI
Белая техническая иллюстрация оценки RAG-пилота с документами, фильтром и метриками

Если RAG красиво ответил на три подготовленных вопроса, поздравляю: у вас демка. Для пилота этого мало.

Главный артефакт - не чат, а таблица вопросов, источников, ошибок и решений: масштабируем, чиним или честно закрываем.

К делу: материал собран как карта пилота. Входные данные, контроль качества и честное решение - масштабируем или закрываем.

Пилот должен отвечать на вопрос: можно ли доверить системе часть процесса.

Демка врёт слишком убедительно

RAG отлично выглядит на презентации, когда модель отвечает на один вопрос, который ей фактически подложили под нос. В проде интереснее другое: нашла ли система правильный источник, не потеряла ли исключение, показала ли цитату и поняла ли момент, когда лучше отдать задачу человеку.

Поэтому оценку надо делать как маленький стенд качества. На входе - реальные вопросы, документы и ожидаемое поведение. На выходе - таблица с ошибками, причинами и решением: чинить базу знаний, менять чанкинг, добавлять rerank, запрещать тип ответа или выкидывать сценарий из пилота.

Белая схема оценки RAG-процесса с источниками, чеклистом и графиком

Что мерить на самом деле

В техническом слое смотрим скучные, но полезные вещи: попал ли нужный документ в top-k, насколько контекст релевантен, нет ли мусора в найденных фрагментах. В ответе - groundedness, faithfulness, полноту и нормальный отказ, когда отвечать нельзя.

В бизнес-слое важнее время первого ответа, доля уверенных ответов, эскалации, правки оператора и стоимость обработки. Эта связка нужна, чтобы не обещать магию, а показывать проверяемый результат.

retrieval: context precision, context recall, hit rate

answer: faithfulness, factual correctness, refusal quality

process: handle time, escalation share, operator edits

Минимальный eval-набор

Для первой проверки достаточно 30-80 вопросов. Нужны обычные вопросы, редкие исключения, кривые формулировки, вопросы с несколькими источниками и вопросы, на которые система обязана сказать: «не знаю».

Каждый вопрос храните вместе с эталонными источниками, допустимым ответом, запретами и признаком критичности. Тогда вы видите не среднюю температуру по больнице, а конкретное место, где всё развалилось.

Как собрать вопросы без самообмана

Самая частая ошибка - тестировать RAG на вопросах, которые придумала команда внедрения. Такие вопросы обычно аккуратные, грамматически правильные и слишком похожи на структуру документации. В реальности пользователь пишет иначе: с пропущенными деталями, внутренним жаргоном, старым названием продукта, опечаткой или ссылкой на ситуацию, которую знает только отдел поддержки.

Лучший источник eval-набора - архив обращений, поисковые запросы по базе знаний, тикеты, письма менеджерам и вопросы новых сотрудников. Их удобно разложить на четыре группы: частые вопросы, дорогие ошибки, редкие исключения и вопросы без ответа. Последняя группа особенно важна: если система не умеет отказываться, она будет уверенно придумывать ответ там, где оператор должен уточнить данные.

частые вопросы показывают базовую экономию времени

дорогие ошибки показывают риск неправильной автоматизации

вопросы без ответа проверяют отказ и эскалацию

Оценка retrieval: ищем не текст, а нужный фрагмент

У RAG две большие зоны ошибки: система может не найти правильный источник или найти источник, но собрать из него плохой ответ. Поэтому retrieval нужно проверять отдельно от генерации. Если нужный документ не попал в top-k, дальнейшая модель уже играет в угадайку. Если попал, но рядом лежит много мусорных фрагментов, ответ будет нестабильным и чувствительным к формулировке вопроса.

Практически это выглядит так: для каждого вопроса указываем один или несколько эталонных источников, затем смотрим hit rate, position, context precision и context recall. В бизнесовой версии этого же отчёта можно писать проще: «источник найден», «источник найден, но ниже пятого места», «источник не найден», «найден конфликтующий документ». Такой отчёт понятен не только ML-инженеру, но и владельцу базы знаний.

hit rate: нужный источник вообще попал в выдачу

position: насколько высоко источник оказался в списке

conflict rate: сколько ответов ломают устаревшие документы

Оценка ответа: цитаты, полнота и нормальный отказ

Ответ нельзя оценивать только по приятности текста. Хороший RAG-ответ должен быть привязан к источнику, не добавлять фактов сверх документов, покрывать важные условия и честно говорить, если данных недостаточно. Иногда лучший ответ системы - не длинное объяснение, а короткое «по этим документам ответить нельзя, нужен оператор».

Для ручной проверки удобно использовать шкалу 0-2 по нескольким критериям. Groundedness: всё ли подтверждается источником. Completeness: закрыты ли все условия вопроса. Actionability: понятно ли, что делать дальше. Refusal quality: корректно ли система отказалась, если ответа нет. Через 50-80 вопросов уже видно, какие ошибки системные: плохие документы, неправильный chunking, слабый rerank или слишком смелый промпт.

Как считать деньги, а не только метрики

Технические метрики нужны, но решение о внедрении обычно принимают не по context precision. Руководителю важно понять, сколько времени экономится, какая доля обращений закрывается без поиска вручную, сколько ответов всё равно требует оператора и насколько часто система создаёт риск неправильной консультации.

На пилоте удобно считать три слоя экономики. Первый: время оператора до и после AI-черновика. Второй: доля обращений, где ответ можно отправить без существенной правки. Третий: стоимость ошибки или эскалации. Если система ускоряет частые вопросы, но проваливает редкие критичные исключения, её можно запускать в ограниченном режиме: только на низкорисковые темы, с обязательным источником и ручным подтверждением.

минуты на обращение до и после RAG

доля ответов без существенной правки оператора

темы, где запуск разрешён только с ручным контролем

Что делать после первого eval

После первого прогона не нужно сразу менять модель. Чаще всего самые дешёвые улучшения лежат ближе к данным: убрать устаревшие документы, добавить владельцев и версии, поправить заголовки, разделить длинные регламенты, добавить синонимы и объяснить системе, когда нужен отказ.

Хороший итог пилота - backlog улучшений с приоритетами. Например: сначала чистим базу знаний и метаданные, затем меняем chunking, потом добавляем hybrid search, затем rerank, и только после этого сравниваем модели. Так вы улучшаете систему последовательно и понимаете, что именно дало прирост качества.

Что забрать в пилот

Соберите 30-80 реальных вопросов. Синтетический FAQ оставьте для презентаций.

Разделите ошибки на поиск, контекст, генерацию и бизнес-правила.

Сразу фиксируйте, где нужен оператор и какие ответы должны быть запрещены.

Вывод

Резюме: хороший RAG-пилот - это не красивый чат, а измеримый контур поиска, генерации и ручного контроля. Чем раньше появляется eval-набор, тем быстрее понятно, где AI правда экономит время.

Источники

Похожие материалы

Следующие темы помогают собрать картину пилота целиком.

Cookie и аналитика

Технические настройки нужны для работы сайта. Яндекс Метрику подключаем только с вашего согласия, чтобы понимать, какие страницы и кейсы полезны.

Технические

Сохраняют ваш выбор по cookie. Отключить их нельзя без потери базовой логики сайта.

Аналитика

Яндекс Метрика: посещения, клики, источники трафика. Webvisor отключён.

Подробнее: политика cookie и политика обработки персональных данных.

Ваш выбор сохраняется в этом браузере. Изменить его можно в футере сайта.