Tutorial24 мая 2026/5 мин3,5K

Туториал: подготовить данные для AI-пилота за 1 день

Не нужен месяц подготовки. Нужны честные примеры, ошибки и критерий успеха.

TutorialAI pilotDatasetNDAMetrics
Белая техническая иллюстрация подготовки данных для AI-пилота с документами и чеклистом

Для первичной оценки не нужны месяцы подготовки. Нужен маленький набор, где видно, как процесс живёт на самом деле.

Самые полезные данные - не идеальные. Полезны ошибки, исключения, ручные решения и желаемый формат результата.

К делу: материал собран как карта пилота. Входные данные, контроль качества и честное решение - масштабируем или закрываем.

Шаг 1. Не автоматизируйте всё

Формулировка «внедрить AI в коммерческий отдел» звучит бодро, но делать с ней нечего. Для пилота нужен один маршрут: обработка обращения, извлечение полей из счёта, квалификация заявки, поиск ответа по регламенту или детекция события на видео.

Чем уже процесс, тем быстрее видно, есть ли там повторяемость, данные и экономический смысл. Узко - это не бедно. Узко - это проверяемо.

Белая схема чеклиста подготовки данных для AI-пилота

Шаг 2. Принесите реальность

Минимальный набор - 10-30 реальных входов и желаемых выходов. Для поддержки это обращения и хорошие ответы. Для OCR - документы и таблица полей. Для CV - видеофрагменты и список событий. Для квалификации лидов - заявки и решение менеджера.

Добавьте не только красивые примеры, но и неприятные: плохой скан, неполный вопрос, конфликт правил, дубликаты, устаревшие данные. Именно там пилот обычно и показывает характер.

вход: файл, сообщение, видео, заявка или запись из CRM

ожидаемый выход: ответ, поля, событие, решение, отчёт

контекст: правила, исключения, стоп-темы, критерии успеха

Шаг 3. Сразу скажите, куда нельзя

До разработки нужно понять, какие данные нельзя выгружать, что можно обезличить, где нужен NDA и кто должен видеть результат. Это не бюрократия, а выбор архитектуры: облако, локальный контур, гибрид или закрытый стенд.

Если данных мало, пилот всё равно возможен. Просто его задача меняется: не финальная автоматизация, а диагностика. Какие данные собирать, как размечать результат и какие метрики появятся первыми.

Шаг 4. Описываем правильный результат

Данные без определения результата быстро превращаются в папку «посмотрите, что можно сделать». Для пилота нужно заранее описать, как должен выглядеть выход системы. Ответ в чат, таблица полей, JSON для CRM, список событий, карточка лида, черновик письма, отчёт менеджеру - это разные продукты и разные критерии качества.

Полезно собрать 5-10 примеров «идеального выхода». Не абстрактно, а буквально: вот входящее обращение, вот хороший ответ; вот документ, вот нужные поля; вот видеофрагмент, вот событие и отметка времени. Такие пары быстрее всего показывают команде, что именно нужно автоматизировать.

формат выхода: текст, таблица, JSON, событие, задача

получатель: оператор, менеджер, CRM, клиент, отчёт

критерий успеха: скорость, точность, полнота, снижение ручной проверки

Шаг 5. Собираем плохие случаи отдельно

Хорошие примеры нужны, но плохие важнее. Если система работает только на чистых данных, пилот ничего не доказывает. Отдельно соберите случаи, которые обычно раздражают сотрудников: неполные заявки, дубликаты, кривые сканы, странные формулировки, конфликты регламентов, устаревшие документы, фото с плохим освещением.

Для каждого плохого случая напишите ожидаемое поведение: ответить, уточнить, отказать, отправить человеку, поставить статус «нужна проверка». Это сразу снижает ожидание магии и помогает построить AI-контур, который честно признаёт ограничения.

Шаг 6. Отмечаем персональные данные и доступы

Если в примерах есть ФИО, телефоны, договоры, медицинские сведения, финансовые данные или коммерческая тайна, это нужно отметить до передачи материалов. Иногда достаточно обезличить файлы. Иногда нужен закрытый контур, NDA, отдельный порядок хранения и запрет на передачу данных во внешние API.

Лучший формат для старта - таблица ограничений: какие данные есть, кто владелец, можно ли обезличить, можно ли использовать для демо, где хранить, кому показывать результат. Такая таблица экономит время на созвоне и помогает выбрать реалистичный вариант пилота.

обезличить: имена, телефоны, номера договоров, адреса

ограничить: доступы к CRM, ERP, базе знаний и файлам

зафиксировать: срок хранения и кто принимает результат

Шаг 7. Мини-brief, который можно отправить команде

В конце дня у вас должен получиться не большой документ, а короткий brief. В нём: один процесс, 10-30 примеров, желаемый результат, список плохих случаев, ограничения данных, текущая ручная стоимость и метрика успеха. Этого достаточно, чтобы техническая команда предложила 2-3 реалистичных сценария.

Если brief не получается заполнить, это тоже результат. Значит, нужно начинать не с разработки, а с диагностики процесса: какие данные отсутствуют, где нет владельца результата, какие решения сотрудники принимают неформально и что нужно начать измерять.

Что забрать в пилот

Соберите 10-30 примеров входа и результата. Этого хватает, чтобы перестать гадать.

Добавьте правила, запреты и примеры плохих случаев.

Сразу отметьте персональные данные и ограничения доступа.

Вывод

Резюме: хорошая подготовка помещается в один рабочий день. Выбираем процесс, собираем примеры, описываем правильный результат и ограничения. Остальное выясняется на диагностике.

Источники

Похожие материалы

Следующие темы помогают собрать картину пилота целиком.

Cookie и аналитика

Технические настройки нужны для работы сайта. Яндекс Метрику подключаем только с вашего согласия, чтобы понимать, какие страницы и кейсы полезны.

Технические

Сохраняют ваш выбор по cookie. Отключить их нельзя без потери базовой логики сайта.

Аналитика

Яндекс Метрика: посещения, клики, источники трафика. Webvisor отключён.

Подробнее: политика cookie и политика обработки персональных данных.

Ваш выбор сохраняется в этом браузере. Изменить его можно в футере сайта.