Этот шаблон оценивает правильность ответов AI-агента по сравнению с ground truth, рассчитывая F1-score и семантическую похожесть. В этом шаблоне n8n показано, как рассчитать оценочную метрику «Корректность», которая в этом сценарии измеряет, сравнивает и классифицирует ответ агента относительно набора истинных данных.
Подход к оценке адаптирован из проекта оценок с открытым исходным кодом RAGAS , исходный код которого можно посмотреть здесь: https://github.com/explodinggradients/ragas/blob/main/ragas/src/ragas/metrics/_answer_correctness.py
Целевая аудитория
- Разработчики AI, тестирующие модели
- Исследователи, оценивающие качество ответов
- Маркетологи, проверяющие точность чат-ботов
- Менеджеры проектов, анализирующие AI-выводы
Решаемая проблема
Ручная проверка AI-ответов на правильность занимает часы и субъективна. Этот шаблон автоматизирует оценку, предоставляя объективные метрики.
Что автоматизируется
- Шаг 1: Получение строк из Google Sheets с ground truth
- Шаг 2: Запуск AI-агента для генерации ответов
- Шаг 3: Получение эмбеддингов для ground truth и ответов с OpenAI
- Шаг 4: Расчёт семантической похожести (косинусное сходство)
- Шаг 5: Классификация ответов (TP/FP/FN) с помощью AI-агента
- Шаг 6: Расчёт F1-score на основе классификации
- Шаг 7: Взвешенное усреднение F1 и похожестей для финального скора
- Шаг 8: Обновление метрик и вывода в Google Sheets
Используемые сервисы
- Google Sheets: Хранит данные для оценки (вопросы, ground truth)
- n8n Evaluation Trigger: Запускает процесс по строкам Sheets
- OpenAI: Генерирует ответы и эмбеддинги
- n8n Code Node: Рассчитывает сходство и F1-score
- n8n Merge Node: Комбинирует данные для финального скора
Сложность настройки
- Уровень: Средний (нужны API и расчёты)
- Время настройки: 20–30 минут
Что нужно для запуска
- Аккаунты: Google Sheets, OpenAI
- API-ключи/настройки:
- Google Sheets OAuth2 API
- OpenAI API-ключ
- ID таблицы Google Sheets с колонками: input, ground truth
- Требования:
- Настроить таблицу с вопросами и ground truth (разделёнными
) - Указать модель OpenAI (gpt-4o-mini)
- Настроить таблицу с вопросами и ground truth (разделёнными
Примеры использования
- Разработчик чат-бота: Оценивает ответы бота по ground truth, получая F1-score для улучшения модели.
- Исследователь: Анализирует точность AI в ответах на вопросы, сравнивая с эталонами.
- Маркетолог: Проверяет качество генерируемых описаний продуктов, минимизируя ошибки.
Результат
Вы сэкономите часы на оценке AI, получите объективные метрики в Google Sheets, снижая субъективность на 80%.
Теги для поиска
#автоматизация #AI #аналитика #OpenAI #GoogleSheets #оценка #интеграция
А получить workflow «Автоматическая оценка AI-ответов: шаблон n8n для расчёта F1-score и семантической похожести» и другие шаблоны для n8n (более 1000 готовых сценариев автоматизации) вы можете в нашем Закрытом Нейроклубе по кнопке ниже:
Также рекомендуем подписаться на наш Telegram-канал AI Мастерская.
Там выходят подробные разборы популярных сценариев для n8n, реальные кейсы автоматизации бизнеса и примеры, где рутинную работу полностью берут на себя роботы, а не человек.
Напишите в комментариях, какой шаблон для n8n вам нужен и какие задачи он должен выполнять. Я подберу подходящее решение или добавлю новый workflow.


