Автоматическая оценка AI-ответов: шаблон n8n для расчёта F1-score и семантической похожести AI Мастерская

Этот шаблон оценивает правильность ответов AI-агента по сравнению с ground truth, рассчитывая F1-score и семантическую похожесть. В этом шаблоне n8n показано, как рассчитать оценочную метрику «Корректность», которая в этом сценарии измеряет, сравнивает и классифицирует ответ агента относительно набора истинных данных.
Подход к оценке адаптирован из проекта оценок с открытым исходным кодом RAGAS , исходный код которого можно посмотреть здесь: https://github.com/explodinggradients/ragas/blob/main/ragas/src/ragas/metrics/_answer_correctness.py

Содержание

Целевая аудитория
Решаемая проблема
Что автоматизируется
Используемые сервисы
Сложность настройки
Что нужно для запуска
Примеры использования
Результат
Теги для поиска

Целевая аудитория

Разработчики AI, тестирующие модели
Исследователи, оценивающие качество ответов
Маркетологи, проверяющие точность чат-ботов
Менеджеры проектов, анализирующие AI-выводы

Решаемая проблема

Ручная проверка AI-ответов на правильность занимает часы и субъективна. Этот шаблон автоматизирует оценку, предоставляя объективные метрики.

Что автоматизируется

Шаг 1: Получение строк из Google Sheets с ground truth
Шаг 2: Запуск AI-агента для генерации ответов
Шаг 3: Получение эмбеддингов для ground truth и ответов с OpenAI
Шаг 4: Расчёт семантической похожести (косинусное сходство)
Шаг 5: Классификация ответов (TP/FP/FN) с помощью AI-агента
Шаг 6: Расчёт F1-score на основе классификации
Шаг 7: Взвешенное усреднение F1 и похожестей для финального скора
Шаг 8: Обновление метрик и вывода в Google Sheets

Используемые сервисы

Google Sheets: Хранит данные для оценки (вопросы, ground truth)
n8n Evaluation Trigger: Запускает процесс по строкам Sheets
OpenAI: Генерирует ответы и эмбеддинги
n8n Code Node: Рассчитывает сходство и F1-score
n8n Merge Node: Комбинирует данные для финального скора

Сложность настройки

Уровень: Средний (нужны API и расчёты)
Время настройки: 20–30 минут

Что нужно для запуска

Аккаунты: Google Sheets, OpenAI
API-ключи/настройки:
- Google Sheets OAuth2 API
- OpenAI API-ключ
- ID таблицы Google Sheets с колонками: input, ground truth
Требования:
- Настроить таблицу с вопросами и ground truth (разделёнными
  )
- Указать модель OpenAI (gpt-4o-mini)

Примеры использования

Разработчик чат-бота: Оценивает ответы бота по ground truth, получая F1-score для улучшения модели.
Исследователь: Анализирует точность AI в ответах на вопросы, сравнивая с эталонами.
Маркетолог: Проверяет качество генерируемых описаний продуктов, минимизируя ошибки.

Результат

Вы сэкономите часы на оценке AI, получите объективные метрики в Google Sheets, снижая субъективность на 80%.

Теги для поиска

#автоматизация #AI #аналитика #OpenAI #GoogleSheets #оценка #интеграция

А получить workflow «Автоматическая оценка AI-ответов: шаблон n8n для расчёта F1-score и семантической похожести» и другие шаблоны для n8n (более 1000 готовых сценариев автоматизации) вы можете в нашем Закрытом Нейроклубе по кнопке ниже:

👉 Скачать шаблон для n8n

Также рекомендуем подписаться на наш Telegram-канал AI Мастерская.
Там выходят подробные разборы популярных сценариев для n8n, реальные кейсы автоматизации бизнеса и примеры, где рутинную работу полностью берут на себя роботы, а не человек.

Напишите в комментариях, какой шаблон для n8n вам нужен и какие задачи он должен выполнять. Я подберу подходящее решение или добавлю новый workflow.