AutoScrape Flow: Автоматизация веб-скрейпинга с Scrapyd и обогащением данных
Что делает шаблон?
Шаблон запускает задание Scrapyd для веб-скрейпинга, собирает данные, обогащает их и возвращает структурированный JSON. Этот рабочий процесс запускает задание Scrapyd в фоновом режиме, используя конфигурацию YAML, которая определяет селекторы и правила парсинга. При запуске он назначает Scrapyd параметры (запрос, идентификатор проекта, ограничения страниц и т. д.). Рабочий процесс опрашивает Scrapyd до завершения задания. После завершения он извлекает выходные данные, дополняет их (анализирует JSONL, дедуплицирует, извлекает идентификатор/номер детали/марку/модель/название детали, нормализует цену), сортирует результаты и возвращает структурированный JSON. Также собираются дополнительные отладочные данные, такие как логи, HTML-дампы и снимки экрана.
Целевая аудитория
- Разработчики, автоматизирующие сбор данных с веб-сайтов.
- Аналитики данных, нуждающиеся в структурированных данных.
- Владельцы бизнеса, отслеживающие цены или товары конкурентов.
- Маркетологи, собирающие данные для исследований рынка.
Решаемая проблема
Ручной сбор данных с веб-сайтов занимает много времени и требует сложной обработки. Шаблон автоматизирует скрейпинг, дедупликацию и структурирование данных.
Что автоматизируется?
Шаблон выполняет следующие действия:
- Запускает задание Scrapyd с параметрами (поисковый запрос, проект, страницы).
- Отслеживает статус задания до его завершения.
- Извлекает данные в формате JSONL.
- Обогащает данные:
- Удаляет дубликаты по URL (оставляет самые дешёвые).
- Извлекает поля: ID, номер детали, марка, модель, название, цена.
- Добавляет метаданные: домен, источник, временная метка.
- Сортирует результаты по цене (возрастание).
- Собирает отладочные данные: логи, HTML, скриншоты.
- Возвращает структурированный JSON через webhook.
Используемые сервисы
- n8n Manual Trigger: Запускает процесс вручную.
- n8n HTTP Request: Отправляет запросы к Scrapyd и получает данные.
- n8n Code: Фильтрует задания и обогащает данные (дедупликация, нормализация).
- n8n If: Проверяет статус задания и наличие данных.
- n8n Wait: Ожидает завершения задания Scrapyd.
- n8n SplitOut/SplitInBatches: Разделяет HTML и скриншоты для обработки.
- n8n Aggregate: Объединяет HTML и скриншоты в коллекции.
- n8n Respond to Webhook: Возвращает итоговый JSON.
Сложность настройки
Сложная — требует настройки Scrapyd и YAML-конфигурации.
Время настройки: 1–2 часа.
Что нужно для запуска?
- Аккаунты:
- Локальный или облачный сервер Scrapyd.
- Экземпляр n8n (облачный или локальный).
- API-ключи:
- Токен API для доступа к хранилищу файлов (скриншоты, HTML).
- Предварительные требования:
- Разверните Scrapyd с настроенным пауком и YAML-конфигурацией.
- Убедитесь, что паук возвращает JSONL (items.jl).
- Настройте сервер для хранения логов, HTML и скриншотов.
- Импортируйте JSON шаблона в n8n.
- Укажите URL Scrapyd (например, http://localhost:6800).
- Настройте параметры паука: project_id, config_path, запрос (q).
- Укажите токен API для доступа к файлам (LOADER_API_TOKEN).
- Активируйте workflow и протестируйте.
Примеры использования
- E-commerce: Собирает цены на автозапчасти с сайтов конкурентов для анализа.
- Маркетинг: Извлекает данные о товарах для мониторинга рынка.
- Аналитика: Создаёт базу данных моделей техники с нормализованными ценами.
Результат
Вы получаете автоматизированный процесс веб-скрейпинга, экономя до 90% времени на сбор и обработку данных, с чистым, структурированным JSON-выводом.
#автоматизация #скрейпинг #Scrapyd #данные #аналитика #интеграция #JSON
А получить workflow «Автоматизация веб-скрейпинга: шаблон workflow для n8n с Scrapyd» и другие шаблоны для n8n (более 1000 готовых сценариев автоматизации) вы можете в нашем Закрытом Нейроклубе по кнопке ниже:
Также рекомендуем подписаться на наш Telegram-канал AI Мастерская.
Там выходят подробные разборы популярных сценариев для n8n, реальные кейсы автоматизации бизнеса и примеры, где рутинную работу полностью берут на себя роботы, а не человек.
Напишите в комментариях, какой шаблон для n8n вам нужен и какие задачи он должен выполнять. Я подберу подходящее решение или добавлю новый workflow.


