Парсер многостраничных сайтов через Jina.ai с сохранением в Google Drive
Автоматически сканирует сайты по карте (sitemap.xml), извлекает текст со страниц и сохраняет каждую как отдельный документ в Google Drive.
Целевая аудитория:
- Маркетологи и аналитики конкурентов
- Исследователи и аналитики данных
- SEO-специалисты и веб-мастера
Решаемая проблема:
Ручное копирование информации с десятков или сотен страниц сайта занимает дни. Легко пропустить важные страницы, допустить ошибки в копировании и потратить время на структурирование данных.
Что автоматизируется:
- Получение карты сайта (sitemap.xml) по указанному URL.
- Извлечение всех URL-адресов из карты сайта.
- Фильтрация страниц по ключевым словам в URL (например, «agent», «tool»).
- Парсинг каждой страницы через Jina.ai с извлечением чистого текста в формате Markdown и заголовка.
- Создание отдельного текстового файла в Google Drive для каждой страницы с именем «URL — Заголовок».
- Автоматическая пауза между запросами, чтобы не перегружать целевой сайт.
Используемые сервисы:
- Jina.ai — мощный парсер веб-страниц, не требующий API-ключа. Преобразует HTML в чистый Markdown.
- Google Drive — облачное хранилище для сохранения структурированных результатов.
Сложность настройки: Простая.
Примерное время: 5-10 минут.
Требуется для запуска:
- Только аккаунт Google для настройки OAuth2-доступа к Google Drive в n8n.
- URL карты сайта целевого веб-ресурса (например, https://example.com/sitemap.xml).
Примеры использования:
- Для аналитика: Быстрое создание локальной базы знаний из документации конкурента или отраслевого ресурса для последующего анализа.
- Для веб-мастера: Резервное копирование и архивация содержимого собственного сайта в структурированном виде.
Результат:
Вы получаете готовую, структурированную коллекцию текстового контента со всего сайта в вашем Google Drive. Это экономит часы и дни ручной работы, обеспечивает точность и позволяет сразу приступить к анализу данных.
#парсинг #вебскрейпинг #автоматизация #google drive #аналитика #сборданных
А получить workflow «Автоматизируем парсинг сайтов: шаблон n8n для сбора данных в Google Drive через Jina.ai» и другие шаблоны для n8n (более 1000 готовых сценариев автоматизации) вы можете в нашем Закрытом Нейроклубе по кнопке ниже:
Также рекомендуем подписаться на наш Telegram-канал AI Мастерская.
Там выходят подробные разборы популярных сценариев для n8n, реальные кейсы автоматизации бизнеса и примеры, где рутинную работу полностью берут на себя роботы, а не человек.
Напишите в комментариях, какой шаблон для n8n вам нужен и какие задачи он должен выполнять. Я подберу подходящее решение или добавлю новый workflow.


