Описание инструмента:
Данный скрипт предназначен для массовой обработки (парсинга) нескольких
Sitemap-файлов (XML). Если среди переданных файлов встречаются
индексные сайтмапы (sitemapindex), скрипт рекурсивно обходит
все вложенные ссылочные файлы, собирая все URL-адреса. После чего
формируется список уникальных URL, упорядоченных
по домену. Каждый сайт (домен) группируется вместе
благодаря сортировке. Итоговые результаты сохраняются в несколько
файлов (.txt
и .csv
), если их слишком много
(по умолчанию лимит 900 000 URL на файл).
.txt
и .csv
-файлов.
Если URL-ов очень много, файлы будут разбиты на части part1
,
part2
и т. д.
Пример:
https://example.com/sitemap.xml
https://example.com/sitemap_index.xml
https://example.ru/folder/sitemap.xml
Прогресс: 0%