Периодически приходится решать достаточно интересные задачи, а иногда достаточно нудные и скучные, когда надо просто механически повторять один и тот же порядок действий, и длиться это может достаточно долго. что отнимает ресурс в виде времени.
Ну а зачем тратить час на ручную работу, если можно потратить 2 часа на то, чтобы это автоматизировать, правда? Сказал бы я вот так и потратил бы на это часа три, а то и четыре. Но слава нейросетям, помогают сократить это время до минимума.
Суть задачи — надо вытащить урлы из xml карты сайта, но карта разбита на несколько мелких карт по 1000 урлов, соответственно это осложняет процесс загрузки этих урлов.
Резонный вопрос, а на кой ляд тебе понадобились эти урлы? Для того, чтобы отправить их на индексацию через Google Indexing API, как я это называю — принудительная отправка на индексацию большого массива.
Можно пойти простым путем, открывать каждый урл руками, сохранять его как xml на своем компьютере, далее собрать их все в одну папку и открыть принудительно все скопом через Power Query (кто не знает. что есть такая офигенная штука у Гугл таблиц — с добрым утром, рекомендую погуглить).
Но открыть 100 ссылок руками — ну такое, правда? Поэтому, за 1 минуту был сгенерирован скрипт на Питоне, которые решил задачу за 1,5 минуты. Мне не понадобилось много времени, скрипт заработал со второго раза, поэтому я делюсь им с вами, может кому будет полезен.
Для начала необходимо установить на свой компьютер необходимые для работы модули, для чего надо открыть командную строку
Для Винды
Открытие через диалоговое окно «Выполнить»:
- Нажмите комбинацию клавиш Win + R для открытия диалогового окна «Выполнить».
- Введите cmd и нажмите Enter.
Для Мака
Открытие через Spotlight:
- Нажмите комбинацию клавиш Cmd + Space, чтобы открыть Spotlight.
- Введите Terminal и нажмите Enter.
В командной строке выполните следующие команды
Если эти пакеты у вас установлены, проверьте обновление
После этого создайте папку где у вас будет лежать наш скрипт и создайте там файл с разрешением .py. В моем случае это файл — script.py.
Откройте скрипт через текстовый редактор (я использую notepad++) и добавьте в файл этот код.
Обязательно замените на свои УРЛы после 28-29 строки.
Запускаете скрипт там же, в командной строке. Переходите в вашу папку, где лежит скрипт
Далее запускаете скрипт такой командой
Все урлы будут сохранены в этой же папке в файле result
Удачной автоматизации!