Добрый вечер.
Имеется каталог желтые страницы: 100 000 фирм по всей стране, из которых интересны только 300 (один город).
1. На каждую фирму 1 страница, из которой выбираем 20 текстовых блоков с необходимой информацией. Урл каждой страницы примерно www[dot]yp[dot]ru/firm/85365
2. Список этих фирм выглядит так: селекторы, потом список из 20 фирм и таких 5000 страниц. Урл примерно такой: www.yp.ru/search.
Теперь собственно вопрос: существует ли какая-либо возможность вытащить из объема информации с такой структурой только необходимую с фильтром по городу? И как это сделать?
Или нужно вытаскивать все подряд, в т.ч. и ненужное, и уже здесь локально дополнительно выбирать только то, что нужно (один город)?
Второй вариант мне кажется более тупым, но реальным, но первый вариант более правильным.
Что скажете? Как лучше?