[ Поиск ] - [ Пользователи ] - [ Календарь ]
Полная Версия: Вопрос по парсингу с PHP Simple HTML DOM Parser
tutSV
Добрый вечер.

Имеется каталог желтые страницы: 100 000 фирм по всей стране, из которых интересны только 300 (один город).

1. На каждую фирму 1 страница, из которой выбираем 20 текстовых блоков с необходимой информацией. Урл каждой страницы примерно www[dot]yp[dot]ru/firm/85365

2. Список этих фирм выглядит так: селекторы, потом список из 20 фирм и таких 5000 страниц. Урл примерно такой: www.yp.ru/search.

Теперь собственно вопрос: существует ли какая-либо возможность вытащить из объема информации с такой структурой только необходимую с фильтром по городу? И как это сделать?

Или нужно вытаскивать все подряд, в т.ч. и ненужное, и уже здесь локально дополнительно выбирать только то, что нужно (один город)?

Второй вариант мне кажется более тупым, но реальным, но первый вариант более правильным.

Что скажете? Как лучше?
stump
Наверное надо найти ай-ди поля где хранится инфа в каком городе фирма, а потом исходя из этой инфы парсить наиболее быстрым и наиболее удобным образом. Какой выбрать? Имеется каталог желтые страницы: 100 000 фирм по всей стране, из которых... Каталог имеется и у него структура есть - поэтому как каталог создан так и его и парсить... В чем проблема?

_____________
Трус не играет в хокей
Bolik
тоже таким занимался, только вытаскивал инфу с 3,5 миллиона фирм smile.gif

лучшее решение для меня было создать каталог ссылок (города, отрасли...) и загнать их с базу, а потом парсить. примерно пару раз в месяц они в sitemap постят все изменения, по ним тоже нужно проходиться, если нужна актуальная инфа и не хочешь проходить все еще раз.

сорри, желтые страницы в россии и в германии это разные страницы. но тут тоже можно что-то подобное делать

есть урл:

http://www.yp.ru/spb/search/text/отрасль/

в таком виде можно загнать все в базу и потом парсить что нужно.
Быстрый ответ:

 Графические смайлики |  Показывать подпись
Здесь расположена полная версия этой страницы.
Invision Power Board © 2001-2024 Invision Power Services, Inc.