Kaufmann
28.02.2013 - 00:54
Привет! Ребят, возникло затруднение... Есть чужой сайт, страница на котором содержит:
1. Навигацию по названиям товаров в алфавитном виде (A B C D E F G H I J K L M N O P Q R S T U V W X Y Z Other)
2. Таблицу значений, подгружаемую ajax'ом, которая содержит поля с названиями и ценами товаров.
3. Постраничную навигацию по товарам, название которых начинается с выбранной буквы. (Например, выбираем букву "A", подгружается страница с таблицей товаров название которых начинается с этой буквы (выводится по 20 элементов) и постраничной навигацией (1 2 3 4 5 6 7 8 9 10 11-12)).
Так вот, пытаюсь написать скрипт который должен выполнять алгоритм:
1. Собрать все ссылки на страницы из навигации по товарам из пункта 1 и 3
2. Перейти по каждой из собранных ссылок и забрать соответствующую таблицу с названиями и ценами.
Это в теории... Но, как это реализовать на практике?!
Игорь_Vasinsky
28.02.2013 - 00:55
начните с изучения regexp php или библиотек для парсинга SimpleHTMLDom и подобным.
_____________
HTML, CSS (Bootstrap), JS(JQuery, ExtJS), PHP, MySQL, MSSql, Posgres, (TSql, BI OLAP, MDX), Mongo, Git, SVN, CodeIgnater, Symfony, Yii 2, JiRA, Redmine, Bitbucket, Composer, Rabbit MQ, Amazon (SQS, S3, Transcribe), Docker
Kaufmann
28.02.2013 - 01:36
Цитата (Игорь_Vasinsky @ 27.02.2013 - 20:55) |
начните с изучения regexp php или библиотек для парсинга SimpleHTMLDom и подобным. |
А это ничего что источник для парсинга весь аяксом подгружается? Или SimpleHTMLDom и ajax-контент возвращает?
Игорь_Vasinsky
28.02.2013 - 01:44
а вам ещё предстоит найти реальный источник.
об этом вам может подсказать firebug браузера (мозилла, хром)
_____________
HTML, CSS (Bootstrap), JS(JQuery, ExtJS), PHP, MySQL, MSSql, Posgres, (TSql, BI OLAP, MDX), Mongo, Git, SVN, CodeIgnater, Symfony, Yii 2, JiRA, Redmine, Bitbucket, Composer, Rabbit MQ, Amazon (SQS, S3, Transcribe), Docker
Kaufmann
28.02.2013 - 04:16
Игорь_Vasinsky! Спасибо Вам! Нашел источник через FireBug в Mozilla. Спарсил то, что нужно!
Zzepish
28.02.2013 - 15:11
Игорь_VasinskyЭм, а file_get_contents уже не в моде?
Игорь_Vasinsky
28.02.2013 - 17:21
не надёжно нынче. умные все.
мне вот одного плюсика для зачёта и не хватает
_____________
HTML, CSS (Bootstrap), JS(JQuery, ExtJS), PHP, MySQL, MSSql, Posgres, (TSql, BI OLAP, MDX), Mongo, Git, SVN, CodeIgnater, Symfony, Yii 2, JiRA, Redmine, Bitbucket, Composer, Rabbit MQ, Amazon (SQS, S3, Transcribe), Docker
Kaufmann
2.03.2013 - 15:47
Цитата (Игорь_Vasinsky @ 28.02.2013 - 13:21) |
не надёжно нынче. умные все.
мне вот одного плюсика для зачёта и не хватает |
Само собой - зачет! Поставил +
Быстрый ответ:
Powered by dgreen
Здесь расположена полная версия этой страницы.