Прошу специалистов подсказать с чего начать, и по мере моей работы над парсером помочь исправить ошибки если таковые будут.
Парсить собираюсь на локальной машине. С прокси работать не умею вообще. В итоге хочу получить файл, или MySQL таблицу с тремя колонками: фильм, ключевые слова, ссылку на страницу с фильмом.
Список ключевых слов представлен на страницах типа: http://www.kinopoisk.ru/level/92/film/5912/
Спустя 13 минут, 28 секунд (5.11.2011 - 00:14) Игорь_Vasinsky написал(а):
Зачем те прокси то... вот с этим разберись.
Так ты получишь удалённую страницу в переменную, которую потом нужно парсить (получать слова, выбирать ссылки в массив чтоб потом снова повторить ситуацию, но это уже с multi_curl)
и многие ошибочно думають, что их сразу готовыми кодами завалят.. со мной такое не проходит, оч оч редко.
А работы тут не початый край.
Так ты получишь удалённую страницу в переменную, которую потом нужно парсить (получать слова, выбирать ссылки в массив чтоб потом снова повторить ситуацию, но это уже с multi_curl)
$ch = curl_init(); // Инициализируем сеанс CURL
curl_setopt($ch, CURLOPT_URL, $url); // Заходим на сайт
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true); // Делаем так, чтобы страница не выдавалась сразу в поток, а можно было ее записать в переменную
$html = curl_exec($ch); // Записываем пришедшие данные в переменную
curl_close($ch); // Закрываем сеанс работы CURL
echo $html; // Выводим страницу чтоб убедиться что мы её получили.
и многие ошибочно думають, что их сразу готовыми кодами завалят.. со мной такое не проходит, оч оч редко.
А работы тут не початый край.
Спустя 2 минуты, 49 секунд (5.11.2011 - 00:16) Winston написал(а):
Игорь_Vasinsky
Чем результат работы твоих 6 строк, будут отличатся от работы, моей одной ?
Чем результат работы твоих 6 строк, будут отличатся от работы, моей одной ?
echo file_get_contents($url);:)
Спустя 2 минуты, 6 секунд (5.11.2011 - 00:19) Игорь_Vasinsky написал(а):
ему лазять там по всему сайту - вдоль и поперёк. А так он сёрфер ну ты знаешь.
да и потом, ссылок он там нароет тьму... загнётся на file_get_contents()...
помнишь - я на 30 линках с курлом как мучался.
да и потом, ссылок он там нароет тьму... загнётся на file_get_contents()...
помнишь - я на 30 линках с курлом как мучался.
Спустя 10 минут, 39 секунд (5.11.2011 - 00:29) Игорь_Vasinsky написал(а):
Теперь когда у тебя есть страница - твой план такой:
1.Выташить все картинки, описания и ссылки на страницы с фильмами
2. Найти все ссылки в разделе категория
3. Наити все ссылки в пагинаторе
п1 и п3 - поаторять в каждом п2
делается это всё с preg_match_all()
1.Выташить все картинки, описания и ссылки на страницы с фильмами
2. Найти все ссылки в разделе категория
3. Наити все ссылки в пагинаторе
п1 и п3 - поаторять в каждом п2
делается это всё с preg_match_all()
Спустя 2 минуты, 35 секунд (5.11.2011 - 00:32) linf написал(а):
сложность в том, как получить внутренние ссылки определенного вида, ведущие на страницы с ключевыми словами, ссылка на пример такой страницы в первом посте.
Спустя 5 минут, 5 секунд (5.11.2011 - 00:37) Игорь_Vasinsky написал(а):
внутриние ссылки содержат домен донора.
меню с сылками на категории, меню пагинатора, ссылка на фильм - всё храниться в разным элементах DOM документа.
посмотри исходный код
меню с сылками на категории, меню пагинатора, ссылка на фильм - всё храниться в разным элементах DOM документа.
посмотри исходный код
Спустя 24 минуты (5.11.2011 - 01:01) linf написал(а):
Цитата (Игорь_Vasinsky @ 5.11.2011 - 01:37) |
внутриние ссылки содержат домен донора. меню с сылками на категории, меню пагинатора, ссылка на фильм - всё храниться в разным элементах DOM документа. посмотри исходный код |
эм, все ссылки относительные, насколько я виду код, и не содержат домена
Спустя 12 минут, 59 секунд (5.11.2011 - 01:14) Игорь_Vasinsky написал(а):
так. давай немного теории.
Для чего нужна разметка страницы?
Для чего нужен HTML?
для того чтоб расставить элементы страницы по своим местам.
И для этого блока ключевых слов (ссылок) нет исключения, он тоже в каком то div или table - не важно.
Теперь задача такая: с помощью preg_match - наити этот блок в полученном контенте страницы и занести его в массив (один из его элементов)
Читаем про регулярные выражения
_____________
Live in new format =)