Форум PHP программистов > Парсиг ключевых слов кинопоиска, с чего начать?

[ Поиск ] - [ Пользователи ] - [ Календарь ]

Полная Версия: Парсиг ключевых слов кинопоиска, с чего начать?

linf

5.11.2011 - 01:00

Собственно говоря, хотелось бы научится писать полноценные парсеры, на примере кинопоиска, так что бы не уходить в бан. В частности:

Прошу специалистов подсказать с чего начать, и по мере моей работы над парсером помочь исправить ошибки если таковые будут.

Парсить собираюсь на локальной машине. С прокси работать не умею вообще. В итоге хочу получить файл, или MySQL таблицу с тремя колонками: фильм, ключевые слова, ссылку на страницу с фильмом.

Список ключевых слов представлен на страницах типа: http://www.kinopoisk.ru/level/92/film/5912/

Спустя 13 минут, 28 секунд (5.11.2011 - 00:14) Игорь_Vasinsky написал(а):

Зачем те прокси то... вот с этим разберись.
Так ты получишь удалённую страницу в переменную, которую потом нужно парсить (получать слова, выбирать ссылки в массив чтоб потом снова повторить ситуацию, но это уже с multi_curl)

$ch = curl_init(); // Инициализируем сеанс CURL
curl_setopt($ch, CURLOPT_URL, $url);            // Заходим на сайт
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true); // Делаем так, чтобы страница не выдавалась сразу в поток, а можно было ее записать в переменную
$html = curl_exec($ch); // Записываем пришедшие данные в переменную    
curl_close($ch);        // Закрываем сеанс работы CURL
echo $html;             // Выводим  страницу чтоб убедиться что мы её получили.

и многие ошибочно думають, что их сразу готовыми кодами завалят.. со мной такое не проходит, оч оч редко.

А работы тут не початый край.

Спустя 2 минуты, 49 секунд (5.11.2011 - 00:16) Winston написал(а):

Игорь_Vasinsky
Чем результат работы твоих 6 строк, будут отличатся от работы, моей одной ?

echo file_get_contents($url);

Спустя 2 минуты, 6 секунд (5.11.2011 - 00:19) Игорь_Vasinsky написал(а):

ему лазять там по всему сайту - вдоль и поперёк. А так он сёрфер

ну ты знаешь.

да и потом, ссылок он там нароет тьму... загнётся на file_get_contents()...

помнишь - я на 30 линках с курлом как мучался.

Спустя 10 минут, 39 секунд (5.11.2011 - 00:29) Игорь_Vasinsky написал(а):

Теперь когда у тебя есть страница - твой план такой:

1.Выташить все картинки, описания и ссылки на страницы с фильмами
2. Найти все ссылки в разделе категория
3. Наити все ссылки в пагинаторе

п1 и п3 - поаторять в каждом п2

делается это всё с preg_match_all()

Спустя 2 минуты, 35 секунд (5.11.2011 - 00:32) linf написал(а):

сложность в том, как получить внутренние ссылки определенного вида, ведущие на страницы с ключевыми словами, ссылка на пример такой страницы в первом посте.

Спустя 5 минут, 5 секунд (5.11.2011 - 00:37) Игорь_Vasinsky написал(а):

внутриние ссылки содержат домен донора.
меню с сылками на категории, меню пагинатора, ссылка на фильм - всё храниться в разным элементах DOM документа.

посмотри исходный код

Спустя 24 минуты (5.11.2011 - 01:01) linf написал(а):

Цитата (Игорь_Vasinsky @ 5.11.2011 - 01:37)

эм, все ссылки относительные, насколько я виду код, и не содержат домена

Спустя 12 минут, 59 секунд (5.11.2011 - 01:14) Игорь_Vasinsky написал(а):

так. давай немного теории.

Для чего нужна разметка страницы?
Для чего нужен HTML?

для того чтоб расставить элементы страницы по своим местам.

И для этого блока ключевых слов (ссылок) нет исключения, он тоже в каком то div или table - не важно.

Теперь задача такая: с помощью preg_match - наити этот блок в полученном контенте страницы и занести его в массив (один из его элементов)

Читаем про регулярные выражения

_____________
Live in new format =)

Быстрый ответ:

Здесь расположена полная версия этой страницы.