[ Поиск ] - [ Пользователи ] - [ Календарь ]
Полная Версия: Парсиг ключевых слов кинопоиска, с чего начать?
linf
Собственно говоря, хотелось бы научится писать полноценные парсеры, на примере кинопоиска, так что бы не уходить в бан. В частности:

Прошу специалистов подсказать с чего начать, и по мере моей работы над парсером помочь исправить ошибки если таковые будут.

Парсить собираюсь на локальной машине. С прокси работать не умею вообще. В итоге хочу получить файл, или MySQL таблицу с тремя колонками: фильм, ключевые слова, ссылку на страницу с фильмом.

Список ключевых слов представлен на страницах типа: http://www.kinopoisk.ru/level/92/film/5912/



Спустя 13 минут, 28 секунд (5.11.2011 - 00:14) Игорь_Vasinsky написал(а):
Зачем те прокси то... вот с этим разберись.
Так ты получишь удалённую страницу в переменную, которую потом нужно парсить (получать слова, выбирать ссылки в массив чтоб потом снова повторить ситуацию, но это уже с multi_curl)
$ch = curl_init(); // Инициализируем сеанс CURL
curl_setopt($ch, CURLOPT_URL, $url); // Заходим на сайт
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true); // Делаем так, чтобы страница не выдавалась сразу в поток, а можно было ее записать в переменную
$html = curl_exec($ch); // Записываем пришедшие данные в переменную
curl_close($ch); // Закрываем сеанс работы CURL
echo $html; // Выводим страницу чтоб убедиться что мы её получили.


и многие ошибочно думають, что их сразу готовыми кодами завалят.. со мной такое не проходит, оч оч редко.

А работы тут не початый край.

Спустя 2 минуты, 49 секунд (5.11.2011 - 00:16) Winston написал(а):
Игорь_Vasinsky
Чем результат работы твоих 6 строк, будут отличатся от работы, моей одной ?
echo file_get_contents($url);
:)

Спустя 2 минуты, 6 секунд (5.11.2011 - 00:19) Игорь_Vasinsky написал(а):
ему лазять там по всему сайту - вдоль и поперёк. А так он сёрфер wink.gif ну ты знаешь.

да и потом, ссылок он там нароет тьму... загнётся на file_get_contents()...

помнишь - я на 30 линках с курлом как мучался.

Спустя 10 минут, 39 секунд (5.11.2011 - 00:29) Игорь_Vasinsky написал(а):
Теперь когда у тебя есть страница - твой план такой:

1.Выташить все картинки, описания и ссылки на страницы с фильмами
2. Найти все ссылки в разделе категория
3. Наити все ссылки в пагинаторе

п1 и п3 - поаторять в каждом п2


делается это всё с preg_match_all()

Спустя 2 минуты, 35 секунд (5.11.2011 - 00:32) linf написал(а):
сложность в том, как получить внутренние ссылки определенного вида, ведущие на страницы с ключевыми словами, ссылка на пример такой страницы в первом посте.

Спустя 5 минут, 5 секунд (5.11.2011 - 00:37) Игорь_Vasinsky написал(а):
внутриние ссылки содержат домен донора.
меню с сылками на категории, меню пагинатора, ссылка на фильм - всё храниться в разным элементах DOM документа.

посмотри исходный код

Спустя 24 минуты (5.11.2011 - 01:01) linf написал(а):
Цитата (Игорь_Vasinsky @ 5.11.2011 - 01:37)
внутриние ссылки содержат домен донора.
меню с сылками на категории, меню пагинатора, ссылка на фильм - всё храниться в разным элементах DOM документа.

посмотри исходный код

эм, все ссылки относительные, насколько я виду код, и не содержат домена sad.gif

Спустя 12 минут, 59 секунд (5.11.2011 - 01:14) Игорь_Vasinsky написал(а):
ohmy.gif
так. давай немного теории.

Для чего нужна разметка страницы?
Для чего нужен HTML?

для того чтоб расставить элементы страницы по своим местам.

И для этого блока ключевых слов (ссылок) нет исключения, он тоже в каком то div или table - не важно.

Теперь задача такая: с помощью preg_match - наити этот блок в полученном контенте страницы и занести его в массив (один из его элементов)

Читаем про регулярные выражения


_____________
Live in new format =)
Быстрый ответ:

 Графические смайлики |  Показывать подпись
Здесь расположена полная версия этой страницы.
Invision Power Board © 2001-2024 Invision Power Services, Inc.