Форум PHP программистов > Импортирование информации с Кинопоиск

[ Поиск ] - [ Пользователи ] - [ Календарь ]

Полная Версия: Импортирование информации с Кинопоиск

verback2308

16.11.2011 - 22:14

Привет!
Мне нужна ваша помощь!
У меня есть в переменной название фильма, и мне необходимо получить список похожих фильмов с сайта Кинопоиск.
Каким образом можно это сделать?

К примеру: http://www.kinopoisk.ru/level/1/film/470447/
В переменной :
Как выйти замуж за миллиардера
А мне нужно получить на выходе (массив к примеру):
История Золушки
Монте-Карло
Катись!
Отмороженные.

Всё упрощалось если бы я имел их базу данных.. а так..
Как можно пользоваться их базой? Она мне нужна для моего каталога..
Спасибо за помощь!

Спустя 8 минут, 46 секунд (16.11.2011 - 21:23) Игорь_Vasinsky написал(а):

Парсер те нужен и желательно Multi Curl - получишь нужные страницы

аа.. если те в реал тайм - то просто cURL - получаешь контент страницы

- потом можно Simple Html DOM или просто регулярками вытащить

можно кешировать в файлы

Спустя 39 минут, 52 секунды (16.11.2011 - 22:03) Игорь_Vasinsky написал(а):

перевариваем? готового не будет. если есть вопросы спрашивай.

Спустя 3 минуты, 19 секунд (16.11.2011 - 22:06) verback2308 написал(а):

я понял, что готового не будет)
сейчас разбираюсь с curl. просто раньше им никогда не пользовался.

Спустя 4 минуты, 32 секунды (16.11.2011 - 22:11) Игорь_Vasinsky написал(а):

и у меня был такой момент...


 $url = 'http://какой то адрес'; 
 $ch = curl_init();
 curl_setopt($ch, CURLOPT_URL, $url);
 curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
 $page = curl_exec($ch);
 curl_close($ch);

теперь в $page - вся страница

напиши

 echo $page;

теперь эту переменную нужно парсит регулярками и вытаскивать - то что нужно и складывать в массив

Спустя 32 минуты, 13 секунд (16.11.2011 - 22:43) verback2308 написал(а):

а как правильно его установить под win32?

Спустя 2 минуты, 4 секунды (16.11.2011 - 22:45) Игорь_Vasinsky написал(а):

у тя денвер?

гугли "установка curl на denwer"

Спустя 10 часов, 43 минуты, 12 секунд (17.11.2011 - 09:28) verback2308 написал(а):

так, оказалось, что я забыл в папке с апачем php.ini отредактировать.
ох уж этот хамп..

Спустя 45 минут, 4 секунды (17.11.2011 - 10:13) verback2308 написал(а):

пока добился того, что могу получить результаты по поиску.
напр. фильм 2012

<?php 
// Поиск фильма на kinopoisk.ru
$url = "http://www.kinopoisk.ru/index.php?first=no&what=&kp_query=2012"; 
$ch = curl_init(); 
curl_setopt($ch, CURLOPT_URL,$url); // set url to post to 
curl_setopt($ch, CURLOPT_FAILONERROR, 1); 
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);// allow redirects 
curl_setopt($ch, CURLOPT_RETURNTRANSFER,1); // return into a variable 
$result = curl_exec($ch); // run the whole process 
curl_close($ch);  
echo $result; 
?>

из за того, что фильмов 2012 около 41, каким образом можно выбрать первый из списка?
просто у меня в голове не укладывается это всё. как можно получить не всю страницу целиком,а лишь часть её, и затем поместить в переменные?
хоть теоретически помогите.. спасибо большое!

Спустя 4 минуты, 21 секунда (17.11.2011 - 10:18) Игорь_Vasinsky написал(а):

Цитата

как можно получить не всю страницу целиком,а лишь часть её, и затем поместить в переменные?

так не бывает.

нужно получить всю страницу с конентом, потом с preg_match_all() выбрать все куски контента, которые тебе нужны.

Они запишутся в массив, первый лемент массива - и есть 1 фильм и т.д.

Спустя 15 минут, 48 секунд (17.11.2011 - 10:33) verback2308 написал(а):

то есть, как я понял, мне нужно с помощью int preg_match_all нужно произвести поиск по переменной $result ?

Спустя 35 минут, 52 секунды (17.11.2011 - 11:09) Игорь_Vasinsky написал(а):

именно.

Спустя 6 минут, 50 секунд (17.11.2011 - 11:16) Guest написал(а):

Можно узнать, как именно это сделать?
Я раньше никогда не занимался граберами=(

в теории, мне нужно получить текст с ссылками. И затем поместить в переменную ссылку на фильм.

П.с. А затем получаю полностью страницу с информацией о фильме, и опять же нужно все это грабить..

Спустя 6 часов, 59 минут, 57 секунд (17.11.2011 - 18:16) verback2308 написал(а):

Цитата

Если вы видите эту страницу, значит с вашего IP-адреса поступило необычно много запросов. Система защиты от роботов (СЗоР) решила, что вместо вас действует программа, и ограничила доступ.

мда..а я почти разобрался..

Спустя 1 день, 3 часа, 29 минут, 27 секунд (18.11.2011 - 21:45) verback2308 написал(а):

разобрался со всем, но после 10 минут работы, система кинопоиска меня постоянно банит, и не дает нормально тестировать сайт.?

Спустя 17 часов, 29 минут, 35 секунд (19.11.2011 - 15:15) verback2308 написал(а):

Спасла вот эта функция: curl_setopt($ch, CURLOPT_INTERFACE ,$uip);

Быстрый ответ:

Здесь расположена полная версия этой страницы.