[ Поиск ] - [ Пользователи ] - [ Календарь ]
Полная Версия: Импортирование информации с Кинопоиск
verback2308
Привет!
Мне нужна ваша помощь!
У меня есть в переменной название фильма, и мне необходимо получить список похожих фильмов с сайта Кинопоиск.
Каким образом можно это сделать?

К примеру: http://www.kinopoisk.ru/level/1/film/470447/
В переменной :
Как выйти замуж за миллиардера
А мне нужно получить на выходе (массив к примеру):
История Золушки
Монте-Карло
Катись!
Отмороженные.

Всё упрощалось если бы я имел их базу данных.. а так..
Как можно пользоваться их базой? Она мне нужна для моего каталога..
Спасибо за помощь!



Спустя 8 минут, 46 секунд (16.11.2011 - 21:23) Игорь_Vasinsky написал(а):
Парсер те нужен и желательно Multi Curl - получишь нужные страницы

аа.. если те в реал тайм - то просто cURL - получаешь контент страницы

- потом можно Simple Html DOM или просто регулярками вытащить

можно кешировать в файлы

Спустя 39 минут, 52 секунды (16.11.2011 - 22:03) Игорь_Vasinsky написал(а):
перевариваем? готового не будет. если есть вопросы спрашивай.

Спустя 3 минуты, 19 секунд (16.11.2011 - 22:06) verback2308 написал(а):
я понял, что готового не будет)
сейчас разбираюсь с curl. просто раньше им никогда не пользовался.

Спустя 4 минуты, 32 секунды (16.11.2011 - 22:11) Игорь_Vasinsky написал(а):
и у меня был такой момент...


$url = 'http://какой то адрес';
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
$page = curl_exec($ch);
curl_close($ch);



теперь в $page - вся страница

напиши

 echo $page;


теперь эту переменную нужно парсит регулярками и вытаскивать - то что нужно и складывать в массив

Спустя 32 минуты, 13 секунд (16.11.2011 - 22:43) verback2308 написал(а):
а как правильно его установить под win32?

Спустя 2 минуты, 4 секунды (16.11.2011 - 22:45) Игорь_Vasinsky написал(а):
у тя денвер?

гугли "установка curl на denwer"

Спустя 10 часов, 43 минуты, 12 секунд (17.11.2011 - 09:28) verback2308 написал(а):
так, оказалось, что я забыл в папке с апачем php.ini отредактировать.
ох уж этот хамп..

Спустя 45 минут, 4 секунды (17.11.2011 - 10:13) verback2308 написал(а):
пока добился того, что могу получить результаты по поиску.
напр. фильм 2012

<?php 
// Поиск фильма на kinopoisk.ru
$url = "http://www.kinopoisk.ru/index.php?first=no&what=&kp_query=2012";
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL,$url); // set url to post to
curl_setopt($ch, CURLOPT_FAILONERROR, 1);
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);// allow redirects
curl_setopt($ch, CURLOPT_RETURNTRANSFER,1); // return into a variable
$result = curl_exec($ch); // run the whole process
curl_close($ch);
echo $result;
?>


из за того, что фильмов 2012 около 41, каким образом можно выбрать первый из списка?
просто у меня в голове не укладывается это всё. как можно получить не всю страницу целиком,а лишь часть её, и затем поместить в переменные?
хоть теоретически помогите.. спасибо большое!

Спустя 4 минуты, 21 секунда (17.11.2011 - 10:18) Игорь_Vasinsky написал(а):
Цитата
как можно получить не всю страницу целиком,а лишь часть её, и затем поместить в переменные?


так не бывает.

нужно получить всю страницу с конентом, потом с preg_match_all() выбрать все куски контента, которые тебе нужны.

Они запишутся в массив, первый лемент массива - и есть 1 фильм и т.д.

Спустя 15 минут, 48 секунд (17.11.2011 - 10:33) verback2308 написал(а):
то есть, как я понял, мне нужно с помощью int preg_match_all нужно произвести поиск по переменной $result ?

Спустя 35 минут, 52 секунды (17.11.2011 - 11:09) Игорь_Vasinsky написал(а):
именно.

Спустя 6 минут, 50 секунд (17.11.2011 - 11:16) Guest написал(а):
Можно узнать, как именно это сделать?
Я раньше никогда не занимался граберами=(

в теории, мне нужно получить текст с ссылками. И затем поместить в переменную ссылку на фильм.

П.с. А затем получаю полностью страницу с информацией о фильме, и опять же нужно все это грабить.. sad.gif

Спустя 6 часов, 59 минут, 57 секунд (17.11.2011 - 18:16) verback2308 написал(а):
Цитата

Если вы видите эту страницу, значит с вашего IP-адреса поступило необычно много запросов. Система защиты от роботов (СЗоР) решила, что вместо вас действует программа, и ограничила доступ.

мда..а я почти разобрался..

Спустя 1 день, 3 часа, 29 минут, 27 секунд (18.11.2011 - 21:45) verback2308 написал(а):
разобрался со всем, но после 10 минут работы, система кинопоиска меня постоянно банит, и не дает нормально тестировать сайт.?

Спустя 17 часов, 29 минут, 35 секунд (19.11.2011 - 15:15) verback2308 написал(а):
Спасла вот эта функция: curl_setopt($ch, CURLOPT_INTERFACE ,$uip);
Быстрый ответ:

 Графические смайлики |  Показывать подпись
Здесь расположена полная версия этой страницы.
Invision Power Board © 2001-2024 Invision Power Services, Inc.