[ Поиск ] - [ Пользователи ] - [ Календарь ]
Полная Версия: Парсить сайт с защитой
dron4ik
Дурацкое название, но хз как назвать)
Суть такая, есть сайт, который парсит новостные сайты, отображает как превьющки и краткое описание... по сути всю статью не выкачивает, только порядком 30-50ти первых слов...

Но на одном из сайтов который парсится картинки через file_get_contents() отдаются с ватермарком... как я понял из-за того что это не браузер...

Подскажите curl справится? и на чем вообще может быть проверка того сайта?

_____________
Ex3m.com.ua — Активный образ жизни
Игорь_Vasinsky
если те нужно имитировать браузер - то курл - самое то)
проверка - могут запросы считать с IP
проверять юзер агента

_____________
HTML, CSS (Bootstrap), JS(JQuery, ExtJS), PHP, MySQL, MSSql, Posgres, (TSql, BI OLAP, MDX), Mongo, Git, SVN, CodeIgnater, Symfony, Yii 2, JiRA, Redmine, Bitbucket, Composer, Rabbit MQ, Amazon (SQS, S3, Transcribe), Docker
dron4ik
if( $curl = curl_init() ) {
curl_setopt($curl, CURLOPT_URL, "http://ms.ua/");
curl_setopt($curl, CURLOPT_HEADER, 0);
curl_setopt ($curl , CURLOPT_REFERER, "http://ms.ua/");
curl_setopt ($curl, CURLOPT_USERAGENT, 'Mozilla/5.0 (Windows; U; Windows NT 5.1; ru; rv:1.8.0.9) Gecko/20061206 Firefox/1.5.0.9');
$url = 'http://ms.ua/img/12341122.jpeg';
curl_setopt($curl, CURLOPT_URL, $url);
$out = curl_exec($curl);
echo $out;
curl_close($curl);
}


Вот так работает... как я понял загвоздка в CURLOPT_REFERER, без неё не работает...
Хочу спросить, такое решение вообще нормальное? Может можно улучшить?)

_____________
Ex3m.com.ua — Активный образ жизни
Игорь_Vasinsky
да. мультикурлом с прокси

_____________
HTML, CSS (Bootstrap), JS(JQuery, ExtJS), PHP, MySQL, MSSql, Posgres, (TSql, BI OLAP, MDX), Mongo, Git, SVN, CodeIgnater, Symfony, Yii 2, JiRA, Redmine, Bitbucket, Composer, Rabbit MQ, Amazon (SQS, S3, Transcribe), Docker
dron4ik
Игорь_Vasinsky
Сенк! сделал... Заказчик доволен)))

_____________
Ex3m.com.ua — Активный образ жизни
Быстрый ответ:

 Графические смайлики |  Показывать подпись
Здесь расположена полная версия этой страницы.
Invision Power Board © 2001-2025 Invision Power Services, Inc.