dron4ik
11.05.2013 - 20:02
Дурацкое название, но хз как назвать)
Суть такая, есть сайт, который парсит новостные сайты, отображает как превьющки и краткое описание... по сути всю статью не выкачивает, только порядком 30-50ти первых слов...
Но на одном из сайтов который парсится картинки через file_get_contents() отдаются с ватермарком... как я понял из-за того что это не браузер...
Подскажите curl справится? и на чем вообще может быть проверка того сайта?
_____________
Ex3m.com.ua — Активный образ жизни
Игорь_Vasinsky
11.05.2013 - 20:17
если те нужно имитировать браузер - то курл - самое то)
проверка - могут запросы считать с IP
проверять юзер агента
_____________
HTML, CSS (Bootstrap), JS(JQuery, ExtJS), PHP, MySQL, MSSql, Posgres, (TSql, BI OLAP, MDX), Mongo, Git, SVN, CodeIgnater, Symfony, Yii 2, JiRA, Redmine, Bitbucket, Composer, Rabbit MQ, Amazon (SQS, S3, Transcribe), Docker
dron4ik
11.05.2013 - 20:49
if( $curl = curl_init() ) {
curl_setopt($curl, CURLOPT_URL, "http://ms.ua/");
curl_setopt($curl, CURLOPT_HEADER, 0);
curl_setopt ($curl , CURLOPT_REFERER, "http://ms.ua/");
curl_setopt ($curl, CURLOPT_USERAGENT, 'Mozilla/5.0 (Windows; U; Windows NT 5.1; ru; rv:1.8.0.9) Gecko/20061206 Firefox/1.5.0.9');
$url = 'http://ms.ua/img/12341122.jpeg';
curl_setopt($curl, CURLOPT_URL, $url);
$out = curl_exec($curl);
echo $out;
curl_close($curl);
}
Вот так работает... как я понял загвоздка в CURLOPT_REFERER, без неё не работает...
Хочу спросить, такое решение вообще нормальное? Может можно улучшить?)
_____________
Ex3m.com.ua — Активный образ жизни
Игорь_Vasinsky
11.05.2013 - 20:55
да. мультикурлом с прокси
_____________
HTML, CSS (Bootstrap), JS(JQuery, ExtJS), PHP, MySQL, MSSql, Posgres, (TSql, BI OLAP, MDX), Mongo, Git, SVN, CodeIgnater, Symfony, Yii 2, JiRA, Redmine, Bitbucket, Composer, Rabbit MQ, Amazon (SQS, S3, Transcribe), Docker
dron4ik
11.05.2013 - 21:44
Игорь_VasinskyСенк! сделал... Заказчик доволен)))
_____________
Ex3m.com.ua — Активный образ жизни