[ Поиск ] - [ Пользователи ] - [ Календарь ]
Полная Версия: Парсер страницы
bortmehannik
Добрый день, обращаюсь за помощью к вам.
Я уже всю голову сломал, помогите спарсить часть вот этой страницы:
https://www.coursera.org/account/accomplish...ds/A92XVRW5TSLB
А конкретно имя и фамилию, заранее благодарю
Zzepish
bortmehannik
поможем за деньгу. Иначе - где твои наработки?
bortmehannik
<?php
$ch = curl_init();
curl_setopt ($ch, CURLOPT_URL, 'https://www.coursera.org/account/accomplishments/records/A92XVRW5TSLB');
curl_setopt ($ch, CURLOPT_SSL_VERIFYPEER, FALSE);
curl_setopt ($ch, CURLOPT_RETURNTRANSFER, TRUE);
$result = curl_exec ($ch);
curl_close($ch);
preg_match('//*[@id="rendered-content"]/div/div/div/div[1]', $ch);

echo $result;
?>

Делал так, но результат не тот
Zzepish
bortmehannik
во-первых, где ограничители регулярного выражения?
bortmehannik
а как это сделать?
redreem
страница-то вообще пориходит?
bortmehannik
да приходит хедер и футер, а в центре пишет "ошиблись в запросе"
redreem
ну значит тебя "детектят". пробуй более реалистичный запрос, чтобы была видимость запроса от реального юзера. у курла много настроек.
redreem
отправляй полноценные заголовки в первую очередь.
bortmehannik
а каким образом это сделать? просто как я понял, этот сайт на каждый элемент посылает конкретный запрос, а как его вытащить я не знаю
redreem
Цитата (bortmehannik @ 22.05.2016 - 14:48)
поможем за деньгу.

ибо дальнейшее обсуждение требует анализа сайта и подробного вникания в ситуацию.
Быстрый ответ:

 Графические смайлики |  Показывать подпись
Здесь расположена полная версия этой страницы.
Invision Power Board © 2001-2024 Invision Power Services, Inc.