[ Поиск ] - [ Пользователи ] - [ Календарь ]
Полная Версия: Не могу понять, как спарсить страницу...
de-face
Ребят, вобщем такая ситуация.. есть страница с сайта на ДЛЕ
мне нужно спарсить оттуда Дату добавления новости и ссылку на эту новость - их там около 15 на страницу.. Подскажите, как лучше всего это сделать?



Спустя 6 минут, 31 секунда (26.03.2010 - 08:14) qpayct написал(а):
регулярные выражения

Спустя 1 день, 13 часов, 38 минут, 36 секунд (27.03.2010 - 21:52) silius написал(а):
de-face
есть функция file_get_contents() - она считывает файл в строку, после чего просматриваешь(изучаешь) исходный код страницы, а именно между какими тэгами находиться дата, и регулярными выражениями её вынимаешь. Вот и всё! smile.gif

Спустя 2 дня, 23 часа, 34 минуты, 11 секунд (30.03.2010 - 20:26) de-face написал(а):
да я впринципе через CURL её скачиваю.. а вот только с регулярными выр. у меня проблемы.. ладно попробую вникнуть..

Спустя 5 минут, 44 секунды (30.03.2010 - 20:32) Архуша написал(а):
один совет, так как регулярка должна искать по всему документу одинаковые совпадения, то используй:

preg_match_all

Спустя 3 минуты, 44 секунды (30.03.2010 - 20:36) DedMorozzz написал(а):
	$ch = curl_init();


curl_setopt($ch, CURLOPT_URL,$url);

curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_COOKIESESSION, 1);
curl_setopt($ch, CURLOPT_COOKIEJAR, 'C://xampp/htdocs/cookie.txt');
curl_setopt($ch, CURLOPT_COOKIEFILE, 'C://xampp/htdocs/cookie.txt');
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);


$result = curl_exec ($ch);
file_put_contents('step1.html',$result);
preg_match_all("#id=\"__VIEWSTATE\" value=\"(.*)\"#", $result, $matches);
$first=urlencode($matches[1][0]);


от те кусок с рабочего скрипта. Если страницу не надо сохранять удали пут контент
Быстрый ответ:

 Графические смайлики |  Показывать подпись
Здесь расположена полная версия этой страницы.
Invision Power Board © 2001-2024 Invision Power Services, Inc.