Форум PHP программистов > Не могу понять, как спарсить страницу...

[ Поиск ] - [ Пользователи ] - [ Календарь ]

Полная Версия: Не могу понять, как спарсить страницу...

de-face

26.03.2010 - 09:07

Ребят, вобщем такая ситуация.. есть страница с сайта на ДЛЕ
мне нужно спарсить оттуда Дату добавления новости и ссылку на эту новость - их там около 15 на страницу.. Подскажите, как лучше всего это сделать?

Спустя 6 минут, 31 секунда (26.03.2010 - 08:14) qpayct написал(а):

регулярные выражения

Спустя 1 день, 13 часов, 38 минут, 36 секунд (27.03.2010 - 21:52) silius написал(а):

de-face
есть функция file_get_contents() - она считывает файл в строку, после чего просматриваешь(изучаешь) исходный код страницы, а именно между какими тэгами находиться дата, и регулярными выражениями её вынимаешь. Вот и всё!

Спустя 2 дня, 23 часа, 34 минуты, 11 секунд (30.03.2010 - 20:26) de-face написал(а):

да я впринципе через CURL её скачиваю.. а вот только с регулярными выр. у меня проблемы.. ладно попробую вникнуть..

Спустя 5 минут, 44 секунды (30.03.2010 - 20:32) Архуша написал(а):

один совет, так как регулярка должна искать по всему документу одинаковые совпадения, то используй:

preg_match_all

Спустя 3 минуты, 44 секунды (30.03.2010 - 20:36) DedMorozzz написал(а):

	$ch = curl_init();


	curl_setopt($ch, CURLOPT_URL,$url);
	
	curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
	curl_setopt($ch, CURLOPT_COOKIESESSION, 1);	
	curl_setopt($ch, CURLOPT_COOKIEJAR, 'C://xampp/htdocs/cookie.txt');	
	curl_setopt($ch, CURLOPT_COOKIEFILE, 'C://xampp/htdocs/cookie.txt');			
	curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);


	$result = curl_exec ($ch);
	file_put_contents('step1.html',$result);
	preg_match_all("#id=\"__VIEWSTATE\" value=\"(.*)\"#", $result, $matches);
	$first=urlencode($matches[1][0]);

от те кусок с рабочего скрипта. Если страницу не надо сохранять удали пут контент

Быстрый ответ:

Здесь расположена полная версия этой страницы.