[ Поиск ] - [ Пользователи ] - [ Календарь ]
Полная Версия: Нужна помощь с парсером
Dikon
Есть парсер, заточил под сайт, хавает нормально, тока вот линки на файлы не берет, файлы не качает. Собсно листинг парсера предлагаю, где добить ссылочку?

Свернутый текст
<?
$ch = curl_init ();
curl_setopt ($ch , CURLOPT_URL , "http://orel-region.ru/index.php?head=6&part=73&unit=33&op=8&in=1& ;quo t;);
curl_setopt (
$ch , CURLOPT_USERAGENT , "Mozilla/5.0");
curl_setopt (
$ch , CURLOPT_RETURNTRANSFER , 1 );
$content = curl_exec($ch);
curl_close(
$ch);

//preg_match_all("
/<p>(.*)<br>\r\n<a href=\"(.*)\">.*<\/a><\/p>/isU",
//preg_match_all("/<h1>(.*)<\/span><\/div><\/div>/isU",
preg_match_all("/<\/a><\/p>\<h1>(.*)<\/span><\/div><\/div>/isU",
$content, $matches, PREG_PATTERN_ORDER);

for ($i = 0; $i < count($matches[1]); $i++)
{
echo "<h1>".$matches[1][$i]."</h1>";
flush();
$ch = curl_init ();
curl_setopt ($ch , CURLOPT_URL , $matches[2][$i]);
curl_setopt ($ch , CURLOPT_USERAGENT , "Mozilla/5.0");
curl_setopt ($ch , CURLOPT_RETURNTRANSFER , 1 );
$content = curl_exec($ch);
curl_close($ch);

}

?>


Просьба сильно не пинать, ибо тока начинаю)

 ! 

М
Обрамляйте код тегами [php][/php] !
PHPprogramer




Спустя 27 минут, 3 секунды (15.07.2011 - 12:09) Guest написал(а):
Dikon а я бы написал так
<? php 
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, "http://orel-region.ru/index.php?head=6&part=73&unit=33&op=8&in=1&quo t;);
curl_setopt($ch, CURLOPT_USERAGENT, "Mozilla/5.0");
curl_setopt($ch, CURLOPT_return TRANSFER, 1);
$content = curl_exec($ch);
curl_close($ch);
//preg_match_all("/<p>(.*)<br>\r\n<a href=\"(.*)\">.*<\/a><\/p>/isU",
//preg_match_all("/<h1>(.*)<\/span><\/div><\/div>/isU",

preg_match_all("/<\/a><\/p>\<h1>(.*)<\/span><\/div><\/div>/isU", $content, $matches, PREG_PATTERN_ or DER);
for($i = 0; $i < count($matches[1]); $i++)
{
echo "<h1>". $matches[1][$i] ."</h1>";
flush();
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $matches[2][$i]);
curl_setopt($ch, CURLOPT_USERAGENT, "Mozilla/5.0");
curl_setopt($ch, CURLOPT_return TRANSFER, 1);
$content = curl_exec($ch);
curl_close($ch);
}
?>

Классно видно да? 'это вышло вот этим
YVSIK

Спустя 11 минут, 45 секунд (15.07.2011 - 12:21) Guest написал(а):
PHPprogramer человек только пришел ну ты его с порога
БА-БАХ БАХ БАХ ПО голове
он же не может вам тем же ответить,
причем, я ему уже все исправил.



Спустя 4 минуты, 20 секунд (15.07.2011 - 12:25) Winston написал(а):
Guest
В будущем будет знать.
PS: Твой бан уже вышел, можешь логиниться.

Спустя 52 минуты, 4 секунды (15.07.2011 - 13:17) Dikon написал(а):
Спасиб за поучения канеш, но потестил, не пашет...файлы так же не льет по ссылке...по сути то ничего не поменялось. Объясню поподробней: на сайте исходнике, где лежит инфа, есть ссылки на документы. На моем все это появляется, ссылка на документ, текст, но при переходе по ссылке для скачивания, не качает, 404 чудесную циферку выдает. Собсно нужно чтоп можно было качнуть файлы с моего сайта, ссылка на скаичвание работала

Спустя 2 часа, 48 минут (15.07.2011 - 16:05) Guest написал(а):
вот посмотри два кода
то что в первом посте и во втором ,
там что-то, есть различия ,
и эти различия связаны с написанием кода
я не оч разобрал что там написано
но по моему ещё-б добавить комментариев
что для чего служит ,
я не профи и не очень обращай на меня внимания ,
дремучий юзверь что с такого взять biggrin.gif

Спустя 2 дня, 15 часов, 51 минута, 34 секунды (18.07.2011 - 07:57) Dikon написал(а):
Скрипт тестил, не пашет вообще, оставил по старому....
Вот мне интересно, где в коде прописать(и что самое главное), чтоп ссылка на файл работала...текст берет без проблем

Спустя 1 час, 17 минут, 55 секунд (18.07.2011 - 09:15) Sanchopansa написал(а):
судя по твоей регулярке ты вообще не парсиш ссылку...
 preg_match_all("/<\/a><\/p>\<h1>(.*)<\/span><\/div><\/div>/isU", $content, $matches, PREG_PATTERN_ or DER);

чтоб ее пропарсить нужно что-то типа
 preg_match_all('/<a[^>]*href="([^"]+)"[^>]*>.*<\/a><\/p>\<h1>(.*)<\/span><\/div><\/div>/isU', $content, $matches, PREG_PATTERN_ or DER);

Спустя 43 минуты, 35 секунд (18.07.2011 - 09:58) Dikon написал(а):
Спасибо, хорошую идейку подкинул:) тока вот пока не пашет, синтаксис косячит...разгребаюсь, но пока не пойму sad.gif вот кстати кусок кода(который загребается) с оригинального сайта, с которого собсно и деру:

</a></p><h1>Управление здравоохранения</h1><p class='z2'>Мероприятия</p><br><div class="ActivList"><span class="left"><b>16.04.2010</b>&nbsp;Управление здравоохранения Департамента здравоохранения и социального развития Орловской области сообщает, что с 24 апреля по 1 мая 2010 года в Орловской области пройдут мероприятия Европейской недели иммунизации. Целью этих мероприятий является повышение уровня информированности населения в вопросах профилактики инфекционных заболеваний<br><img src="./images/para.gif" hspace="5"> [<a href="./sendfile.php?id=2533">загрузить</a>, doc 23,00 kB]</span></div></div>

/sendfile.php?id=2533 собсно сцылко на файл, которая у меня не пашет. вот как енто прописать правильно, чтоп работало...вопрос

Спустя 35 минут, 48 секунд (18.07.2011 - 10:34) Sanchopansa написал(а):
ну так сделай что-то типа этого:
$reg = '#<h1>(.*)</h1><p[^>]*>(.*)<\/p>.*<div[^>]*><span[^>]*><b>(.*)<\/b>.*<img[^>]* src="([^"]+)"[^>]*>.*<a[^>]* href="([^>]+)"[^>]*>.*<\/a>.*<\/span><\/div>#isU';


и не забудь потом к ссылкам добавить адрес сайта источника.. так как ссылки относительные

Спустя 31 минута, 16 секунд (18.07.2011 - 11:05) walerus написал(а):
Цитата (Dikon @ 18.07.2011 - 06:58)
Спасибо, хорошую идейку подкинул:) тока вот пока не пашет, синтаксис косячит...разгребаюсь, но пока не пойму sad.gif вот кстати кусок кода(который загребается) с оригинального сайта, с которого собсно и деру:

</a></p><h1>Управление здравоохранения</h1><p class='z2'>Мероприятия</p><br><div class="ActivList"><span class="left"><b>16.04.2010</b>&nbsp;Управление здравоохранения Департамента здравоохранения и социального развития Орловской области сообщает, что с 24 апреля по 1 мая 2010 года в Орловской области пройдут мероприятия Европейской недели иммунизации. Целью этих мероприятий является повышение уровня информированности населения в вопросах профилактики инфекционных заболеваний<br><img src="./images/para.gif" hspace="5"> [<a href="./sendfile.php?id=2533">загрузить</a>, doc 23,00 kB]</span></div></div>

/sendfile.php?id=2533 собсно сцылко на файл, которая у меня не пашет. вот как енто прописать правильно, чтоп работало...вопрос

Цитата
/sendfile.php?id=2533 собсно сцылко на файл, которая у меня не пашет. вот как енто прописать правильно, чтоп работало...вопрос

попробуй добавить перед "/sendfile.php?id=2533" доменное имя, если я правильно понял... Получится что то типа - http://domen.com/sendfile.php?id=2533...

Спустя 3 часа, 2 минуты, 43 секунды (18.07.2011 - 14:08) Dikon написал(а):
Sanchopansa выдает Parse error: syntax error, unexpected ',' in Z:\home\onmb.zdravorel.ru\www\index.php on line 17

И кстати при удалении знаков "#" вообще пустая страница вылетает без надписей...где эту запятую искать, пока не фтыкнул)))

Спустя 10 минут, 11 секунд (18.07.2011 - 14:18) ADiel написал(а):
На 17 строке. Хоть бы строку показал

Спустя 1 минута, 49 секунд (18.07.2011 - 14:20) Dikon написал(а):
16 строка $reg = '#<h1>(.*)</h1><p[^>]*>(.*)<\/p>.*<div[^>]*><span[^>]*><b>(.*)<\/b>.*<img[^>]* src="([^"]+)"[^>]*>.*<a[^>]* href="([^>]+)"[^>]*>.*<\/a>.*<\/span><\/div>#isU';
17 строка $content, $matches, PREG_PATTERN_ORDER);

Спустя 48 секунд (18.07.2011 - 14:21) Dikon написал(а):
мож чего не пральна сделал? голова уже пухнет smile.gif

Спустя 1 день, 20 часов, 31 минута, 53 секунды (20.07.2011 - 10:53) Dikon2 написал(а):
Ссылка прекрасно парсится, тут вопрос в каком месте на выводе поставить их ссылку, чтобы путь ввел не относительно моего сайта а на их сайт!

Спустя 6 дней, 3 часа, 33 минуты, 27 секунд (26.07.2011 - 14:26) Dikon написал(а):
парни, вопрос с парсером все еще стоит, ссылка прекрасно парсится, но как описано выше, нужно что бы путь вел с моего сайта на файл их сайта, а не выдавал 404

Спустя 1 час, 47 минут, 21 секунда (26.07.2011 - 16:13) walerus написал(а):
Цитата (Dikon @ 26.07.2011 - 11:26)
парни, вопрос с парсером все еще стоит, ссылка прекрасно парсится, но как описано выше, нужно что бы путь вел с моего сайта на файл их сайта, а не выдавал 404

Я же предложил вариант, как то никак не отреагировал никто...

Спустя 2 дня, 19 часов, 58 минут, 12 секунд (29.07.2011 - 12:12) Dikon написал(а):
Цитата (walerus @ 26.07.2011 - 13:13)
Цитата (Dikon @ 26.07.2011 - 11:26)
парни, вопрос с парсером все еще стоит, ссылка прекрасно парсится, но как описано выше, нужно что бы путь вел с моего сайта на файл их сайта, а не выдавал 404

Я же предложил вариант, как то никак не отреагировал никто...

А что прописывать? в коде участок определенный забирается, в нем есть ссылка. она тож парсится, но тока на моей страничке при нажатии на нее ничего не качается, а пишет что страничка не найдена. вот что, как и где дописать в моем коде, чтобы она(ссылка) работала на моей страничке?
Быстрый ответ:

 Графические смайлики |  Показывать подпись
Здесь расположена полная версия этой страницы.
Invision Power Board © 2001-2024 Invision Power Services, Inc.