Форум PHP программистов > парсер или граббер каталогов

[ Поиск ] - [ Пользователи ] - [ Календарь ]

Полная Версия: парсер или граббер каталогов

pen-exe

30.06.2007 - 04:18

вопшем есть такая задача, скопировать всю инфу о сайтах с Я.Каталога.
расскажите вобще принципы действия таких скриптов

Спустя 7 часов, 15 минут, 28 секунд (30.06.2007 - 10:34) welder написал(а):

Цитата

расскажите вобще принципы действия таких скриптов

конект к Я.Каталог -> счтивание инфы -> парсирование её -> выыод на экран -> получение по голове от права облодателя -> суд -> тюрьма -> место под шконкой -> поломанная жизнь

Спустя 3 часа, 4 минуты, 37 секунд (30.06.2007 - 13:38) pen-exe написал(а):

Цитата(welder @ 30.6.2007, 7:34) [snapback]23861[/snapback]

Цитата

расскажите вобще принципы действия таких скриптов

спасибо и на этом

Спустя 17 дней, 21 час, 8 минут, 8 секунд (18.07.2007 - 10:47) guzul написал(а):

кста, тоже интерисуюсь этим вопросом (абсолютно в мирных целях).
есть задача:
на неком сайте я могу создать свою фотогалерею (просмотр доступен для всех пользователей). Фотографии сохраняються в отдельном каталоге этого сайта. я хочу, чтоб добавленные туда фотографии автоматически отображались и на моем сайте в качестве фотоальбома.
для решения этой задачи нужно прочесть каталог, или хотябы проверять наличие файла с извесным именем в нем. Что посоветуете?

Спустя 34 минуты, 10 секунд (18.07.2007 - 11:21) guzul написал(а):

кстати, если у кого появится альтернативное решение - тоже вариант

-=и здесь бизя=-

Спустя 11 дней, 23 часа, 26 минут, 19 секунд (30.07.2007 - 10:47) koder написал(а):

Цитата(guzul @ 18.7.2007, 12:21) [snapback]24962[/snapback]

fsockopen или file_get_contents

Спустя 13 дней, 2 часа, 28 минут, 2 секунды (13.08.2007 - 13:15) b0d написал(а):

я обычно так делал:
1) складывал скриптом все ссылки в которых содеражли анкетные данные
2) скармиливал базу ссылок второму скрипту который уже из ссылок выдирал нужную инфу и совал либо в хмл либо сразу в базу.

Вообщем знать нужно:
1) регэкспы
2) ещё раз регэкспы

3) функции принятия файлов
4) cURL(опционально. просто у меня прокси я пришлось через курлы)

вот собссно пример:

Код

<?

function logz($str)
{
$file = fopen("log.txt", "a");
      fputs($file,$str);
      fclose($file);
}

function wlink($lnk,$lc)
{
  $z=1;
  while ($z<=$lc)
  {
    $out = preg_replace('/N=(\d+)/i', "N=$z", $lnk);
    $out.="\n";
      $file = fopen("links.txt", "a");
      //die($out);
      fputs($file,$out);
      fclose($file);
    $z++;
  }

}

##########Выкачиваем список категорий для выбранного города #########
logz("Выкачиваем список категорий\n");
$ch = curl_init();
$lnk = "http://site"; // категории объйвлений по городу
curl_setopt($ch, CURLOPT_PROXY, "192.168.1.100:8080");
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt ($ch, CURLOPT_URL, $lnk );
$page = curl_exec ( $ch );
curl_close($ch);

$out = array();
preg_match_all('|<a.* href=(.*)>(.*)</a>|U', $page, $links);
//print_r($links); //массив со ссылками

$d=array();
$d=$links[1];

logz("Начало цикла распознавания кол-ва страниц\n");
foreach ($d as $lnk)
{
$lnk="http://site/".$lnk;
logz("Обработка ссылки $lnk\n");
  $ch = curl_init();
  curl_setopt($ch, CURLOPT_PROXY, "192.168.1.100:8080");
  curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
  curl_setopt ($ch, CURLOPT_URL, $lnk );
  $page = curl_exec ( $ch );
  curl_close($ch);
  preg_match('/Найдено: (\d+)<\/font/i', $page, $out);
  //print_r ($out);
  $n=$out[1]; // Найдено организаций
  $lc=ceil($n/10); // Сколько страниц с организациями
  logz("Отдаём ссылку на запись в файл".$lnk.$lc."\n");
  wlink($lnk,$lc);

}

?>

я немного покусал скрипт чтобы неспалиццо с сайтом.
но я думаю суть ясна, проходим по ссылкам и делаем базу ссылок а потом похожим оборазом кусаем оттдуда инфу.
а с logz фишка, открываете файл в который пишется лог FARом и в прямом эфире смотрите как и что там происходит.

_____________

Быстрый ответ:

Здесь расположена полная версия этой страницы.