Здравствуйте Гость ( Вход \| Регистрация )

Правила Закладки Карма Календарь Журналы Помощь Поиск PDA Чат

Форум PHP программистов ► PHP практикум ► PHP для начинающих

Темы: Активные

Подключить миничат

Пейджер выключен!

парсер или граббер каталогов

Подписка на тему | Сообщить другу | + закладки | Версия для печати

pen-exe	۩ [x] Дата
Новичок Профиль Группа: Пользователь Сообщений: 8 Пользователь №: 1859 На форуме: 18 лет, 4 месяца, 11 дней Карма:	вопшем есть такая задача, скопировать всю инфу о сайтах с Я.Каталога. расскажите вобще принципы действия таких скриптов *Спустя 7 часов, 15 минут, 28 секунд* (30.06.2007 - 10:34) welder написал(а): Цитата расскажите вобще принципы действия таких скриптов конект к Я.Каталог -> счтивание инфы -> парсирование её -> выыод на экран -> получение по голове от права облодателя -> суд -> тюрьма -> место под шконкой -> поломанная жизнь Спустя 3 часа, 4 минуты, 37 секунд (30.06.2007 - 13:38) pen-exe написал(а): Цитата(welder @ 30.6.2007, 7:34) [snapback]23861[/snapback] Цитата расскажите вобще принципы действия таких скриптов конект к Я.Каталог -> счтивание инфы -> парсирование её -> выыод на экран -> получение по голове от права облодателя -> суд -> тюрьма -> место под шконкой -> поломанная жизнь спасибо и на этом Спустя 17 дней, 21 час, 8 минут, 8 секунд (18.07.2007 - 10:47) guzul написал(а): кста, тоже интерисуюсь этим вопросом (абсолютно в мирных целях). есть задача: на неком сайте я могу создать свою фотогалерею (просмотр доступен для всех пользователей). Фотографии сохраняються в отдельном каталоге этого сайта. я хочу, чтоб добавленные туда фотографии автоматически отображались и на моем сайте в качестве фотоальбома. для решения этой задачи нужно прочесть каталог, или хотябы проверять наличие файла с извесным именем в нем. Что посоветуете? Спустя 34 минуты, 10 секунд (18.07.2007 - 11:21) guzul написал(а): кстати, если у кого появится альтернативное решение - тоже вариант -=и здесь бизя=- Спустя 11 дней, 23 часа, 26 минут, 19 секунд (30.07.2007 - 10:47) koder написал(а): Цитата(guzul @ 18.7.2007, 12:21) [snapback]24962[/snapback] кста, тоже интерисуюсь этим вопросом (абсолютно в мирных целях). есть задача: на неком сайте я могу создать свою фотогалерею (просмотр доступен для всех пользователей). Фотографии сохраняються в отдельном каталоге этого сайта. я хочу, чтоб добавленные туда фотографии автоматически отображались и на моем сайте в качестве фотоальбома. для решения этой задачи нужно прочесть каталог, или хотябы проверять наличие файла с извесным именем в нем. Что посоветуете? fsockopen или file_get_contents Спустя 13 дней, 2 часа, 28 минут, 2 секунды (13.08.2007 - 13:15) b0d написал(а):** я обычно так делал: 1) складывал скриптом все ссылки в которых содеражли анкетные данные 2) скармиливал базу ссылок второму скрипту который уже из ссылок выдирал нужную инфу и совал либо в хмл либо сразу в базу. Вообщем знать нужно: 1) регэкспы 2) ещё раз регэкспы 3) функции принятия файлов 4) cURL(опционально. просто у меня прокси я пришлось через курлы) вот собссно пример: Код <? function logz($str) { $file = fopen("log.txt", "a"); fputs($file,$str); fclose($file); } function wlink($lnk,$lc) { $z=1; while ($z<=$lc) { $out = preg_replace('/N=(\d+)/i', "N=$z", $lnk); $out.="\n"; $file = fopen("links.txt", "a"); //die($out); fputs($file,$out); fclose($file); $z++; } } ##########Выкачиваем список категорий для выбранного города ######### logz("Выкачиваем список категорий\n"); $ch = curl_init(); $lnk = "http://site"; // категории объйвлений по городу curl_setopt($ch, CURLOPT_PROXY, "192.168.1.100:8080"); curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); curl_setopt ($ch, CURLOPT_URL, $lnk ); $page = curl_exec ( $ch ); curl_close($ch); $out = array(); preg_match_all('\|<a.* href=(.)>(.)</a>\|U', $page, $links); //print_r($links); //массив со ссылками $d=array(); $d=$links[1]; logz("Начало цикла распознавания кол-ва страниц\n"); foreach ($d as $lnk) { $lnk="http://site/".$lnk; logz("Обработка ссылки $lnk\n"); $ch = curl_init(); curl_setopt($ch, CURLOPT_PROXY, "192.168.1.100:8080"); curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); curl_setopt ($ch, CURLOPT_URL, $lnk ); $page = curl_exec ( $ch ); curl_close($ch); preg_match('/Найдено: (\d+)<\/font/i', $page, $out); //print_r ($out); $n=$out[1]; // Найдено организаций $lc=ceil($n/10); // Сколько страниц с организациями logz("Отдаём ссылку на запись в файл".$lnk.$lc."\n"); wlink($lnk,$lc); } ?> я немного покусал скрипт чтобы неспалиццо с сайтом. но я думаю суть ясна, проходим по ссылкам и делаем базу ссылок а потом похожим оборазом кусаем оттдуда инфу. а с logz фишка, открываете файл в который пишется лог FARом и в прямом эфире смотрите как и что там происходит. --------------------

1 Пользователей читают эту тему (1 Гостей и 0 Скрытых Пользователей)

0 Пользователей:

« Предыдущая тема | PHP для начинающих | Следующая тема »

[ Время генерации скрипта: 0,0705 ] [ Использовано запросов: 22 ] [ GZIP включён ]

Лучшая система размещения статей

Powered by MrFatCat, v1.1 multidomen edition © 2003-2025
Дизайн Евгения Латыш

⇑