[ Поиск ] - [ Пользователи ] - [ Календарь ]
Полная Версия: Парсер сайта объявлений
287_08
Вот есть сайт мой
Как написать парсер?
То есть есть аналогичные сайты, и мне надо парсер, чтобы он заходил к ним туда, и грабил объявления...
Вообще бы хорошо было чтобы с картинками, в нете одни парсеры rss



Спустя 24 минуты, 47 секунд (20.10.2009 - 12:43) glock18 написал(а):
Предупреждение за размещение вопроса в двух темах. Без каких-либо санкций. Просьба на будущее, не размещать больше вопрос более чем в одной теме.

Обычный парсинг вернет тебе разметку. Картинки вставляются в нее тегами, поэтому их надо качать отдельно. смысл ясен?

Спустя 13 минут, 52 секунды (20.10.2009 - 12:57) jetistyum написал(а):
парсинг заключается в том, чтобы получить код страницы, выдрать из него содержимое..
для получения читай про curl , для парсинга читай про regexp

Спустя 33 минуты, 52 секунды (20.10.2009 - 13:31) Gram написал(а):
Цитата (287_08 @ 20.10.2009 - 09:18)
Вот есть сайт мой


Так если сайт ваш, ну и выдавайте нужную инфу в xml, как это делает Gismeteo, а другими своими сайтами обращайтесь к xml файлу.

Спустя 4 минуты, 40 секунд (20.10.2009 - 13:36) jetistyum написал(а):
Gram
внимательнее почитай smile.gif

Спустя 1 час, 7 минут, 16 секунд (20.10.2009 - 14:43) 287_08 написал(а):
Все с парсингом уже разобрался, все текстовые поля считал, задолюался правда лазить по тексту с правками)))
Остался вопрос как картинки теперь воровать)))

Спустя 12 минут, 15 секунд (20.10.2009 - 14:55) Nikitian написал(а):
PHP
file_put_contents('img.jpg',file_get_contents('http://site.ru/img.jpg'));

Кстати, советую перед парсингом читать парсируемый сайт, т.к. например авторю права на изображения в объявлениях берёт к себе и соответственно это будет нарушением авторских прав.

Спустя 17 часов, 21 минута (21.10.2009 - 08:16) 287_08 написал(а):
Имеем предположим вот такой текст.
HTML
<a href="carfoto/car1340_1.jpg" class="thickbox" rel="carfoto" title="ВАЗ 21099"><img src="carfoto/car1340_1_.jpg" width="100" alt="ВАЗ 21099"></a><a href="carfoto/car1340_2.jpg" class="thickbox" rel="carfoto" title="ВАЗ 21099"><img src="carfoto/car1340_2_.jpg" width="100" alt="ВАЗ 21099"></a></div>

В зависимости от того сколько картинок, такой длины и будет текст. ТАк вот. Надо посчитать сколько раз в текст входит "a href" и запомнить. НУ а дальше это в цикл и резать до нормальных адресов.
Внимание вопрос?
Надо посчитать сколько раз в текст входит "a href" ???

Спустя 19 минут, 25 секунд (21.10.2009 - 08:36) 287_08 написал(а):
Цитата
Надо посчитать сколько раз в текст входит "a href" ???

Я тут сам с обой трещу опять...
PHP
$kol_fotos substr_count($kart"href");

Вот оно как

Спустя 1 час, 33 минуты, 22 секунды (21.10.2009 - 10:09) Nikitian написал(а):
Цитата (287_08 @ 21.10.2009 - 05:36)
PHP
$kol_fotos = substr_count($kart, "href");

Вот оно как

Так вы ещё и подобные вещи посчитаете:
HTML
<link href="/style.css" rel="stylesheet" type="text/css" media="handheld"/>

Спустя 3 часа, 37 минут, 49 секунд (21.10.2009 - 13:47) 287_08 написал(а):
Нет, не посчитаю. Я уже в обрезанной строке считаю, там только фотографии

Спустя 34 минуты, 39 секунд (21.10.2009 - 14:21) 287_08 написал(а):
Новая трабла. Я когда с локального севера, то бишь денвера добавляю, у меня все русские буквы отображаются вопросиками.
Получается я на локальном создаю переменные, и отправляю их

Спустя 7 часов, 32 минуты, 1 секунда (21.10.2009 - 21:53) webmasternew написал(а):
Цитата
Новая трабла. Я когда с локального севера, то бишь денвера добавляю, у меня все русские буквы отображаются вопросиками.
Получается я на локальном создаю переменные, и отправляю их

PHP
$text = iconv("UTF-8", "Windows-1251", $text);

вот так попробуй должно быть норма.

Спустя 15 часов, 1 минута, 13 секунд (22.10.2009 - 12:55) 287_08 написал(а):
Спс, но уже решил проблему чуток по другому. Но эта строчка тоже очень помогла... Граблю сайт)) Граблю сайт с которого приходит в кодировке utf.
Долго мучался я))

Спустя 6 часов, 10 минут, 6 секунд (22.10.2009 - 19:05) Guest написал(а):
[move][fliph][flipv][*][*][html] biggrin.gif
Быстрый ответ:

 Графические смайлики |  Показывать подпись
Здесь расположена полная версия этой страницы.
Invision Power Board © 2001-2024 Invision Power Services, Inc.