Как написать парсер?
То есть есть аналогичные сайты, и мне надо парсер, чтобы он заходил к ним туда, и грабил объявления...
Вообще бы хорошо было чтобы с картинками, в нете одни парсеры rss
Спустя 24 минуты, 47 секунд (20.10.2009 - 12:43) glock18 написал(а):
Предупреждение за размещение вопроса в двух темах. Без каких-либо санкций. Просьба на будущее, не размещать больше вопрос более чем в одной теме.
Обычный парсинг вернет тебе разметку. Картинки вставляются в нее тегами, поэтому их надо качать отдельно. смысл ясен?
Обычный парсинг вернет тебе разметку. Картинки вставляются в нее тегами, поэтому их надо качать отдельно. смысл ясен?
Спустя 13 минут, 52 секунды (20.10.2009 - 12:57) jetistyum написал(а):
парсинг заключается в том, чтобы получить код страницы, выдрать из него содержимое..
для получения читай про curl , для парсинга читай про regexp
для получения читай про curl , для парсинга читай про regexp
Спустя 33 минуты, 52 секунды (20.10.2009 - 13:31) Gram написал(а):
Цитата (287_08 @ 20.10.2009 - 09:18) |
Вот есть сайт мой |
Так если сайт ваш, ну и выдавайте нужную инфу в xml, как это делает Gismeteo, а другими своими сайтами обращайтесь к xml файлу.
Спустя 4 минуты, 40 секунд (20.10.2009 - 13:36) jetistyum написал(а):
Gram
внимательнее почитай
внимательнее почитай

Спустя 1 час, 7 минут, 16 секунд (20.10.2009 - 14:43) 287_08 написал(а):
Все с парсингом уже разобрался, все текстовые поля считал, задолюался правда лазить по тексту с правками)))
Остался вопрос как картинки теперь воровать)))
Остался вопрос как картинки теперь воровать)))
Спустя 12 минут, 15 секунд (20.10.2009 - 14:55) Nikitian написал(а):
PHP |
file_put_contents('img.jpg',file_get_contents('http://site.ru/img.jpg')); |
Кстати, советую перед парсингом читать парсируемый сайт, т.к. например авторю права на изображения в объявлениях берёт к себе и соответственно это будет нарушением авторских прав.
Спустя 17 часов, 21 минута (21.10.2009 - 08:16) 287_08 написал(а):
Имеем предположим вот такой текст.
HTML |
<a href="carfoto/car1340_1.jpg" class="thickbox" rel="carfoto" title="ВАЗ 21099"><img src="carfoto/car1340_1_.jpg" width="100" alt="ВАЗ 21099"></a><a href="carfoto/car1340_2.jpg" class="thickbox" rel="carfoto" title="ВАЗ 21099"><img src="carfoto/car1340_2_.jpg" width="100" alt="ВАЗ 21099"></a></div> |
В зависимости от того сколько картинок, такой длины и будет текст. ТАк вот. Надо посчитать сколько раз в текст входит "a href" и запомнить. НУ а дальше это в цикл и резать до нормальных адресов.
Внимание вопрос?
Надо посчитать сколько раз в текст входит "a href" ???
Спустя 19 минут, 25 секунд (21.10.2009 - 08:36) 287_08 написал(а):
Цитата |
Надо посчитать сколько раз в текст входит "a href" ??? |
Я тут сам с обой трещу опять...
PHP |
$kol_fotos = substr_count($kart, "href"); |
Вот оно как
Спустя 1 час, 33 минуты, 22 секунды (21.10.2009 - 10:09) Nikitian написал(а):
Цитата (287_08 @ 21.10.2009 - 05:36) | ||
Вот оно как |
Так вы ещё и подобные вещи посчитаете:
HTML |
<link href="/style.css" rel="stylesheet" type="text/css" media="handheld"/> |
Спустя 3 часа, 37 минут, 49 секунд (21.10.2009 - 13:47) 287_08 написал(а):
Нет, не посчитаю. Я уже в обрезанной строке считаю, там только фотографии
Спустя 34 минуты, 39 секунд (21.10.2009 - 14:21) 287_08 написал(а):
Новая трабла. Я когда с локального севера, то бишь денвера добавляю, у меня все русские буквы отображаются вопросиками.
Получается я на локальном создаю переменные, и отправляю их
Получается я на локальном создаю переменные, и отправляю их
Спустя 7 часов, 32 минуты, 1 секунда (21.10.2009 - 21:53) webmasternew написал(а):
Цитата |
Новая трабла. Я когда с локального севера, то бишь денвера добавляю, у меня все русские буквы отображаются вопросиками. Получается я на локальном создаю переменные, и отправляю их |
PHP |
$text = iconv("UTF-8", "Windows-1251", $text); |
вот так попробуй должно быть норма.
Спустя 15 часов, 1 минута, 13 секунд (22.10.2009 - 12:55) 287_08 написал(а):
Спс, но уже решил проблему чуток по другому. Но эта строчка тоже очень помогла... Граблю сайт)) Граблю сайт с которого приходит в кодировке utf.
Долго мучался я))
Долго мучался я))
Спустя 6 часов, 10 минут, 6 секунд (22.10.2009 - 19:05) Guest написал(а):
[move][fliph][flipv][*][*][html]
