Форум PHP программистов > Помогите распарсить объявления с сайта

[ Поиск ] - [ Пользователи ] - [ Календарь ]

Полная Версия: Помогите распарсить объявления с сайта

LucidMind

25.07.2012 - 12:24

Добрый день!

Один мой товарищ хочет заняться риэлтерской деятельностью, обратился ко мне за помощью - сделать прогу для автоматического поиска новых объявлений с одного сайта (чтобы не заходить на сайт с объявлениями и не копаться в нем, а заходить на свой сайт, нажать одну кнопку и получить готовый список).

Я так понимаю, удобно подобную задачу решать с помощью регулярных выражений.... но у меня опыта тут 0..... порылся в интернете поискал похожие задачи, но что-то у меня никак не получается....

Может кто подскажет?

есть страница в интернете:

http://www.pushkino.org/?ex=0&id=99846448&...rpage=20#nstart

из неё мне надо сначала выделить саму таблицу "Результаты поиска", а потом уже обработать строки....

Но у меня даже не получается таблицу выделить....

пытался сделать так:

preg_match_all('/<table.*class=\"nedvtable\">(.*)<\/table>/sei', $texthtm, $result);
echo $result[1][0];

но результат вылазит за конец таблицы захватывая лишние строки.....

пробовал использовать:

$texthtm = iconv("ASCII", "UTF-8", $texthtm);
$rez = new SimpleXMLElement($texthtm);

но эта функция вообще не хочет разбирать документ

Спустя 6 минут, 15 секунд (25.07.2012 - 11:30) Игорь_Vasinsky написал(а):

Могу написать, раз опыта мало - то учиться много.
700 WMR - упакую данные с этой страницы в удобный ассоц. массив - а далее вы сможете делать с ними всё что угодно.

Спустя 3 минуты, 15 секунд (25.07.2012 - 11:33) kamanch написал(а):

Думаю, что лучше всего в данной ситуации будет написать владельцу pushkino.org о том, что у него собираются ~~пиз~~ воровать контент.
А заодно отправить ему скрпт-сторож, который будет отлавливать парсинг и блокировать по IP
В подарок от коллектива phpforum.ru

Спустя 3 минуты, 24 секунды (25.07.2012 - 11:37) Игорь_Vasinsky написал(а):

h.n.81
Не правильный ход мысли (порядок).

1. Дождаться ответа от ТС по моему предложение
- Ответ: НЕТ == потом делать что угодно и с кем удобно
- Ответ: Да == дождаться от меня сообщение, что заказ выполнен, оплата получена - и потом делать что угодно и с кем удобно.

Спустя 10 минут, 55 секунд (25.07.2012 - 11:48) kamanch написал(а):

Спустя 11 минут, 8 секунд (25.07.2012 - 11:59) LucidMind написал(а):

Цитата (h.n.81 @ 25.07.2012 - 08:33)

Думаю, что лучше всего в данной ситуации будет написать владельцу pushkino.org о том, что у него собираются ~~пиз~~ воровать контент.
А заодно отправить ему скрпт-сторож, который будет отлавливать парсинг и блокировать по IP
В подарок от коллектива phpforum.ru

Ну не согласен с Вами

ну вот вы даете.... значит читать и переписывать на бумажку инфу с сайта - это не возброняется, а поручить тоже самое дело программе - это возброняется??? Это примерно так же, как обвинить хлебороба собирающего урожай на комбайне и сказать ему, что он должен это делать исключительно вручную.... с косой в руках

И потом, это не воровство.... данные лежат в открытом доступе.... я же не собираюсь взламывать пароли к БД и пр, а просто автоматизирую сбор ОТКРЫТОЙ для всех информации, так что Вы (и подобные Вам) тут совершенно не правы!

Почему-то Яндекс'а никто вором не называет, однако кто-кто, а вот Яндекс больше всех ~~напиз....~~ насобирал инфы и кучу сервисов сделал платных и бесплатных на основе этих данных.

И опять же, сами то вы - наверное ангел с крылышками и никогда не занимались автоматизацией ручного труда?

Спустя 12 минут, 59 секунд (25.07.2012 - 12:12) kamanch написал(а):

Автоматизацией занимаемся.
А тот же яндекс или гугль банят по ip за парсинг их выдачи.

Я вот, честно говоря, не силен в законодательстве России, но в моей стране хакерством (соответсвенно и ответсвенность) называется любое действие на сайте, непредусмотренное функционалом этого сайта.
Просматривать, фотографировать, маркером на мониторе помечать - это пожалуйста. А парсить - это уже статья...

Спустя 33 минуты, 59 секунд (25.07.2012 - 12:46) LucidMind написал(а):

Цитата (h.n.81 @ 25.07.2012 - 09:12)

....
Просматривать, фотографировать, маркером на мониторе помечать - это пожалуйста. А парсить - это уже статья...

тогда и фотографировать - тоже спорно...

хм.... а вот в нашей стране, сразу нашелся желающий - сделать это за деньги

- некто Игорь_Vasinsky, а потом еще и сдать клиента....

т.е.

во-первых, стать соучастником неправомерного по его и вашему мнению действия, и заработать денег

а во-вторых, после этого еще и сдать сообщника

Спустя 39 секунд (25.07.2012 - 12:46) LucidMind написал(а):

интересная у нас тут беседа получается

Спустя 13 минут, 4 секунды (25.07.2012 - 12:59) Gabriel написал(а):

http://xdan.ru/Uchimsya-parsit-saity-s-bib...DOM-Parser.html
а флуда то скоко

Спустя 3 минуты, 7 секунд (25.07.2012 - 13:03) dron4ik написал(а):

Игорь_Vasinsky, а розмещение видео записей с других источников у себя на сайте правомерно? Если нет, то я попал))))

Спустя 11 минут, 23 секунды (25.07.2012 - 13:14) Игорь_Vasinsky написал(а):

не пойман - не вор.

Спустя 24 минуты, 55 секунд (25.07.2012 - 13:39) dron4ik написал(а):

Цитата (Игорь_Vasinsky @ 25.07.2012 - 10:14)

не пойман - не вор.

Браво))))

Спустя 8 минут, 28 секунд (25.07.2012 - 13:47) LucidMind написал(а):

да....
как говорится, кто без греха, пусть первым кинет в меня камень.....

Спустя 5 минут, 37 секунд (25.07.2012 - 13:53) Игорь_Vasinsky написал(а):

ну так будем делать заказ?

Спустя 2 минуты, 50 секунд (25.07.2012 - 13:56) kamanch написал(а):

за 10 % никому ничего не скажу

Спустя 1 час, 56 минут, 52 секунды (25.07.2012 - 15:53) LucidMind написал(а):

нет, спасибо

Спустя 19 дней, 14 часов, 18 минут, 18 секунд (15.08.2012 - 06:11) Slavok написал(а):

LucidMind,
парсить html через regexp неправильно. Надо пользоваться xpath. Вот хорошая статья на Хабре.

Спустя 7 минут, 6 секунд (15.08.2012 - 06:18) Игорь_Vasinsky написал(а):

тебя обманули.

парсить можно всё (всё, что парситься). и регулярками и такими библиями как

«PHPQuery»
«Simple HTML DOM»
«Zend DOM Query»
«Nokogiri»

так что ты фигню сморозил

Спустя 25 минут, 12 секунд (15.08.2012 - 06:43) Slavok написал(а):

А я и не спорю, что можно. Сам, чем только не парсил

Но по-моему самый гибкий механизм у XPath.

Спустя 26 минут, 16 секунд (15.08.2012 - 07:09) Игорь_Vasinsky написал(а):

Цитата

Но по-моему самый гибкий механизм у XPath.

может. не юзал. а не с валидным html - xhtml - он справиться??

а это

Цитата

парсить html через regexp неправильно. Надо пользоваться xpath.

каждый сам себе выбирает

Быстрый ответ:

Здесь расположена полная версия этой страницы.