Один мой товарищ хочет заняться риэлтерской деятельностью, обратился ко мне за помощью - сделать прогу для автоматического поиска новых объявлений с одного сайта (чтобы не заходить на сайт с объявлениями и не копаться в нем, а заходить на свой сайт, нажать одну кнопку и получить готовый список).
Я так понимаю, удобно подобную задачу решать с помощью регулярных выражений.... но у меня опыта тут 0..... порылся в интернете поискал похожие задачи, но что-то у меня никак не получается....
Может кто подскажет?
есть страница в интернете:
http://www.pushkino.org/?ex=0&id=99846448&...rpage=20#nstart
из неё мне надо сначала выделить саму таблицу "Результаты поиска", а потом уже обработать строки....
Но у меня даже не получается таблицу выделить....
пытался сделать так:
preg_match_all('/<table.*class=\"nedvtable\">(.*)<\/table>/sei', $texthtm, $result);
echo $result[1][0];
но результат вылазит за конец таблицы захватывая лишние строки.....
пробовал использовать:
$texthtm = iconv("ASCII", "UTF-8", $texthtm);
$rez = new SimpleXMLElement($texthtm);
но эта функция вообще не хочет разбирать документ
Спустя 6 минут, 15 секунд (25.07.2012 - 11:30) Игорь_Vasinsky написал(а):
Могу написать, раз опыта мало - то учиться много.
700 WMR - упакую данные с этой страницы в удобный ассоц. массив - а далее вы сможете делать с ними всё что угодно.
700 WMR - упакую данные с этой страницы в удобный ассоц. массив - а далее вы сможете делать с ними всё что угодно.
Спустя 3 минуты, 15 секунд (25.07.2012 - 11:33) kamanch написал(а):
Думаю, что лучше всего в данной ситуации будет написать владельцу pushkino.org о том, что у него собираются пиз воровать контент.
А заодно отправить ему скрпт-сторож, который будет отлавливать парсинг и блокировать по IP
В подарок от коллектива phpforum.ru
А заодно отправить ему скрпт-сторож, который будет отлавливать парсинг и блокировать по IP
В подарок от коллектива phpforum.ru
Спустя 3 минуты, 24 секунды (25.07.2012 - 11:37) Игорь_Vasinsky написал(а):
h.n.81
Не правильный ход мысли (порядок).
1. Дождаться ответа от ТС по моему предложение
- Ответ: НЕТ == потом делать что угодно и с кем удобно
- Ответ: Да == дождаться от меня сообщение, что заказ выполнен, оплата получена - и потом делать что угодно и с кем удобно.
Не правильный ход мысли (порядок).
1. Дождаться ответа от ТС по моему предложение
- Ответ: НЕТ == потом делать что угодно и с кем удобно
- Ответ: Да == дождаться от меня сообщение, что заказ выполнен, оплата получена - и потом делать что угодно и с кем удобно.
Спустя 10 минут, 55 секунд (25.07.2012 - 11:48) kamanch написал(а):
Спустя 11 минут, 8 секунд (25.07.2012 - 11:59) LucidMind написал(а):
Цитата (h.n.81 @ 25.07.2012 - 08:33) |
Думаю, что лучше всего в данной ситуации будет написать владельцу pushkino.org о том, что у него собираются А заодно отправить ему скрпт-сторож, который будет отлавливать парсинг и блокировать по IP В подарок от коллектива phpforum.ru |
Ну не согласен с Вами
ну вот вы даете.... значит читать и переписывать на бумажку инфу с сайта - это не возброняется, а поручить тоже самое дело программе - это возброняется??? Это примерно так же, как обвинить хлебороба собирающего урожай на комбайне и сказать ему, что он должен это делать исключительно вручную.... с косой в руках
И потом, это не воровство.... данные лежат в открытом доступе.... я же не собираюсь взламывать пароли к БД и пр, а просто автоматизирую сбор ОТКРЫТОЙ для всех информации, так что Вы (и подобные Вам) тут совершенно не правы!
Почему-то Яндекс'а никто вором не называет, однако кто-кто, а вот Яндекс больше всех
И опять же, сами то вы - наверное ангел с крылышками и никогда не занимались автоматизацией ручного труда?
Спустя 12 минут, 59 секунд (25.07.2012 - 12:12) kamanch написал(а):
Автоматизацией занимаемся.
А тот же яндекс или гугль банят по ip за парсинг их выдачи.
Я вот, честно говоря, не силен в законодательстве России, но в моей стране хакерством (соответсвенно и ответсвенность) называется любое действие на сайте, непредусмотренное функционалом этого сайта.
Просматривать, фотографировать, маркером на мониторе помечать - это пожалуйста. А парсить - это уже статья...
А тот же яндекс или гугль банят по ip за парсинг их выдачи.
Я вот, честно говоря, не силен в законодательстве России, но в моей стране хакерством (соответсвенно и ответсвенность) называется любое действие на сайте, непредусмотренное функционалом этого сайта.
Просматривать, фотографировать, маркером на мониторе помечать - это пожалуйста. А парсить - это уже статья...
Спустя 33 минуты, 59 секунд (25.07.2012 - 12:46) LucidMind написал(а):
Цитата (h.n.81 @ 25.07.2012 - 09:12) |
.... Просматривать, фотографировать, маркером на мониторе помечать - это пожалуйста. А парсить - это уже статья... |
тогда и фотографировать - тоже спорно...
хм.... а вот в нашей стране, сразу нашелся желающий - сделать это за деньги - некто Игорь_Vasinsky, а потом еще и сдать клиента....
т.е.
во-первых, стать соучастником неправомерного по его и вашему мнению действия, и заработать денег
а во-вторых, после этого еще и сдать сообщника
Спустя 39 секунд (25.07.2012 - 12:46) LucidMind написал(а):
интересная у нас тут беседа получается
Спустя 13 минут, 4 секунды (25.07.2012 - 12:59) Gabriel написал(а):
http://xdan.ru/Uchimsya-parsit-saity-s-bib...DOM-Parser.html
а флуда то скоко
а флуда то скоко
Спустя 3 минуты, 7 секунд (25.07.2012 - 13:03) dron4ik написал(а):
Игорь_Vasinsky, а розмещение видео записей с других источников у себя на сайте правомерно? Если нет, то я попал))))
Спустя 11 минут, 23 секунды (25.07.2012 - 13:14) Игорь_Vasinsky написал(а):
не пойман - не вор.
Спустя 24 минуты, 55 секунд (25.07.2012 - 13:39) dron4ik написал(а):
Цитата (Игорь_Vasinsky @ 25.07.2012 - 10:14) |
не пойман - не вор. |
Браво))))
Спустя 8 минут, 28 секунд (25.07.2012 - 13:47) LucidMind написал(а):
да....
как говорится, кто без греха, пусть первым кинет в меня камень.....
как говорится, кто без греха, пусть первым кинет в меня камень.....
Спустя 5 минут, 37 секунд (25.07.2012 - 13:53) Игорь_Vasinsky написал(а):
ну так будем делать заказ?
Спустя 2 минуты, 50 секунд (25.07.2012 - 13:56) kamanch написал(а):
за 10 % никому ничего не скажу
Спустя 1 час, 56 минут, 52 секунды (25.07.2012 - 15:53) LucidMind написал(а):
нет, спасибо
Спустя 19 дней, 14 часов, 18 минут, 18 секунд (15.08.2012 - 06:11) Slavok написал(а):
LucidMind,
парсить html через regexp неправильно. Надо пользоваться xpath. Вот хорошая статья на Хабре.
парсить html через regexp неправильно. Надо пользоваться xpath. Вот хорошая статья на Хабре.
Спустя 7 минут, 6 секунд (15.08.2012 - 06:18) Игорь_Vasinsky написал(а):
тебя обманули.
парсить можно всё (всё, что парситься). и регулярками и такими библиями как
«PHPQuery»
«Simple HTML DOM»
«Zend DOM Query»
«Nokogiri»
так что ты фигню сморозил
парсить можно всё (всё, что парситься). и регулярками и такими библиями как
«PHPQuery»
«Simple HTML DOM»
«Zend DOM Query»
«Nokogiri»
так что ты фигню сморозил
Спустя 25 минут, 12 секунд (15.08.2012 - 06:43) Slavok написал(а):
А я и не спорю, что можно. Сам, чем только не парсил Но по-моему самый гибкий механизм у XPath.
Спустя 26 минут, 16 секунд (15.08.2012 - 07:09) Игорь_Vasinsky написал(а):
Цитата |
Но по-моему самый гибкий механизм у XPath. |
может. не юзал. а не с валидным html - xhtml - он справиться??
а это
Цитата |
парсить html через regexp неправильно. Надо пользоваться xpath. |
каждый сам себе выбирает