вообщем вот задача.
делаю парсер и на пхп и на Delphi пишу так вот суть в том что нужно брать из заданной странице статью.
вот мой алгоритм:
1.открываем страницу
2. ищем где больше всего текста собрано по процентам.
3. выделяем текст
4. показываем его нам
вот и все
теперь его нужно разложить более детально 2 пункт:
2. ищем где больше всего текста собрано по процентам.
его не пойму как можно выделить где больше всего текста собрано? хочу написать функцию незнаю как парсить
например отделять по тегам но вдруг в тексте тоже теги выделены жирным
если есть другая идея прошу показать, стандартные функции не нужны нужен алгоритм буду делать на 2 языках поэтому.
Спустя 6 минут, 8 секунд (18.06.2010 - 12:26) tomash написал(а):
Может искать тэги с определенным названием, например:
<div class="titles">Заголовок</div>
<div class="news" name = "article1" id ="art_2">
<p>Здесь статья</p>
</div>
Спустя 4 минуты, 28 секунд (18.06.2010 - 12:31) Lolik написал(а):
Цитата (tomash @ 18.06.2010 - 09:26) |
Может искать тэги с определенным названием, например:<div class="titles">Заголовок</div> |
да вы что скрипт должен искать в любом блоге урл которого я задам эта функция не будет гибкой такое не пойдет
Спустя 59 минут, 48 секунд (18.06.2010 - 13:30) Michael написал(а):
универсальный интеллектуальный парсер - грабильщик сайтов, сам определяющий самое ценное и тырящий это.
Спустя 1 час, 6 минут, 26 секунд (18.06.2010 - 14:37) tomash написал(а):
Lolik
Вы можете обучать свой скрипт заполняя БД новыми именами и значениями блоков. Чем больше будет у него знаний тем он будет умнее)))
Вы можете обучать свой скрипт заполняя БД новыми именами и значениями блоков. Чем больше будет у него знаний тем он будет умнее)))
Спустя 54 минуты, 38 секунд (18.06.2010 - 15:31) qpayct написал(а):
не вижу возможным ответить на таким боком поставленый вопрос. универсальный парсер это конечно круто, но перед, как сказать, возможно ли такое вообще, надо взять сайтов 20(с которыми собираешься работать) и применить к ним свою идею.
я думаю парсить по одним и тем же критериям совершенно разные ресурсы скорей всего не получится, хотя идея конечно интересная, но парсинг он на то и парсинг регулярное выражение - в нём и разница. вот их и храни на каждый сайт своё. может это и не совсем универсально зато практично и проверено временем.
я думаю парсить по одним и тем же критериям совершенно разные ресурсы скорей всего не получится, хотя идея конечно интересная, но парсинг он на то и парсинг регулярное выражение - в нём и разница. вот их и храни на каждый сайт своё. может это и не совсем универсально зато практично и проверено временем.
Спустя 23 минуты, 33 секунды (18.06.2010 - 15:55) FatCat написал(а):
Цитата (Lolik @ 18.06.2010 - 13:20) |
2. ищем где больше всего текста собрано по процентам. |
Здесь ошибка.
Плохо отношусь к самой идее обворовывания чужих сайтов/блогов/форумов, поэтому алгоритмом делиться не буду.
Спустя 9 минут, 43 секунды (18.06.2010 - 16:05) gzim9x написал(а):
В общем случае вам нужно будет искать самую большую группу текста, содержащую приемлимые теги -- <b>,<strong>, <img> и т.д.
Внимание! <div> и <table> в такой группе должны быть закрыты -- иначе вы основной текст, например, совместите с аннотацией новостей.
Для выделения такой группы вам поможет следующий факт: верстальщик старается отделить логические блоки html в коде визуально (отступы/перевод строки) -- так проще верстать.
Исключения несомненно будут.
Но чаще всего поступают как советует qpayct -- когда регулярки заточены под конкретный ресурс.
Внимание! <div> и <table> в такой группе должны быть закрыты -- иначе вы основной текст, например, совместите с аннотацией новостей.
Для выделения такой группы вам поможет следующий факт: верстальщик старается отделить логические блоки html в коде визуально (отступы/перевод строки) -- так проще верстать.
Исключения несомненно будут.
Но чаще всего поступают как советует qpayct -- когда регулярки заточены под конкретный ресурс.
Спустя 25 минут, 59 секунд (18.06.2010 - 16:31) Michael написал(а):
Цитата (FatCat @ 18.06.2010 - 14:55) | ||
Здесь ошибка. Плохо отношусь к самой идее обворовывания чужих сайтов/блогов/форумов, поэтому алгоритмом делиться не буду. |
Смею предположить, что нужно определить множество таких блоков с большим содержанием текста. А потом найти папулю у которого больше всего таких деток.
Спустя 3 часа, 21 минута, 25 секунд (18.06.2010 - 19:52) FatCat написал(а):
Michael
Написал в личку. Алгоритм простой, для третьеклассника; может потому взрослым дядям он в голову не приходит.
Написал в личку. Алгоритм простой, для третьеклассника; может потому взрослым дядям он в голову не приходит.