[ Поиск ] - [ Пользователи ] - [ Календарь ]
Полная Версия: Как автоматически найти контент на странице
Нет восети
Может кто подкинет идейку.
необходимо найти на странице сайта (любого) контент и выделить его.
думала может путем сравнения 2-5 страниц одного сайта, путем разбивания html-код на слова и сравнивать их. Допустить процентную погрешность, например, 20 слов совпадают потом 5 нет и снова 15 совпадают, то все вместе считать идентичным. А то что в эту идентичность не вписалось то и будет контентов.
Но боюсь, что разница в оформление страниц может быть слишком велика.

Можно еще считать контентом то где, предположим на 200 символов не более 10% иностранных


Может есть какой-нибудь скрипт или хотя бы идея???




Спустя 1 час, 24 минуты, 7 секунд (19.05.2011 - 00:40) Игорь_Vasinsky написал(а):
вырезай все теги html... но нужно учитывать что часто используют левые, правые блоки - так что 100%совподения точно не будет, ты лучшье бери предложение и ищи на другом сайте копию.

Спустя 38 минут, 37 секунд (19.05.2011 - 01:18) Krevedko написал(а):
открываешь сайт
смотришь его хтмл код
находишь там контент
смотришь внутри каких тегов он находится.
регуляркой вырезаешь все, что нахордится внутри этих тегов (они обычно уникальные) и получаешь свой контент

Спустя 19 часов, 15 минут, 56 секунд (19.05.2011 - 20:34) Нет восети написал(а):
Krevedko мне нужно чтоб моя программа сама его находила. т.е. без ручного управление

как я понимаю будет погрешность из-за блоков и меню, но она не велика, так?

Спустя 30 минут, 49 секунд (19.05.2011 - 21:05) Krevedko написал(а):
т.е. твоя программа должна работать с ЛЮБЫМ сайтом ?
хм..а как она будет определять адреса страниц для сравнения ? Грабить внутренние ссылки ?

Спустя 2 дня, 16 часов, 37 минут, 28 секунд (22.05.2011 - 13:42) Нет восети написал(а):
Krevedko да а это плохо????
я тут подумала может чтобы убрать меню - удалить из кода все ссылки вместе с содержимым, а чтоб случайно не удалить из контента сделать следующее:
убрать все теги кроме ссылок, удалить все ссылки которых от 3х подряд, в текстах редко встречаются такие варианты, а вот меню это как правило ссылка за ссылкой, как думаешь?

Спустя 54 минуты, 15 секунд (22.05.2011 - 14:37) Krevedko написал(а):
в принципе да.
обычно меню -это ссылдки кнутри блоков, но поскольку теги будут убраны..

Спустя 3 часа, 28 минут (22.05.2011 - 18:05) Нет восети написал(а):
Krevedko
отлично, спасибо за помощь!

Спустя 46 секунд (22.05.2011 - 18:05) Krevedko написал(а):
да пожалуйста. вообще любопытная задачка конечно.
Быстрый ответ:

 Графические смайлики |  Показывать подпись
Здесь расположена полная версия этой страницы.
Invision Power Board © 2001-2024 Invision Power Services, Inc.