необходимо найти на странице сайта (любого) контент и выделить его.
думала может путем сравнения 2-5 страниц одного сайта, путем разбивания html-код на слова и сравнивать их. Допустить процентную погрешность, например, 20 слов совпадают потом 5 нет и снова 15 совпадают, то все вместе считать идентичным. А то что в эту идентичность не вписалось то и будет контентов.
Но боюсь, что разница в оформление страниц может быть слишком велика.
Можно еще считать контентом то где, предположим на 200 символов не более 10% иностранных
Может есть какой-нибудь скрипт или хотя бы идея???
Спустя 1 час, 24 минуты, 7 секунд (19.05.2011 - 00:40) Игорь_Vasinsky написал(а):
вырезай все теги html... но нужно учитывать что часто используют левые, правые блоки - так что 100%совподения точно не будет, ты лучшье бери предложение и ищи на другом сайте копию.
Спустя 38 минут, 37 секунд (19.05.2011 - 01:18) Krevedko написал(а):
открываешь сайт
смотришь его хтмл код
находишь там контент
смотришь внутри каких тегов он находится.
регуляркой вырезаешь все, что нахордится внутри этих тегов (они обычно уникальные) и получаешь свой контент
смотришь его хтмл код
находишь там контент
смотришь внутри каких тегов он находится.
регуляркой вырезаешь все, что нахордится внутри этих тегов (они обычно уникальные) и получаешь свой контент
Спустя 19 часов, 15 минут, 56 секунд (19.05.2011 - 20:34) Нет восети написал(а):
Krevedko мне нужно чтоб моя программа сама его находила. т.е. без ручного управление
как я понимаю будет погрешность из-за блоков и меню, но она не велика, так?
как я понимаю будет погрешность из-за блоков и меню, но она не велика, так?
Спустя 30 минут, 49 секунд (19.05.2011 - 21:05) Krevedko написал(а):
т.е. твоя программа должна работать с ЛЮБЫМ сайтом ?
хм..а как она будет определять адреса страниц для сравнения ? Грабить внутренние ссылки ?
хм..а как она будет определять адреса страниц для сравнения ? Грабить внутренние ссылки ?
Спустя 2 дня, 16 часов, 37 минут, 28 секунд (22.05.2011 - 13:42) Нет восети написал(а):
Krevedko да а это плохо????
я тут подумала может чтобы убрать меню - удалить из кода все ссылки вместе с содержимым, а чтоб случайно не удалить из контента сделать следующее:
убрать все теги кроме ссылок, удалить все ссылки которых от 3х подряд, в текстах редко встречаются такие варианты, а вот меню это как правило ссылка за ссылкой, как думаешь?
я тут подумала может чтобы убрать меню - удалить из кода все ссылки вместе с содержимым, а чтоб случайно не удалить из контента сделать следующее:
убрать все теги кроме ссылок, удалить все ссылки которых от 3х подряд, в текстах редко встречаются такие варианты, а вот меню это как правило ссылка за ссылкой, как думаешь?
Спустя 54 минуты, 15 секунд (22.05.2011 - 14:37) Krevedko написал(а):
в принципе да.
обычно меню -это ссылдки кнутри блоков, но поскольку теги будут убраны..
обычно меню -это ссылдки кнутри блоков, но поскольку теги будут убраны..
Спустя 3 часа, 28 минут (22.05.2011 - 18:05) Нет восети написал(а):
Krevedko
отлично, спасибо за помощь!
отлично, спасибо за помощь!
Спустя 46 секунд (22.05.2011 - 18:05) Krevedko написал(а):
да пожалуйста. вообще любопытная задачка конечно.