[ Поиск ] - [ Пользователи ] - [ Календарь ]
Полная Версия: Семантическая разбивка web-документа на блоки
seowin
Доброго времени суток!

Подскажите, кто сталкивался с подобным, каким образом с помощью php можно разбить html-страницу на блоки: выделить основную часть с контентом, меню, футер и т.д., не зная структуру DOM?

Интересует в большей степени определение основного контента страницы.

В сети есть материалы на эту тему, но что-то я не совсем понял алгоритм реализации.

Например:
http://habrahabr.ru/post/210824/
http://www.vestnik.vsu.ru/pdf/analiz/2008/02/2008_02_20.pdf
Michael
А для какой точно задачи?

Тут как то FatCat о чем то подобном говорил, что часть с контентом поисковики находят сравнивая страницы сайта между собой и вот та часть что меняется - это и есть контейнер для контента.

_____________
There never was a struggle in the soul of a good man that was not hard
inpost
seowin
Самое простое: <main> , <article> , <section>.
Если этого нет, то role="main" , class="main", class="container".
Если этого нет, то остаётся делать как сказал выше Michael, искать разницу.

_____________
Обучаю веб-программированию качественно и не дорого: http://school-php.com
Фрилансер, принимаю заказы: PHP, JS, AS (видео-чаты). Писать в ЛС (Личные сообщения на phpforum).
seowin
Да, я тоже склоняюсь к анализу нескольких страниц и их сравнения. Вот только не пойму, как именно это реализовать.

FatCat
Я понимаю зачем это нужно поисковкам. Но не понимаю зачем это может быть нужно кому-то еще.

_____________
Бесплатному сыру в дырки не заглядывают...
seowin
Нужно для одного проекта, над которым сейчас работаю, что-то наподобие поисковика по группе определенных сайтов.

FatCat
Давным-давно приходилось решать похожую задачу. http://wwwpharm.newhost.ru/ - плохенько, но работает.

_____________
Бесплатному сыру в дырки не заглядывают...
Быстрый ответ:

 Графические смайлики |  Показывать подпись
Здесь расположена полная версия этой страницы.
Invision Power Board © 2001-2025 Invision Power Services, Inc.