Нужно определить страница сайта содержит полноценный текст или нет. Изначально полноценным текстом я считаю блок текста который будет больше или равен N слов, причем слова могут быть на любом языке, ну кроме Китая
Вот не как не могу сообразить как мне это сделать, конечно догадываюсь, что одним из вариантов может быть DOM вторым регпсы. Но так как я не проф. программист это для меня темный лес. По этому прошу помочь мне в написании данной функции
На выходе нужна перменная с максимальным числом слов в любом блоке текста на странице
Спустя 8 минут, 28 секунд (14.09.2011 - 21:44) Evilsoul написал(а):
не понятно, конкретнее, что есть и что нужно
Спустя 6 минут, 4 секунды (14.09.2011 - 21:50) sx000 написал(а):
курлом затаскиваю страницу в перменную, далее нужно на ней найти блоки текстов не разрывные! Далее найти ОДИН из всех, блок с максимальным числом СЛОВ. Далее загнать это кол-во слов в перменную
Спустя 22 минуты, 58 секунд (14.09.2011 - 22:13) inpost написал(а):
обычно такое делается под конкретный сайт, где ты знаешь структуру.
file_get_contents - взял содержание. preg_match - регулярка для поиска, там можешь указать условие, что это будет текст и различные теги, которые отвечают за определённый блок. Вообщем, тебе надо использовать тут регулярку. А когда достанешь блоки в массив, то strlen
file_get_contents - взял содержание. preg_match - регулярка для поиска, там можешь указать условие, что это будет текст и различные теги, которые отвечают за определённый блок. Вообщем, тебе надо использовать тут регулярку. А когда достанешь блоки в массив, то strlen