Составьте облако 50 самых популярных слов какого-либо текста объемом более 30 000 слов (наподобие облака тегов). В качестве текста можно взять любую оцифрованную книгу или сборник рассказов одного автора, тексты выдает преподаватель, либо ищут сами студенты (по желанию). Выполнение скрипта необходимо проводить в несколько этапов:
• Составьте первоначальное облако тегов, просто собрав в ассоциативный массив пары ключ=>значение, где ключом будет само уникальное слово, а значение – сколько раз оно совпало в тексте. Из всех значений массива скрипт должен найти 50 самых частовстречающихся и вывести их на экран, выделив большим размером шрифта те слова, которые встречаются чаще остальных. В результате такого подсчета будут учитываться предлоги и союзы (так называемые стоп-слова), а также не будут учтены слова, употребленные в разных склонениях.
• Вторым этапом составьте облако тегов, фильтруя стоп-слова (их вообще можно не вносить в ассоциативный массив). Посмотрите на результат.
• Заключительным этапом составьте облако тегов на основе «корней» слов (для этого надо отсекать у слов окончания и суффиксы, можно написать свою функцию, либо скачать уже готовую из Интернета). Для удобства теперь надо будет использовать два массива. У обоих ключами будут корни слов, но у одного значениями будет число совпадений, а у другого полное название слова (желательно в именительном падеже, единственном числе, однако допустимо взять просто первое попавшееся полное слово).
Можно использовать иной алгоритм решения задачи, главное, чтобы при подсчете числа совпадений слов отбрасывались окончания и производилась фильтрация на стоп-слова.
Заранее спасибо!!!!