Michael
27.03.2016 - 07:53
анализировать тексты на похожесть совсем не простое решение.
- когда этим заниматься? Ведь не после сохранения/изменения статьи начинать сравнение со всеми существующими
- нет гарантии что в тот список попадет. Надо больше контроля.
_____________
There never was a struggle in the soul of a good man that was not hard
FatCat
27.03.2016 - 12:02
Цитата (Michael @ 27.03.2016 - 06:53) |
Ведь не после сохранения/изменения статьи начинать сравнение со всеми существующими |
Как делает поисковка? Она сравнивает проверяемый текст не с известными ей текстами, а со списком поисковых запросов, каким запросам релевантна статья. На выходе массив айдишников поисковых запросов, характеризующий проанализированный текст.
Если у тебя есть достаточно большое семантическое ядро сайта - сравниваешь новый текст с ним и получаешь массив цифр, характеризующий эту статью.
При поступлении нового текста на сайт, мы не сравниваем между собой все тексты, мы сравниваем массивы - это на несколько порядков меньше нагрузка.
_____________
Бесплатному сыру в дырки не заглядывают...