[ Поиск ] - [ Пользователи ] - [ Календарь ]
Полная Версия: Автоматические теги
Arh
Кто нибудь выцеплял теги из текста?
Нет проблем найти часто встречаемые слова в тексте, нет проблем выбрать только существительные, нет проблем привести слова к одной форме типа "На выставке самолётов" => [Выставка, Самолёт]
Всё это легко делает MyStem от яндекса.

Но как быть с парными словами? "Владимир Путин посетил выставку" => [Владимир Путин, Выставка]

Есть идея сначала как то набить базу правильных тегов, потом по слову "Путин" найти подходящий тег [Владимир Путин] и его использовать, но могут быть ошибки типа "Город Владимир" или "Владимир Невский" или [Президент России] [Президент Украины]

Есть идеи?

_____________
Промокод предоставляет скидку на заказ домена и/или хостинга reg.ru
BFCC-3895-8804-9ED2
walerus
Ну с Путиным еще прокатит - Президент, ну а если будут иные фамилии, которые не так однозначны, Петров, Иванов, Сидоров... Думаю придется добавлять еще поле "категория", туда уже вносить зависимость: администрация, писатели, художники, это только к личностям будет применимо, хотя, например взять слово Калина - может быть и ведро автомобиль, а может и ягода.

Получится целый "комбайн" обработки, но тут уже решает процент необходимой точности... Можно поискать конечно готовый "список" тегов-аналогий или как там их назвать, но его скорее всего так же придется "просмотреть", а то знаем мы спамеров laugh.gif
Arh
А если как то нейросеть заюзать и обучать её?
Сидеть и ставить теги [Владимир Путин] пока она сама не начнёт понимать что можно такой ставить)


_____________
Промокод предоставляет скидку на заказ домена и/или хостинга reg.ru
BFCC-3895-8804-9ED2
walerus
Скорее всего дельная мысль, правда все упирается - во время... Что "категории" набивать, что сеть обучать, но сеть скорее всего будет поинтереснее.
Быстрый ответ:

 Графические смайлики |  Показывать подпись
Здесь расположена полная версия этой страницы.
Invision Power Board © 2001-2024 Invision Power Services, Inc.