[ Поиск ] - [ Пользователи ] - [ Календарь ]
Полная Версия: Семантический анализ текста сообщений на форуме
lovesa
Добрый день, я начинающий php разработчик и на данный момент передо мной стоит задача симантического анализа текста сообщений, оставленных на форуме. В кратце задача состоит в том что бы сделать краткое изложение текста оставленного пользователем в сообщении на форуме. Конечно полностью автоматическую систему делать бессмысленно, по этому я думаю решение должно быть полуавтоматическое - модерируемое. Сообщения должны быть отсортированны по определенным категориям, ну например, ОБЗОР, ВОПРОС, КОМЕНТАРИЙ ну и подобные.. Готовое решение я видел в системе woot.com, там справа у них есть блок Todays discussions, собственно задача и есть, повторить такого рода колонку. Прошу прокоментировать, возможно ли вообще реализовать подобный алгоритм, или это проще было бы выполнять модератору (хотя поток сообщений в день предполагаю будет достаточно велик)? Может быть есть какое нибудь направление что погуглить?



Спустя 17 минут, 39 секунд (24.01.2011 - 23:13) sergeiss написал(а):
То есть, это должен быть, по сути дела, искусственный интеллект? (крепко задумался и ушел думать...)

Спустя 11 минут, 14 секунд (24.01.2011 - 23:24) lovesa написал(а):
По сути я предполагаю, что необходим алгоритм выдерающий например по словарю определенные конструкции из текста, при определенном проценте совпадений слов под каждую категорию, программа предлагает данное сообщение в определенную категорию и пытается сформировать краткое сообщение.

ну например, на форуме появляется текст такого содержания:
Добрый день, хотел бы сросить(узнать, задать вопрос) бла бла бла.

Слова СПРОСИТЬ, УЗНАТЬ, ВОПРОС подходят под категорию ЗАДАТЬ ВОПРОС, программа формирует модератору сообщение:

Пользователь lovesa хотел узнать бла бла ...

Спустя 35 минут (24.01.2011 - 23:59) inpost написал(а):
lovesa
Как же быть, если данный вопрос ты задал не по маске? smile.gif

Спустя 2 минуты, 53 секунды (25.01.2011 - 00:02) lovesa написал(а):
ну как я уже сказал =) система все же будет полуавтоматическая, так что программа просто должа облегчить жизнь модератору предполагая и предоставляя варианты =) Предположим в день осуществляют порядка 50 коментариев и было бы неплохо не просматривать их все, а просто просмотреть список предоставленых вариантов, бегло проверить их на соответсвие и по случаю отредактировать. Банальная оптимизация работы.

Спустя 1 минута (25.01.2011 - 00:03) lovesa написал(а):
Как я понимаю логика здесь похожа на работу поисковых машин и индексации текста. Гугл ведь к примеру как то определяет где на сайте страницы контактов, а где продукции =)

Спустя 1 час, 12 минут, 33 секунды (25.01.2011 - 01:16) inpost написал(а):
lovesa
сверху темы добавляешь ещё один селект с тематикой, пусть люди сами решают основную тематику вопроса, это так, мини-идея.
Вот год сижу на форуме, и такое вижу постоянно, да и сам так пишу темы, что врядли робот смог бы мои и других авторов вопросы разделить.

Спустя 3 часа, 35 минут, 19 секунд (25.01.2011 - 04:51) FatCat написал(а):
У меня этот алгоритм сделан. И именно для форума.
В действии можно посмотреть: http://pharm-forum.ru/index.php?act=Post&CODE=00&f=33 - ввести заголовок, ввести текст для теста и нажать кнопку "Предварительный просмотр" - алгоритм определит соответствие текста сообщения тематикам, имеющимся в семантической базе.

Спустя 9 часов, 21 минута, 34 секунды (25.01.2011 - 14:13) lovesa написал(а):
Система в действии любопытна =) можно узнать как работает?

Спустя 1 час, 50 минут, 43 секунды (25.01.2011 - 16:03) FatCat написал(а):
Цитата (lovesa @ 25.01.2011 - 15:13)
можно узнать как работает?

Мои попытки расшифровать алгоритмы работы яндекса.
Более полная база тут: http://stxt.ru/


Если в базу заливать не списки поисковых запросов, а нарезанный шинглами текст, можно сопоставлять с текстом. Метод довольно точный, можно выявлять авторство текста. Например нарезать шинглами тексты разных авторов, а затем запустить на тестирование новый текст, и система скажет на кого из авторов больше похоже.

Спустя 3 часа, 7 минут, 38 секунд (25.01.2011 - 19:11) lovesa написал(а):
Ну что ж, раз кому то удалось решить задачу, значит задача решаема, буду пробовать, и да, хотел спросить значение слова ШИНГЛА?
Быстрый ответ:

 Графические смайлики |  Показывать подпись
Здесь расположена полная версия этой страницы.
Invision Power Board © 2001-2024 Invision Power Services, Inc.