[ Поиск ] - [ Пользователи ] - [ Календарь ]
Полная Версия: Умное тегирование контент
sx000
Есть допустим такая запись
Quad Core 1GB RAM Dual Camera
как ее тегировать
Quad Core,1GB RAM,Dual Camera
Не ну человеку понятно smile.gif, а как мне пояснить это скрипту. Что Core 1GB такого не бывает. Может кто то даст почитать на эту тему или поделиться своими соображениями.
Игорь_Vasinsky
Цитата
Может кто то даст почитать на эту тему


в закладках тем 20 на эту тему - но тебе не дам.

пиши ИИ, учи распознавать признаки.

а ешё лучше данные храни в том виде - чтоб на выводе с ними можно было любой фокус делать

_____________
HTML, CSS (Bootstrap), JS(JQuery, ExtJS), PHP, MySQL, MSSql, Posgres, (TSql, BI OLAP, MDX), Mongo, Git, SVN, CodeIgnater, Symfony, Yii 2, JiRA, Redmine, Bitbucket, Composer, Rabbit MQ, Amazon (SQS, S3, Transcribe), Docker
sx000
Ой ладно ИИ smile.gif Ngramm метод я знаю его, просто думал есть иные какие то вещи.
Цитата
но тебе не дам

спасибо smile.gif найду ... сюда все выложу
sergeiss
Ну ты и спросил....... Насчет почитать точно не дам ничего smile.gif Только если соображения скажу.

Я бы так подошел. Надо определить, какие слова тут могут быть и какие из них могут быть в одно наборе. Например, слово Camera. Какие еще слова могут быть с ним в одном блоке? Одно уже понятно, это Dual.
Что может быть в одном блоке с RAM? Скорее всего GB или ГБ, может быть MB или МБ. А также число перед или после объема.
Ну и так далее.

Затем просто разделяем на эти блоки и ставим между ними запятые, точку с запятой или любой другой разделитель.

_____________
* Хэлп по PHP
* Описалово по JavaScript
* Хэлп и СУБД для PostgreSQL

* Обучаю PHP, JS, вёрстке. Интерактивно и качественно. За разумные деньги.

* "накапливаю умение телепатии" (С) и "гуглю за ваш счет" (С)

user posted image
sx000
ну да я так и думал, реально скормить ему тематичного текста и он должен набрать статистику по словам. Но как ее собрать. Ведь могут быть же скажем
RAM 1GB, те вариаций миллионы могут быть.
sx000
допустим
слово и рядом тонна слов которые встречаются рядом или вокруг с указанием частотности.
RAM:1GB*1000;2GB*33000
где RAM центральный образ, а 1GB это рядом находиться и 1000 частота нахождения. В итоге можно реально корректировку делать частотой. Как sergeiss упомянул выше. Но я фиг знает от куда такие мощносят smile.gif
FatCat
Цитата (Игорь_Vasinsky @ 1.05.2013 - 21:10)
данные храни в том виде - чтоб на выводе с ними можно было любой фокус делать

+1

_____________
Бесплатному сыру в дырки не заглядывают...
andrey888
зачем придумывать проблему чтоб ее решать ? .. Базы данных для чего придуманы ?
Вам Игорь_Vasinsky уже ответил . Храните в БД в нужных таблицах, чтоб на выходе смогли расставлять строки/числа/= ваши данные в ВАШЕМ порядке и через ВАШ разделитель.

_____________
Прогноз на следующие 5 лет : Россия, Китай - две величайшие державы.
США в Ж*пе. Справедливость восторжествует. )
Игорь_Vasinsky
да он видимо спарсил)
лучше донора поискать по аккуратней)

_____________
HTML, CSS (Bootstrap), JS(JQuery, ExtJS), PHP, MySQL, MSSql, Posgres, (TSql, BI OLAP, MDX), Mongo, Git, SVN, CodeIgnater, Symfony, Yii 2, JiRA, Redmine, Bitbucket, Composer, Rabbit MQ, Amazon (SQS, S3, Transcribe), Docker
sx000
нет не спарсил
Игорь_Vasinsky
ну тогда поясни- они первоначально в таком виде в БД тебе достались?

_____________
HTML, CSS (Bootstrap), JS(JQuery, ExtJS), PHP, MySQL, MSSql, Posgres, (TSql, BI OLAP, MDX), Mongo, Git, SVN, CodeIgnater, Symfony, Yii 2, JiRA, Redmine, Bitbucket, Composer, Rabbit MQ, Amazon (SQS, S3, Transcribe), Docker
sx000
они это кто smile.gif я же спросил про алгоритм добычи теговых конструкций которые состоят из словосочетаний правильных. Причем тут парсинг вообще smile.gif Может вы имели ввиду что то более глубокое о чем я даже не подумал smile.gif
Игорь_Vasinsky
то что ты не подумал, я уже понял)
теговые конструкции) это вообще что?) где там теги?

любой алгоритм при таких входных данный отработает на 50% - остальные 50 - запорит

тут нет чётких признаков.

видимо только ручками

_____________
HTML, CSS (Bootstrap), JS(JQuery, ExtJS), PHP, MySQL, MSSql, Posgres, (TSql, BI OLAP, MDX), Mongo, Git, SVN, CodeIgnater, Symfony, Yii 2, JiRA, Redmine, Bitbucket, Composer, Rabbit MQ, Amazon (SQS, S3, Transcribe), Docker
sx000
Quad Core,1GB RAM,Dual Camera - это я назвал теговыми конструкциями, те составные из двух и более слов, почему вы считаете что частотная оценка не даст результатов? Да мусор будет но на то и будет частота чтоб по ней подобрать оптимальное число соответствия, чтоб отсеить мусорные сочетания, плюс применить минус слова ...
andrey888
Если не спарсил тогда где у тебя хранятся данные ? .. Не в БД ?? не в Файле ? ?? Где ?

А если расчет на то что будешь парсить и при этом нужен такой алгоритм - то ты загнул..
Ты же сам написал
Цитата
вариаций миллионы могут быть.

Алгоритму нужно указать на основании чего он должен разбирать этот миллион вариаций..

То есть если ты хочешь создать алгоритм распознавания вхождений в строку.. с тем чтоб в последствии эту строку раздеребанить как ты этого хочешь. - выхода 2 :

1) описали выше (50 на 50) тогда такой алгоритм и не нужен вообще. раз на одну правильную разборку будет одна ошибка.

2) Начать разработку Искуственного интеллекта, базой для которого кстати тоже служит некое хранилище данных.

_____________
Прогноз на следующие 5 лет : Россия, Китай - две величайшие державы.
США в Ж*пе. Справедливость восторжествует. )
Быстрый ответ:

 Графические смайлики |  Показывать подпись
Здесь расположена полная версия этой страницы.
Invision Power Board © 2001-2025 Invision Power Services, Inc.