Есть допустим такая запись
Quad Core 1GB RAM Dual Camera
как ее тегировать
Quad Core,1GB RAM,Dual Camera
Не ну человеку понятно

, а как мне пояснить это скрипту. Что Core 1GB такого не бывает. Может кто то даст почитать на эту тему или поделиться своими соображениями.
Игорь_Vasinsky
1.05.2013 - 22:10
Цитата |
Может кто то даст почитать на эту тему |
в закладках тем 20 на эту тему - но тебе не дам.
пиши ИИ, учи распознавать признаки.
а ешё лучше данные храни в том виде - чтоб на выводе с ними можно было любой фокус делать
_____________
HTML, CSS (Bootstrap), JS(JQuery, ExtJS), PHP, MySQL, MSSql, Posgres, (TSql, BI OLAP, MDX), Mongo, Git, SVN, CodeIgnater, Symfony, Yii 2, JiRA, Redmine, Bitbucket, Composer, Rabbit MQ, Amazon (SQS, S3, Transcribe), Docker
Ой ладно ИИ

Ngramm метод я знаю его, просто думал есть иные какие то вещи.
спасибо

найду ... сюда все выложу
sergeiss
1.05.2013 - 22:14
Ну ты и спросил....... Насчет почитать точно не дам ничего

Только если соображения скажу.
Я бы так подошел. Надо определить, какие слова тут могут быть и какие из них могут быть в одно наборе. Например, слово Camera. Какие еще слова могут быть с ним в одном блоке? Одно уже понятно, это Dual.
Что может быть в одном блоке с RAM? Скорее всего GB или ГБ, может быть MB или МБ. А также число перед или после объема.
Ну и так далее.
Затем просто разделяем на эти блоки и ставим между ними запятые, точку с запятой или любой другой разделитель.
_____________
*
Хэлп по PHP*
Описалово по JavaScript *
Хэлп и СУБД для PostgreSQL*
Обучаю PHP, JS, вёрстке. Интерактивно и качественно. За разумные деньги. *
"накапливаю умение телепатии" (С) и "гуглю за ваш счет" (С)
ну да я так и думал, реально скормить ему тематичного текста и он должен набрать статистику по словам. Но как ее собрать. Ведь могут быть же скажем
RAM 1GB, те вариаций миллионы могут быть.
допустим
слово и рядом тонна слов которые встречаются рядом или вокруг с указанием частотности.
RAM:1GB*1000;2GB*33000
где RAM центральный образ, а 1GB это рядом находиться и 1000 частота нахождения. В итоге можно реально корректировку делать частотой. Как sergeiss упомянул выше. Но я фиг знает от куда такие мощносят
Цитата (Игорь_Vasinsky @ 1.05.2013 - 21:10) |
данные храни в том виде - чтоб на выводе с ними можно было любой фокус делать |
+1
_____________
Бесплатному сыру в дырки не заглядывают...
andrey888
2.05.2013 - 12:25
зачем придумывать проблему чтоб ее решать ? .. Базы данных для чего придуманы ?
Вам Игорь_Vasinsky уже ответил . Храните в БД в нужных таблицах, чтоб на выходе смогли расставлять строки/числа/= ваши данные в ВАШЕМ порядке и через ВАШ разделитель.
_____________
Прогноз на следующие 5 лет : Россия, Китай - две величайшие державы.
США в Ж*пе. Справедливость восторжествует. )
Игорь_Vasinsky
2.05.2013 - 13:06
да он видимо спарсил)
лучше донора поискать по аккуратней)
_____________
HTML, CSS (Bootstrap), JS(JQuery, ExtJS), PHP, MySQL, MSSql, Posgres, (TSql, BI OLAP, MDX), Mongo, Git, SVN, CodeIgnater, Symfony, Yii 2, JiRA, Redmine, Bitbucket, Composer, Rabbit MQ, Amazon (SQS, S3, Transcribe), Docker
Игорь_Vasinsky
2.05.2013 - 13:09
ну тогда поясни- они первоначально в таком виде в БД тебе достались?
_____________
HTML, CSS (Bootstrap), JS(JQuery, ExtJS), PHP, MySQL, MSSql, Posgres, (TSql, BI OLAP, MDX), Mongo, Git, SVN, CodeIgnater, Symfony, Yii 2, JiRA, Redmine, Bitbucket, Composer, Rabbit MQ, Amazon (SQS, S3, Transcribe), Docker
они это кто

я же спросил про алгоритм добычи теговых конструкций которые состоят из словосочетаний правильных. Причем тут парсинг вообще

Может вы имели ввиду что то более глубокое о чем я даже не подумал
Игорь_Vasinsky
2.05.2013 - 13:14
то что ты не подумал, я уже понял)
теговые конструкции) это вообще что?) где там теги?
любой алгоритм при таких входных данный отработает на 50% - остальные 50 - запорит
тут нет чётких признаков.
видимо только ручками
_____________
HTML, CSS (Bootstrap), JS(JQuery, ExtJS), PHP, MySQL, MSSql, Posgres, (TSql, BI OLAP, MDX), Mongo, Git, SVN, CodeIgnater, Symfony, Yii 2, JiRA, Redmine, Bitbucket, Composer, Rabbit MQ, Amazon (SQS, S3, Transcribe), Docker
Quad Core,1GB RAM,Dual Camera - это я назвал теговыми конструкциями, те составные из двух и более слов, почему вы считаете что частотная оценка не даст результатов? Да мусор будет но на то и будет частота чтоб по ней подобрать оптимальное число соответствия, чтоб отсеить мусорные сочетания, плюс применить минус слова ...
andrey888
2.05.2013 - 14:03
Если не спарсил тогда где у тебя хранятся данные ? .. Не в БД ?? не в Файле ? ?? Где ?
А если расчет на то что будешь парсить и при этом нужен такой алгоритм - то ты загнул..
Ты же сам написал
Цитата |
вариаций миллионы могут быть. |
Алгоритму нужно указать на основании чего он должен разбирать этот миллион вариаций..
То есть если ты хочешь создать алгоритм распознавания вхождений в строку.. с тем чтоб в последствии эту строку раздеребанить как ты этого хочешь. - выхода 2 :
1) описали выше (50 на 50) тогда такой алгоритм и не нужен вообще. раз на одну правильную разборку будет одна ошибка.
2) Начать разработку Искуственного интеллекта, базой для которого кстати тоже служит некое хранилище данных.
_____________
Прогноз на следующие 5 лет : Россия, Китай - две величайшие державы.
США в Ж*пе. Справедливость восторжествует. )
Быстрый ответ:
Powered by dgreen
Здесь расположена полная версия этой страницы.