[ Поиск ] - [ Пользователи ] - [ Календарь ]
Полная Версия: проверка уникальности текста средствами php!!!!!
nikolayers
дела обстоят вот как: делаю биржу статей, но главным является то, что мне надо как то проверять добавляемые статьи...
механизм я знаю, но может ошибаюсь: текст делим на части, состоящие из 2-5 к примеру слов, ищем в гугле совпадения...В итоге подсчитуем результаты в %...
Помогите люди, я не знаю как реализовать!

если не прав в чем то, подправьте!



Спустя 2 часа, 27 минут, 58 секунд (18.08.2010 - 17:59) Gradus написал(а):
сам незнаю как лучше , но дорабатывал один скрипт.Он брал кусок текста и посылал запрос поисковику, потом обрабатывал что в ответ пришло.
Самое лёгкое сделать это в айфрейме smile.gif или парсить поисковик file_get_contents() или curl

Спустя 1 час, 53 минуты, 29 секунд (18.08.2010 - 19:52) linker написал(а):
Вы фанаты. На каждое слово или пару слов, поисковик будет выдавать тысячи и десятки тысяч страниц, по 20-30 сайтов на страницу, каждый вариант парсить и проверять на плагиат - жесть. В статье, таких может быть тысячи и десятки тысяч слов или пар слов. Каковы последствия?

Спустя 18 минут, 24 секунды (18.08.2010 - 20:11) FatCat написал(а):
Цитата (Gradus @ 18.08.2010 - 18:59)
сделать это в айфрейме

Как в пхп забрать код страницы айфрейма?


Цитата (linker @ 18.08.2010 - 20:52)
будет выдавать тысячи и десятки тысяч страниц, по 20-30 сайтов на страницу

Запросы же в кавычках.
Но разбивка на пассажи и шинглы - это не то, что нарезать по 4-5 слов, это малость иначе. wink.gif

Спустя 12 часов, 11 минут, 32 секунды (19.08.2010 - 08:22) linker написал(а):
У меня начальство когда-то тоже озадачивалось этой темой. Ограничились проверкой в федеральных новостных лентах, которые к нам идут и пишутся в нашу базу. Получился очень даже красивый скрипт, который не обманешь перестановками слов и прочими ухищрениями. Но это было давно, все что помню, это процент совпавших слов и их кучность.

Спустя 22 минуты, 15 секунд (19.08.2010 - 08:44) netruxa написал(а):
ну да впринципе задумка хорошая, разбивать по 5 слов и запрашивать в кавычках http://yandex.ru/yandsearch?text=%22%D1%8F...D1%82%22&lr=213
Тока делай задержки в обращениях к поисковику, а то забанят smile.gif
И если больше 20-25% текста будет находиться в поисковиках, то не уникум

а шо есть такое пассажи и шинглы? )

Спустя 45 минут, 9 секунд (19.08.2010 - 09:29) linker написал(а):
В 70% случаях результатом будет полная туфта и кавычки тут не помогут.

Спустя 3 дня, 51 минута, 56 секунд (22.08.2010 - 10:21) foxig написал(а):
вообще уже есть разработанная программа и доступна для для свободного скачивания, проверяет текст на уникальность по %, которую тоже не обмануть просто перестановкой слов и добавление знаков. сейчас посмотрю где лежала и скину название

Спустя 4 часа, 5 минут, 21 секунда (22.08.2010 - 14:27) nikolayers написал(а):
буду благодарен

Спустя 2 часа, 14 минут, 51 секунда (22.08.2010 - 16:42) FatCat написал(а):
Praide.exe

Спустя 1 час, 56 минут, 48 секунд (22.08.2010 - 18:38) Gradus написал(а):
Цитата
Как в пхп забрать код страницы айфрейма?

зачем заберать,может нужно быстро глазами увидеть что статья единичная
Быстрый ответ:

 Графические смайлики |  Показывать подпись
Здесь расположена полная версия этой страницы.
Invision Power Board © 2001-2024 Invision Power Services, Inc.