механизм я знаю, но может ошибаюсь: текст делим на части, состоящие из 2-5 к примеру слов, ищем в гугле совпадения...В итоге подсчитуем результаты в %...
Помогите люди, я не знаю как реализовать!
если не прав в чем то, подправьте!
Спустя 2 часа, 27 минут, 58 секунд (18.08.2010 - 17:59) Gradus написал(а):
сам незнаю как лучше , но дорабатывал один скрипт.Он брал кусок текста и посылал запрос поисковику, потом обрабатывал что в ответ пришло.
Самое лёгкое сделать это в айфрейме или парсить поисковик file_get_contents() или curl
Самое лёгкое сделать это в айфрейме или парсить поисковик file_get_contents() или curl
Спустя 1 час, 53 минуты, 29 секунд (18.08.2010 - 19:52) linker написал(а):
Вы фанаты. На каждое слово или пару слов, поисковик будет выдавать тысячи и десятки тысяч страниц, по 20-30 сайтов на страницу, каждый вариант парсить и проверять на плагиат - жесть. В статье, таких может быть тысячи и десятки тысяч слов или пар слов. Каковы последствия?
Спустя 18 минут, 24 секунды (18.08.2010 - 20:11) FatCat написал(а):
Цитата (Gradus @ 18.08.2010 - 18:59) |
сделать это в айфрейме |
Как в пхп забрать код страницы айфрейма?
Цитата (linker @ 18.08.2010 - 20:52) |
будет выдавать тысячи и десятки тысяч страниц, по 20-30 сайтов на страницу |
Запросы же в кавычках.
Но разбивка на пассажи и шинглы - это не то, что нарезать по 4-5 слов, это малость иначе.
Спустя 12 часов, 11 минут, 32 секунды (19.08.2010 - 08:22) linker написал(а):
У меня начальство когда-то тоже озадачивалось этой темой. Ограничились проверкой в федеральных новостных лентах, которые к нам идут и пишутся в нашу базу. Получился очень даже красивый скрипт, который не обманешь перестановками слов и прочими ухищрениями. Но это было давно, все что помню, это процент совпавших слов и их кучность.
Спустя 22 минуты, 15 секунд (19.08.2010 - 08:44) netruxa написал(а):
ну да впринципе задумка хорошая, разбивать по 5 слов и запрашивать в кавычках http://yandex.ru/yandsearch?text=%22%D1%8F...D1%82%22&lr=213
Тока делай задержки в обращениях к поисковику, а то забанят
И если больше 20-25% текста будет находиться в поисковиках, то не уникум
а шо есть такое пассажи и шинглы? )
Тока делай задержки в обращениях к поисковику, а то забанят
И если больше 20-25% текста будет находиться в поисковиках, то не уникум
а шо есть такое пассажи и шинглы? )
Спустя 45 минут, 9 секунд (19.08.2010 - 09:29) linker написал(а):
В 70% случаях результатом будет полная туфта и кавычки тут не помогут.
Спустя 3 дня, 51 минута, 56 секунд (22.08.2010 - 10:21) foxig написал(а):
вообще уже есть разработанная программа и доступна для для свободного скачивания, проверяет текст на уникальность по %, которую тоже не обмануть просто перестановкой слов и добавление знаков. сейчас посмотрю где лежала и скину название
Спустя 4 часа, 5 минут, 21 секунда (22.08.2010 - 14:27) nikolayers написал(а):
буду благодарен
Спустя 2 часа, 14 минут, 51 секунда (22.08.2010 - 16:42) FatCat написал(а):
Praide.exe
Спустя 1 час, 56 минут, 48 секунд (22.08.2010 - 18:38) Gradus написал(а):
Цитата |
Как в пхп забрать код страницы айфрейма? |
зачем заберать,может нужно быстро глазами увидеть что статья единичная