Форум PHP программистов > Как отличить поискового робота от качалок

[ Поиск ] - [ Пользователи ] - [ Календарь ]

Полная Версия: Как отличить поискового робота от качалок

Страницы: 1, 2

Владимир55

18.02.2016 - 22:11

Качалки грузят сервер и этот эффект хочется уменьшить.

Идея такая - посетителя считать роботом:
- если интервал между двумя посещениями с одного IP меньше 2 секунд;
- если в течение часа просмотрено больше 20 страниц.

Такому посетителю давать запрет доступа на два часа.

Как полагаете, такой метод годится?

(Для роботов установить минимальный интервал сканирования 5 секунд, чтобы их не забанить. И не банить, если в юзер-агенте видно, что это робот).

Zzepish

18.02.2016 - 22:21

Имхо - лучше ориентироваться по ip

Invis1ble

18.02.2016 - 22:44

Цитата (Владимир55 @ 18.02.2016 - 22:11)

Идея такая - посетителя считать роботом:
- если интервал между двумя посещениями с одного IP меньше 2 секунд; +
- если в течение часа просмотрено больше 20 страниц. +

Я - робот

_____________

Профессиональная разработка на заказ

Я на GitHub | второй профиль

Владимир55

18.02.2016 - 22:46

Цитата (Zzepish @ 18.02.2016 - 18:21)

лучше ориентироваться по ip

Можете ещё уточнить Вашу мысль?

Владимир55

18.02.2016 - 22:47

Цитата (Invis1ble @ 18.02.2016 - 18:44)

Цитата (Владимир55 @ 18.02.2016 - 22:11)

Я - робот

Это в порядке каламбура или действительно Вы попали бы в категорию роботов?

AllesKlar

18.02.2016 - 22:49

Цитата (Владимир55 @ 18.02.2016 - 20:47)

если в течение часа просмотрено больше 20 страниц. +

99% в роботы уйдут

_____________
[продано копирайтерам]

Invis1ble

18.02.2016 - 22:52

Цитата (Владимир55 @ 18.02.2016 - 22:47)

Это в порядке каламбура или действительно Вы попали бы в категорию роботов?

никакого каламбура, оба условия я выполняю регулярно и на множестве ресурсов

_____________

Профессиональная разработка на заказ

Я на GitHub | второй профиль

Zzepish

18.02.2016 - 23:00

Вот

phz

18.02.2016 - 23:47

Для поисковых систем можно выставлять время сканирования

https://yandex.ru/support/webmaster/control...xml#crawl-delay

Смотрите метрику, вебвизор. Поймете среднего пользователя. Сколько он смотрит страниц и за какое время. Какой ему лимит ставит и т.д... ну это от лукавого...

Владимир55

19.02.2016 - 00:15

Не знаете, а Crawl-delay распространяется только на Яндекс?

VELIK505

19.02.2016 - 00:33

Crawl-delay поддерживают все поисковые роботы! уже давным давно стандарты w3c.
прописывайте в robots.txt

icedfox

19.02.2016 - 10:03

Адекватные роботы представляются. Мысли в слух на уровне абстракции:
1. Проверяем (кукой например) бот или человек.
2. Поисковых ботов отсекаем по юзер агенту.
3. Остаются неадекватные поисковые боты и качалки.
4. Что то с ними делаем.

Владимир55

19.02.2016 - 10:39

Цитата (icedfox @ 19.02.2016 - 06:03)

1. Проверяем (кукой например) бот или человек.

Я не вполне уверен, что качалки не ставят кукисы.

icedfox

19.02.2016 - 10:43

Цитата (Владимир55 @ 19.02.2016 - 12:39)

Я не вполне уверен, что качалки не ставят кукисы.

я тоже, если честно, но пока не проверишь, не узнаешь.

Zzepish

19.02.2016 - 11:04

icedfox

Цитата

1. Проверяем (кукой например) бот или человек.
2. Поисковых ботов отсекаем по юзер агенту.
3. Остаются неадекватные поисковые боты и качалки.
4. Что то с ними делаем.

1. ФИгня идея. МОжно и ддос-программу с куками написать.
2. Юзерагент тоже можно подделать.

Быстрый ответ:

Здесь расположена полная версия этой страницы.