[ Поиск ] - [ Пользователи ] - [ Календарь ]
Полная Версия: Доступ поисковым ботам
FatCat
Хочу посоветоваться.

С одной стороны, поисковые боты полезны: они индексируют сайт, и впоследствии обеспечивают появление на сайте посетителей из поиска; или же на страницах рейтингов появляются активные ссылки на сайт.
С другой стороны, они создают дополнительную нагрузку.

Есть безусловно полезные боты: яндекс, гугл, ремблер и т.п.
Есть безусловно вредные, как например AhrefsBot, создающий огромные нагрузки, при этом не приносящий никакой пользы, а продающий информацию о моем сайте.

Сейчас доступ ботам делаю черным списком: массив известных мне ботов, и массив "вредных" ботов, которым на любой запрос отдается страница авторизации.
Мой черный список ботов
	var $bad_bots	= array(
'ahrefsbot' => 'AhrefsBot',
'crawl16.lp' => 'BadBotFR',
'crawler.007ac9' => 'GutteraBot',
'mfibot' => 'mfisoftBot',
'OpenLinkProfiler.org/bot' => 'OpenLinkProfilerBot',
'ac9.net' => 'SpamBotFR',
);

Подумываю, не сделать ли белым списком? То есть, отдавать контент только тем ботам, кто в белом списке, а всем остальным отдавать страницу авторизации.

_____________
Бесплатному сыру в дырки не заглядывают...
redreem
вот прям такая нервирующая дилемма? smile.gif ты пишешь "создает нагрузку" и если именно эта причина - то решай вопрос по мере поступления проблемы. возросла нагрузка - вычисляй нарушителя - вноси в черный список. в белом списке всего "возможно нужного" не учтешь.
FatCat
Пока так и делаю.

Вопрос возник в связи с большим количеством "неясных" ботов. Пользы от них не вижу. Каждый по отдельности создает не большую нагрузку, но все вместе в совокупности дают вполне ощутимую нагрузку.

_____________
Бесплатному сыру в дырки не заглядывают...
redreem
ну да собственно в наших реалиях что еще нужно кроме гугла и яши? если проще создать белый список, чем ради 0.0001%, юзающих какие-нибудь "рамблеры" терпеть нагрузки - ну так сделай. вопрос только в балансе.
FatCat
Цитата (redreem @ 22.05.2016 - 15:21)
ради 0.0001%, юзающих какие-нибудь "рамблеры"

Поисковки все в белом списке должны быть.
Речь о других. Например HostTracker. Нафига он ко мне ломится? Какая мне с него польза?

_____________
Бесплатному сыру в дырки не заглядывают...
Invis1ble
А каким образом они создают нагрузку? Частые запросы идут?

_____________

Профессиональная разработка на заказ

Я на GitHub | второй профиль

FatCat
Цитата (Invis1ble @ 22.05.2016 - 21:07)
Частые запросы идут?

Да. Тот же AhrefsBot любит с нескольких десятков айпишников одновременно молотить; на круг несколько сотен запросов в минуту.

_____________
Бесплатному сыру в дырки не заглядывают...
Invis1ble
Цитата (FatCat @ 22.05.2016 - 22:24)
несколько сотен запросов в минуту

ну тогда белый/черный список, можно еще как вариант резать часть запросов, что-нибудь типа

if (!(time() % 10)) {
// статистически каждый 10-й запрос обрабатываем как обычно
} else {
// тут можно отдать другой код ответа, например 429
}


https://ru.wikipedia.org/wiki/%D0%A1%D0%BF%...%D1%8F_HTTP#429

_____________

Профессиональная разработка на заказ

Я на GitHub | второй профиль

Invis1ble
даже лучше вместо time() использовать microtime(true) * 1000, будет равномерней распределение

_____________

Профессиональная разработка на заказ

Я на GitHub | второй профиль

FatCat
Цитата (Invis1ble @ 22.05.2016 - 21:45)
резать часть запросов

Так не хочу.
Если бот полезный - пусть индексирует.
Если вредный - врагу ни байта.

_____________
Бесплатному сыру в дырки не заглядывают...
spomoni
Цитата (FatCat @ 22.05.2016 - 22:24)
Цитата (Invis1ble @ 22.05.2016 - 21:07)
Частые запросы идут?

Да. Тот же AhrefsBot любит с нескольких десятков айпишников одновременно молотить; на круг несколько сотен запросов в минуту.

Ahrefs можно отрубить в скрипте по useragent или подсовывать ему статическую страницу. От него особой пользы для сайта нет.
Planet
Боты как бы есть очень надоедливые, но вот нагрузку на сайт они оказывают вообще мизерную. В основном это занимает 4 секунды.
Но то, что от непонятных лучше избавляться, сомнений нет.

_____________
Анонимные прокси. SOCKS5, HTTP(S), 30 стран. Безлимитный трафик.
Прокси Россия, США, Европа, Украина, Беларусь, АОЭ, Индонезия, Сингапур, Япония и другие.
GET
Мне кажется, предпочтительнее белый список. Полезных ботов можно пересчитать по пальцам, остальные зарабатывают на сайте ничего не отдавая взамен.

К тому же их легче определить не только по UserAgent, а возможно и даже отсеять по статичным IP, где-то читал что у них свои коридоры (http://www.iplists.com/), даже у Yandexa, но только за ними нужно внимательно следить конечно, апдейтить.

_____________
Не тот велик, кто не падал, а тот кто падал и поднимался.
FatCat
Спасибо всем за обсуждение. В итоге сделал оба списка: и черный, и белый.
Выявив нового бота, я решаю в какой список его поместить. Позже могу переместить в другой.
Черный список перекрывает белый: если случайно я помещу бота в оба списка, он будет получать информацию с сайта как из черного списка.

	var $bot_names	= array(
'YandexBot' => 'YandexBot',
//
);
var $bad_bots = array(
'ahrefsbot' => 'AhrefsBot',
//
);

$this->bot_names = array_merge($this->bot_names, $this->bad_bots);

Дальше на по массиву $this->bot_names выявляются все боты.
Боты проверяются по массиву $this->bad_bots и выявленные получают страницу авторизации.

_____________
Бесплатному сыру в дырки не заглядывают...
Быстрый ответ:

 Графические смайлики |  Показывать подпись
Здесь расположена полная версия этой страницы.
Invision Power Board © 2001-2024 Invision Power Services, Inc.