Правила     Закладки     Карма    Календарь    Журналы    Помощь    Поиск    PDA    Чат   
        СМС-ки
   
Пейджер выключен!
 
Фильтр авторов:    показать 
  скрыть
  Ответ в темуСоздание новой темыСоздание опроса

> Изучение статистика посетителей (роботов), Анализируя статистику видно много левых запросов к сайту...
sg.com  
 ۩  Дата
Цитировать сообщение

Пользователя сейчас нет на форуме



Старик
***

Профиль
Группа: Пользователь
Сообщений: 121
Пользователь №: 42899
На форуме: 7 месяцев, 6 дней
Карма: 3




поставил на сайт простенькую статистику (ip, agent, referer, uri, time) и обнаружилось много левых запросов. В этом деле практики - сегодня первый день, поэтому создаю тему.

Вот, к примеру, такие запросы:
Цитата

46.119.112.87
Mozilla/4.0 (compatible; Powermarks/3.5; Windows 95/98/2000/NT)
2016-07-20 17:55:14
-----/blog/ ----http(две точие)//izoll.ru/ ---3

46.119.112.87
Mozilla/4.0 (compatible; MSIE 5.0; Windows 95) Opera 6.01 [en]
2016-07-20 17:55:14
-----/blog/ ----http(две точие)//angarsk.xrus.org/    ---3

178.137.163.41
Mozilla/4.0 (compatible; MSIE 5.0; Windows 2000) Opera 6.0 [en]
2016-07-20 17:45:41
-----/blog/ ----http(две точие)//orenburg.xrus.org/ ---2


с одного ip два referer (один со стройматериалов, другой от проституток). Смотрю xrus (это проститутки) делает запросы с разных ip (по 2 - 5 запросов с одного, затем с другого) Вопрос. Если такое банить то лучше по referer наверное? Хотя они нагрузку не создают, но в статистике это не нужно. Статистика нужно больше для изучения поведения полезных пользователей.

и такой вопрос, как лучше уводить ненужного робота (например такого, который делает 59 запросов за 3 минуты) в сторону (с помощью header или по другому, это МегаИндекс, или это полезный робот).

p..s. буду потихоньку наблюдать
PMПисьмо на e-mail пользователю
    0   Для быстрого поиска похожих сообщений выделите 1-2 слова в тексте и нажмите сюда Для быстрой цитаты из этого сообщения выделите текст и нажмите сюда
sg.com  
 ۩  Дата
Цитировать сообщение

Пользователя сейчас нет на форуме



Старик
***

Профиль
Группа: Пользователь
Сообщений: 121
Пользователь №: 42899
На форуме: 7 месяцев, 6 дней
Карма: 3




Вот есче такое есть:
Цитата


-----198.50.131.46 ----iskanie (+http://www.iskanie.com)

- время "бомбардировки" 16.06.37 - 16.07.37 (с одного ip, кукис не устанавливался,
реферал - всегда доменное имя моего сайта, все 23 раза);

- дальше тот же робот (но уже с установленным кукис, причем три по очереди установились),
время 16.07.39 - 16.10.40, 28(первая кука)+20(вторая)+8(третья) = 56 запросов,
реферал - все тот же домен сайта

Итого, каждые 3 секунды запрос. Куки то ставятся, то меняются.



вот и думаю, ажиотажа посетителей нет, а бывает что что-то виснет на сайте чуть дольше обычного.
PMПисьмо на e-mail пользователю
    0   Для быстрого поиска похожих сообщений выделите 1-2 слова в тексте и нажмите сюда Для быстрой цитаты из этого сообщения выделите текст и нажмите сюда
FatCat  
[x] Дата
Цитировать сообщение

Пользователя сейчас нет на форуме



Чеширский кот
******

Профиль
Журнал
Группа: Администратор
Почтальон группы
Сообщений: 5903
Пользователь №: 1
На форуме: 10 лет, 9 месяцев, 25 дней
Карма: 125

Не пью :
22 года, 2 месяца, 27 дней


Вот мои наработки:
class SESSION{
var $bot_names = array(
'YandexBot' => 'YandexBot',
'yandex.com' => 'YandexBot',
'yandexblogs' => 'YandexBlogs',
'bingbot' => 'BingBot',
'Yahoo!' => 'YahooBot',
'yahoo.net' => 'YahooBot',
'ia_archiver' => 'Archive.org',
'MJ12bot' => 'MJ12bot',
'googlebot' => 'GoogleBot',
'google-proxy' => 'GoogleProxy',
'slurp@inktomi' => 'HotBot',
'ask jeeves' => 'AskJeeves',
'lycos' => 'LycosBot',
'whatuseek' => 'What_U_Seek',
'aport' => 'AportBot',
'yandexnews' => 'YandexNews',
'stackrambler' => 'RamblerBot',
'msnbot' => 'MSNBot',
'webalta' => 'WebAltaBot',
'Mail.Ru' => 'MailRuBot',
'bingbot' => 'BingBot',
'mj12bot' => 'MJ12Bot',
'exabot' => 'ExaBot',
'baiduspider' => 'BaiduSpider',
'hosttracker' => 'HostTracker',
'sputnikbot' => 'SputnikBot',
'blexbot' => 'BlexBot',
'Spiderbot/Nutch' => 'NutchBot',
'Nutch-1.2' => 'NutchBot',
'megaindex.com/crawler' => 'MegaindexBot',
'vk.com' => 'vkShareBot',
'SafeDNSBot' => 'SafeDNSBot',
'WBSearchBot' => 'WBSearchBot',
);

var $bad_bots = array(
'ahrefsbot' => 'AhrefsBot',
'crawl16.lp' => 'BadBotFR',
'crawler.007ac9' => 'GutteraBot',
'mfibot' => 'mfisoftBot',
'OpenLinkProfiler.org' => 'OpenLinkProfilerBot',
'ac9.net' => 'SpamBotFR',
'semrushbot' => 'SemRushBot',
'ezoomsbot' => 'EzoomsBot',
'istellabot' => 'IstellaBot',
'Java/1.6.0' => 'BadBotRO',
'SMTBot' => 'SMTBot',
'ltx71.com' => 'LTX71Bot',
'eth.pakt.spb.ru' => 'eth.pakt.spb.ru',
'sl-reverse.com' => 'sl-reverse.com',
'magpie-crawler' => 'MagpieCrawler',
'tcinet.ru/Bot' => 'TCInetBot',
'seokicks.de/robot' => 'SeoKicksBot',
'iskanie.com' => 'IskanieBot',
'SeznamBot' => 'SeznamBot',
'RukiCrawler' => 'RukiBot',
'DotBot' => 'DotBot',
);

var $user_agent = "";
var $resolved = "";
var $bot_name = "";

function session(){
// ловим мемберов по кукам, продлеваем сессии мемберов

$this->bot_names = array_merge($this->bot_names, $this->bad_bots);

// Опознаем ботов по юзерагенту
$this->user_agent = $std->clean_value($_SERVER['HTTP_USER_AGENT']);
foreach($this->bot_names as $k=>$v)if(stristr($this->user_agent, $k))$this->bot_name = $v;
// и пытаемся ресольвить:
if(!$this->bot_name)
{
$this->resolved = @gethostbyaddr($ibforums->input['IP_ADDRESS']);
if($this->resolved)foreach($this->bot_names as $k=>$v)if(stristr($this->resolved, $k))$this->bot_name = $v;
}

if($this->bot_name)
{
if(in_array($this->bot_name, $this->bad_bots)) // отдаем форму авторизации
else // продлеваем сессию бота

return;
}

// гостям продлеваем или создаем сессию.

return;
}
}


--------------------
Бесплатному сыру в дырки не заглядывают...
PMПисьмо на e-mail пользователюICQ
    0   Для быстрого поиска похожих сообщений выделите 1-2 слова в тексте и нажмите сюда Для быстрой цитаты из этого сообщения выделите текст и нажмите сюда
sg.com  
 ۩  Дата
Цитировать сообщение

Пользователя сейчас нет на форуме



Старик
***

Профиль
Группа: Пользователь
Сообщений: 121
Пользователь №: 42899
На форуме: 7 месяцев, 6 дней
Карма: 3




хорошая наработка, спасибо, несколько вопросов:

от чего чистить User-Agent:

$this->user_agent = $std->clean_value($_SERVER['HTTP_USER_AGENT']);


так понимаю - сессию боты не обходят?

форма авторизации для бота как для посетителя или что-то хитрое?
PMПисьмо на e-mail пользователю
    0   Для быстрого поиска похожих сообщений выделите 1-2 слова в тексте и нажмите сюда Для быстрой цитаты из этого сообщения выделите текст и нажмите сюда
FatCat  
Дата
Цитировать сообщение

Пользователя сейчас нет на форуме



Чеширский кот
******

Профиль
Журнал
Группа: Администратор
Почтальон группы
Сообщений: 5903
Пользователь №: 1
На форуме: 10 лет, 9 месяцев, 25 дней
Карма: 125

Не пью :
22 года, 2 месяца, 27 дней


Цитата (sg.com @ 20.07.2016 - 19:03)
от чего чистить User-Agent

Стандартная очистка перед записью в базу.


Цитата (sg.com @ 20.07.2016 - 19:03)
форма авторизации для бота как для посетителя или что-то хитрое?

Как для посетителей. Если авторизуется - авторизованным получит сессию мембера. Это на случай случайных ошибок, чтобы пользователи могли войти на сайт.


--------------------
Бесплатному сыру в дырки не заглядывают...
PMПисьмо на e-mail пользователюICQ
    0   Для быстрого поиска похожих сообщений выделите 1-2 слова в тексте и нажмите сюда Для быстрой цитаты из этого сообщения выделите текст и нажмите сюда
sg.com  
 ۩  Дата
Цитировать сообщение

Пользователя сейчас нет на форуме



Старик
***

Профиль
Группа: Пользователь
Сообщений: 121
Пользователь №: 42899
На форуме: 7 месяцев, 6 дней
Карма: 3




после установки скрипта статистика стала чище, правда хлам все равно прет:
Цитата

agent( Virusdie crawler/2.1 )   
referer--/bot.virusdie.com/  dns--virusdie.ru

( Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; Maxthon; .NET CLR 1.1.4322) ) 
--/segol.tv/  --134-249-65-218-broadband.kyivstar.net

( Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; Crazy Browser 1.0.5) )   
--134-249-65-218-broadband.kyivstar.net

( Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.2; WOW64; SV1; .NET CLR 2.0.50727) )
--http://yoshkarola.xrus.org/  --134-249-53-10-broadband.kyivstar.net

( Mozilla/4.61 [en] (X11; U; ) - BrowseX (2.0.0 Windows) )
--http://astrakhan.xrus.org/  --SOL-FTTB.87.112.119.46.sovam.net.ua



киевстар пока понаблюдаю, хотя похоже кроме хлама с него ничего нет, а вот sovam.net.ua наверное стоит добавить в badbot (нашел в нете, что вот эта метка SOL-FTTB, означает что это уже не есть гуд ). Кто с этим сталкивался (с этим SOL-FTTB), что это такое? подстава?
PMПисьмо на e-mail пользователю
    0   Для быстрого поиска похожих сообщений выделите 1-2 слова в тексте и нажмите сюда Для быстрой цитаты из этого сообщения выделите текст и нажмите сюда
FatCat  
Дата
Цитировать сообщение

Пользователя сейчас нет на форуме



Чеширский кот
******

Профиль
Журнал
Группа: Администратор
Почтальон группы
Сообщений: 5903
Пользователь №: 1
На форуме: 10 лет, 9 месяцев, 25 дней
Карма: 125

Не пью :
22 года, 2 месяца, 27 дней




--------------------
Бесплатному сыру в дырки не заглядывают...
PMПисьмо на e-mail пользователюICQ
    0   Для быстрого поиска похожих сообщений выделите 1-2 слова в тексте и нажмите сюда Для быстрой цитаты из этого сообщения выделите текст и нажмите сюда
  Быстрый ответ
Информация о Госте
Введите Ваше имя
Кнопки кодов
Для вставки цитаты, выделите нужный текст и
НАЖМИТЕ СЮДА
Введите сообщение
Смайлики
:huh:  :o  ;) 
:P  :D  :lol: 
B)  :rolleyes:  <_< 
:)  :angry:  :( 
:unsure:  :blink:  :ph34r: 
     
Показать всё

Опции сообщения  Включить смайлики?
 Включить подпись?
 
1 Пользователей читают эту тему (1 Гостей и 0 Скрытых Пользователей)
0 Пользователей:

Опции темы Ответ в темуСоздание новой темыСоздание опроса