[ Поиск ] - [ Пользователи ] - [ Календарь ]
Полная Версия: Googlebot спамит сайт. Что делать?
Страницы: 1, 2
inpost
Googlebot спамит сайт. Что делать?
Access.log переполняется очень быстро:
66.249.78.34 - - [14/Mar/2015:16:31:11 +0200] "GET /conf.php?id=7ME5890-.....-....&pyear=2007&pos8=6C&pos10=B7&pos12=0&pos13=6B&pos15=N HTTP/1.1" 301 742 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.78.34 - - [14/Mar/2015:16:31:11 +0200] "GET /conf.php?id=7ME5890-.....-....&pyear=2007&pos8=6C&pos10=B7&pos12=0&pos13=6B&pos15=N HTTP/1.1" 404 13452 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.78.48 - - [14/Mar/2015:16:31:40 +0200] "GET /conf.php?id=7ME5832-....0-....&pyear=&pos8=0&pos9=CB&pos11=2&pos13=0&pos14=BC HTTP/1.1" 301 730 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.78.41 - - [14/Mar/2015:16:31:40 +0200] "GET /conf.php?id=7ME5832-....0-....&pyear=&pos8=0&pos9=CB&pos11=2&pos13=0&pos14=BC HTTP/1.1" 404 13452 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.78.41 - - [14/Mar/2015:16:31:44 +0200] "GET /index.php?tree=1000000&tree2=10045207&tree3=9309999&tree4=9300001&tree5=9300008&tree6=9300217&tree7=9300179&tab=B&type=PDF HTTP/1.1" 301 828 "-" "Mozilla/5.0 (iPhone; CPU iPhone OS 6_0 like Mac OS X) AppleWebKit/536.26 (KHTML, like Gecko) Version/6.0 Mobile/10A5376e Safari/8536.25 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.78.27 - - [14/Mar/2015:16:31:45 +0200] "GET /index.php?tree=1000000&tree2=10045207&tree3=9309999&tree4=9300001&tree5=9300008&tree6=9300217&tree7=9300179&tab=B&type=PDF HTTP/1.1" 200 19857 "-" "Mozilla/5.0 (iPhone; CPU iPhone OS 6_0 like Mac OS X) AppleWebKit/536.26 (KHTML, like Gecko) Version/6.0 Mobile/10A5376e Safari/8536.25 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"


Может быть на моём IP что-то раньше было? Он спамит каждую 1-2 секунды эти ссылки меняя аргументы.

_____________
Обучаю веб-программированию качественно и не дорого: http://school-php.com
Фрилансер, принимаю заказы: PHP, JS, AS (видео-чаты). Писать в ЛС (Личные сообщения на phpforum).
bestxp
Значит было) ну например robots.txt или для ip поставить блок и возвращать 404 ошибку
пока не пройдет по всем url не перестанет
inpost
Хорошая идея. Добавил в robots.txt:
Disallow: /conf.php
Disallow: /conf.php*

Но он всё равно продолжает.
Блокировать робота глупо же... ладно, буду ждать, пока он все ссылке переберёт. sad.gif

_____________
Обучаю веб-программированию качественно и не дорого: http://school-php.com
Фрилансер, принимаю заказы: PHP, JS, AS (видео-чаты). Писать в ЛС (Личные сообщения на phpforum).
inpost
До сих пор спамит каждую секунду laugh.gif laugh.gif laugh.gif

_____________
Обучаю веб-программированию качественно и не дорого: http://school-php.com
Фрилансер, принимаю заказы: PHP, JS, AS (видео-чаты). Писать в ЛС (Личные сообщения на phpforum).
S.Chushkin
Все боты тупые, к сожалению. (+/-)

Скорость сканирования гуглом можно задать только в настройках вебмастера на самом гугло-сайте (https://www.google.com/webmasters).
Или дожидаться когда он сам настроится, но ждать этого момента можно долго, очень.

_____________
Рекламка / ad.pesow.com Хрень / mr-1.ru
inpost
S.Chushkin
Проблема в том, что в webmasters нет информации об данном виде сканирования, то есть он сканирует, но меня не уведомляет об этом. Поэтому ограничения, которые я задам для моего сайта подействуют только в рамках сканирования ботом моего сайта. В те отчёты не попадают сканирование по IP: http://1.1.1.1/conf.php , вот, скорее всего, по IP и дёргает мой сайт

_____________
Обучаю веб-программированию качественно и не дорого: http://school-php.com
Фрилансер, принимаю заказы: PHP, JS, AS (видео-чаты). Писать в ЛС (Личные сообщения на phpforum).
paul85
inpost, да и хрен с ним, пусть спамит! Он же тебя не "заливает" надеюсь? =) Отдавай 404 да и всё. Ничего с ним не сделаешь скорее всего. А файл robots.txt он видимо не перечитает до тех пор пока не пройдет текущая "сессия".

Можно попытаться его остановить, конечно... Если заблокировать гуглу фаерволом доступ к сайту, то он должен прекратить запрашивать, решив, что тот умер... И в следующий раз, когда придет, перечитает robots.txt.

А так он и будет продолжать, пока всё не переберет, что у него есть в списке. 404 ведь не ошибка с точки зрения робота, а результат.
FatCat
Цитата (paul85 @ 27.03.2015 - 07:10)
файл robots.txt он видимо не перечитает до тех пор пока не пройдет текущая "сессия".

Всё проще.
Роботс - это ограничение индексации, а не ограничение сканирования. Вот бот и роется в дерьме в поисках ссылок...
Пофигу что отдавать, главное вообще без ссылок. Тогда отлипнет быстрее.

_____________
Бесплатному сыру в дырки не заглядывают...
Balancer73
Цитата (S.Chushkin @ 27.03.2015 - 05:05)
Скорость сканирования гуглом можно задать только в настройках вебмастера на самом гугло-сайте

Можно (и, ИМХО, это самое корректное) при перегрузке отдавать 503-ю ошибку с указанием таймаута. Гуглобот реагирует на этот код корректно и сразу снижает нагрузку.

_____________
... чтобы понять рекурсию, нужно сперва понять рекурсию ...
inpost
Balancer73
Ты считаешь, что гугл не уменьшит рейтинг сайта, который постоянно отдаёт 503?

_____________
Обучаю веб-программированию качественно и не дорого: http://school-php.com
Фрилансер, принимаю заказы: PHP, JS, AS (видео-чаты). Писать в ЛС (Личные сообщения на phpforum).
Balancer73
Цитата (inpost @ 28.03.2015 - 02:47)
Balancer73
Ты считаешь, что гугл не уменьшит рейтинг сайта, который постоянно отдаёт 503?

Как минимум, рейтинг сайта будет не ниже, чем в варианте чистого бана или отдачи 404 smile.gif

Я на многих сайтах с высокой загрузкой подобное практикую. И Гугл с пониманием относится — доля 503-х ошибок в его статистике ничтожна. Начав их получать он честно снижает нагрузку.

_____________
... чтобы понять рекурсию, нужно сперва понять рекурсию ...
inpost
Balancer73
404 говорит о том, что страницы не существует. 503 - сайт лежит. Используя логику мы ходим сказать поисковику, что этих страниц не существует и не надо к ним обращаться, то мы применим код 404, или 503? wink.gif
Представь себе, гугл хочет сделать 100 запросов. Эти 100 запросов он сделает за 100 секунд, или же 100 запросов за 100 дней? Какая разница в интенсивности, важна сама суть, он будет биться и биться, пока все страницы не обойдет или пока он не получит информацию о том, что страниц не существует.
Я хочу избавиться от проблемы у корня, а не растянуть её на долгий период.

_____________
Обучаю веб-программированию качественно и не дорого: http://school-php.com
Фрилансер, принимаю заказы: PHP, JS, AS (видео-чаты). Писать в ЛС (Личные сообщения на phpforum).
Balancer73
404 говорит, что страницы нет. Соответственно, она не индексируется и не повышает рейтинг сайта.

503 — это не сайт лежит, не путайте с 500 smile.gif 503 — это «зайдите попозже» (и таймаут в секундах).

>Какая разница в интенсивности, важна сама суть, он будет биться и биться, пока все страницы не обойдет

Для Гугла разницы (при 503) нет. Он, увидев, что сайт перегружает, будет долбиться реже. Чем снизит нагрузку на сайт, что нам и требуется. Он всё равно его обойдёт весь, но уже без вредоносных последствий.

>Я хочу избавиться от проблемы у корня, а не растянуть её на долгий период.

Тогда непонятны комментарии на тему влияния на рейтинг сайта. И, кстати, Гугл никогда не прекратит ходить по сайту. Он будет делать это и для уже проиндексированных ранее страниц, и для тех, которые возвращали 404, но на которые есть ссылки на других страницах. На любом более-менее крупном сайте он живёт практически постоянно smile.gif



_____________
... чтобы понять рекурсию, нужно сперва понять рекурсию ...
inpost
Balancer73
nginx возвращает 503, когда не дожидается ответа от скриптов, то есть во время перегрузки сервера.

Кроме этого мне надо, чтобы он ходил в НОРМАЛЬНОМ русле по существующим страницам, просто чтобы прекратил дёргать те, которых не существует.

_____________
Обучаю веб-программированию качественно и не дорого: http://school-php.com
Фрилансер, принимаю заказы: PHP, JS, AS (видео-чаты). Писать в ЛС (Личные сообщения на phpforum).
FatCat
Цитата (inpost @ 28.03.2015 - 03:25)
404 говорит о том, что страницы не существует. 503 - сайт лежит. Используя логику мы ходим сказать поисковику, что этих страниц не существует и не надо к ним обращаться, то мы применим код 404, или 503?

У гугла другая логика.
404-я страница - это полноценная страница сайта. И все адреса, которые ведут на эту страницу - это "сопли". Гугл редко переиндексирует сопли, но всё же переиндексирует, потому что гугл хранит сопли.
503-я страница - это ответ сервера, а не страница сайта; гугл не хранит в своей базе эти страницы и не переиндексирует.

Но с 503-й есть "подстава": если гугл страницу не держит в индексе, он ее не помнит. Но если на эту страницу есть ссылки с часто индексируемых страниц - страница вновь и вновь будет попадать в план индексации.

Есть и еще одна проблема: "клоакинг". Если обычным посетителям я отдаю один контент, а гуглботу другой - это называется "клоакингом" - гуглбот обижается и сильно понижает рейтинг всего сайта.

Однозначного правильного ответа я не знаю. Сейчас экспериментирую со страницами ошибок: отдаю всем обычную страницу ошибок под 503-м заголовком. Если прокатит (а вроде прокатывает), сделаю такую же штуку на профили пользователей и прочие страницы, которые не хочу индексировать.

_____________
Бесплатному сыру в дырки не заглядывают...
Быстрый ответ:

 Графические смайлики |  Показывать подпись
Здесь расположена полная версия этой страницы.
Invision Power Board © 2001-2024 Invision Power Services, Inc.