Правила     Закладки     Карма    Календарь    Журналы    Помощь    Поиск    PDA    Чат   
        СМС-ки
   
Пейджер выключен!
Страницы: (2) [1] 2  ( Перейти к первому непрочитанному сообщению )  
Фильтр авторов:    показать 
  скрыть
  Ответ в темуСоздание новой темыСоздание опроса

> Googlebot спамит сайт. Что делать?
inpost  
 ۩  Дата
Цитировать сообщение

Пользователя сейчас нет на форуме



Помагите Здесь живу!!!
******

Профиль
Группа: Эксперт
Группа переписки
Сообщений: 22689
Пользователь №: 20039
На форуме: 6 лет, 11 месяцев, 27 дней
Карма: 599




Googlebot спамит сайт. Что делать?
Access.log переполняется очень быстро:
66.249.78.34 - - [14/Mar/2015:16:31:11 +0200] "GET /conf.php?id=7ME5890-.....-....&pyear=2007&pos8=6C&pos10=B7&pos12=0&pos13=6B&pos15=N HTTP/1.1" 301 742 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.78.34 - - [14/Mar/2015:16:31:11 +0200] "GET /conf.php?id=7ME5890-.....-....&pyear=2007&pos8=6C&pos10=B7&pos12=0&pos13=6B&pos15=N HTTP/1.1" 404 13452 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.78.48 - - [14/Mar/2015:16:31:40 +0200] "GET /conf.php?id=7ME5832-....0-....&pyear=&pos8=0&pos9=CB&pos11=2&pos13=0&pos14=BC HTTP/1.1" 301 730 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.78.41 - - [14/Mar/2015:16:31:40 +0200] "GET /conf.php?id=7ME5832-....0-....&pyear=&pos8=0&pos9=CB&pos11=2&pos13=0&pos14=BC HTTP/1.1" 404 13452 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.78.41 - - [14/Mar/2015:16:31:44 +0200] "GET /index.php?tree=1000000&tree2=10045207&tree3=9309999&tree4=9300001&tree5=9300008&tree6=9300217&tree7=9300179&tab=B&type=PDF HTTP/1.1" 301 828 "-" "Mozilla/5.0 (iPhone; CPU iPhone OS 6_0 like Mac OS X) AppleWebKit/536.26 (KHTML, like Gecko) Version/6.0 Mobile/10A5376e Safari/8536.25 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.78.27 - - [14/Mar/2015:16:31:45 +0200] "GET /index.php?tree=1000000&tree2=10045207&tree3=9309999&tree4=9300001&tree5=9300008&tree6=9300217&tree7=9300179&tab=B&type=PDF HTTP/1.1" 200 19857 "-" "Mozilla/5.0 (iPhone; CPU iPhone OS 6_0 like Mac OS X) AppleWebKit/536.26 (KHTML, like Gecko) Version/6.0 Mobile/10A5376e Safari/8536.25 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"


Может быть на моём IP что-то раньше было? Он спамит каждую 1-2 секунды эти ссылки меняя аргументы.


--------------------
Обучаю веб-программированию качественно и не дорого: http://school-php.com
Фрилансер, принимаю заказы: PHP, JS, AS (видео-чаты). Писать в ЛС (Личные сообщения на phpforum).
PMПисьмо на e-mail пользователюICQ
    0   Для быстрого поиска похожих сообщений выделите 1-2 слова в тексте и нажмите сюда Для быстрой цитаты из этого сообщения выделите текст и нажмите сюда
bestxp  
Дата
Цитировать сообщение

Пользователя сейчас нет на форуме



орангутанг
******

Профиль
Группа: Форумчанин
Завсегдатай форума
Сообщений: 2004
Пользователь №: 36605
На форуме: 3 года, 9 месяцев, 16 дней
Карма: 111




Значит было) ну например robots.txt или для ip поставить блок и возвращать 404 ошибку
пока не пройдет по всем url не перестанет


--------------------
PMПисьмо на e-mail пользователюСайт пользователяICQ
    0   Для быстрого поиска похожих сообщений выделите 1-2 слова в тексте и нажмите сюда Для быстрой цитаты из этого сообщения выделите текст и нажмите сюда
inpost  
 ۩  Дата
Цитировать сообщение

Пользователя сейчас нет на форуме



Помагите Здесь живу!!!
******

Профиль
Группа: Эксперт
Группа переписки
Сообщений: 22689
Пользователь №: 20039
На форуме: 6 лет, 11 месяцев, 27 дней
Карма: 599




Хорошая идея. Добавил в robots.txt:
Disallow: /conf.php
Disallow: /conf.php*

Но он всё равно продолжает.
Блокировать робота глупо же... ладно, буду ждать, пока он все ссылке переберёт. sad.gif


--------------------
Обучаю веб-программированию качественно и не дорого: http://school-php.com
Фрилансер, принимаю заказы: PHP, JS, AS (видео-чаты). Писать в ЛС (Личные сообщения на phpforum).
PMПисьмо на e-mail пользователюICQ
    0   Для быстрого поиска похожих сообщений выделите 1-2 слова в тексте и нажмите сюда Для быстрой цитаты из этого сообщения выделите текст и нажмите сюда
inpost  
 ۩  Дата
Цитировать сообщение

Пользователя сейчас нет на форуме



Помагите Здесь живу!!!
******

Профиль
Группа: Эксперт
Группа переписки
Сообщений: 22689
Пользователь №: 20039
На форуме: 6 лет, 11 месяцев, 27 дней
Карма: 599




До сих пор спамит каждую секунду laugh.gif laugh.gif laugh.gif


--------------------
Обучаю веб-программированию качественно и не дорого: http://school-php.com
Фрилансер, принимаю заказы: PHP, JS, AS (видео-чаты). Писать в ЛС (Личные сообщения на phpforum).
PMПисьмо на e-mail пользователюICQ
    0   Для быстрого поиска похожих сообщений выделите 1-2 слова в тексте и нажмите сюда Для быстрой цитаты из этого сообщения выделите текст и нажмите сюда
S.Chushkin  
Дата
Цитировать сообщение

Пользователь сейчас на форуме



Пофигист
******

Профиль
Группа: Форумчанин
Завсегдатай форума
Сообщений: 777
Пользователь №: 36058
На форуме: 3 года, 11 месяцев, 7 дней
Карма: 40




Все боты тупые, к сожалению. (+/-)

Скорость сканирования гуглом можно задать только в настройках вебмастера на самом гугло-сайте (https://www.google.com/webmasters).
Или дожидаться когда он сам настроится, но ждать этого момента можно долго, очень.


--------------------
PM
    0   Для быстрого поиска похожих сообщений выделите 1-2 слова в тексте и нажмите сюда Для быстрой цитаты из этого сообщения выделите текст и нажмите сюда
inpost  
 ۩  Дата
Цитировать сообщение

Пользователя сейчас нет на форуме



Помагите Здесь живу!!!
******

Профиль
Группа: Эксперт
Группа переписки
Сообщений: 22689
Пользователь №: 20039
На форуме: 6 лет, 11 месяцев, 27 дней
Карма: 599




S.Chushkin
Проблема в том, что в webmasters нет информации об данном виде сканирования, то есть он сканирует, но меня не уведомляет об этом. Поэтому ограничения, которые я задам для моего сайта подействуют только в рамках сканирования ботом моего сайта. В те отчёты не попадают сканирование по IP: http://1.1.1.1/conf.php , вот, скорее всего, по IP и дёргает мой сайт


--------------------
Обучаю веб-программированию качественно и не дорого: http://school-php.com
Фрилансер, принимаю заказы: PHP, JS, AS (видео-чаты). Писать в ЛС (Личные сообщения на phpforum).
PMПисьмо на e-mail пользователюICQ
    0   Для быстрого поиска похожих сообщений выделите 1-2 слова в тексте и нажмите сюда Для быстрой цитаты из этого сообщения выделите текст и нажмите сюда
paul85  
Дата
Цитировать сообщение

Пользователя сейчас нет на форуме



Здесь живет
******

Профиль
Группа: Форумчанин
Завсегдатай форума
Сообщений: 1836
Пользователь №: 32147
На форуме: 4 года, 7 месяцев, 18 дней
Карма: 35




inpost, да и хрен с ним, пусть спамит! Он же тебя не "заливает" надеюсь? =) Отдавай 404 да и всё. Ничего с ним не сделаешь скорее всего. А файл robots.txt он видимо не перечитает до тех пор пока не пройдет текущая "сессия".

Можно попытаться его остановить, конечно... Если заблокировать гуглу фаерволом доступ к сайту, то он должен прекратить запрашивать, решив, что тот умер... И в следующий раз, когда придет, перечитает robots.txt.

А так он и будет продолжать, пока всё не переберет, что у него есть в списке. 404 ведь не ошибка с точки зрения робота, а результат.
PMПисьмо на e-mail пользователю
    0   Для быстрого поиска похожих сообщений выделите 1-2 слова в тексте и нажмите сюда Для быстрой цитаты из этого сообщения выделите текст и нажмите сюда
FatCat  
Дата
Цитировать сообщение

Пользователя сейчас нет на форуме



Чеширский кот
******

Профиль
Журнал
Группа: Администратор
Почтальон группы
Сообщений: 5903
Пользователь №: 1
На форуме: 10 лет, 9 месяцев, 25 дней
Карма: 125

Не пью :
22 года, 2 месяца, 27 дней


Цитата (paul85 @ 27.03.2015 - 07:10)
файл robots.txt он видимо не перечитает до тех пор пока не пройдет текущая "сессия".

Всё проще.
Роботс - это ограничение индексации, а не ограничение сканирования. Вот бот и роется в дерьме в поисках ссылок...
Пофигу что отдавать, главное вообще без ссылок. Тогда отлипнет быстрее.


--------------------
Бесплатному сыру в дырки не заглядывают...
PMПисьмо на e-mail пользователюICQ
    0   Для быстрого поиска похожих сообщений выделите 1-2 слова в тексте и нажмите сюда Для быстрой цитаты из этого сообщения выделите текст и нажмите сюда
Balancer73  
Дата
Цитировать сообщение

Пользователя сейчас нет на форуме



Новичок
*

Профиль
Группа: Пользователь
Сообщений: 7
Пользователь №: 40607
На форуме: 1 год, 11 месяцев, 27 дней
Карма:




Цитата (S.Chushkin @ 27.03.2015 - 05:05)
Скорость сканирования гуглом можно задать только в настройках вебмастера на самом гугло-сайте

Можно (и, ИМХО, это самое корректное) при перегрузке отдавать 503-ю ошибку с указанием таймаута. Гуглобот реагирует на этот код корректно и сразу снижает нагрузку.


--------------------
... чтобы понять рекурсию, нужно сперва понять рекурсию ...
PMПисьмо на e-mail пользователю
    0   Для быстрого поиска похожих сообщений выделите 1-2 слова в тексте и нажмите сюда Для быстрой цитаты из этого сообщения выделите текст и нажмите сюда
inpost  
 ۩  Дата
Цитировать сообщение

Пользователя сейчас нет на форуме



Помагите Здесь живу!!!
******

Профиль
Группа: Эксперт
Группа переписки
Сообщений: 22689
Пользователь №: 20039
На форуме: 6 лет, 11 месяцев, 27 дней
Карма: 599




Balancer73
Ты считаешь, что гугл не уменьшит рейтинг сайта, который постоянно отдаёт 503?


--------------------
Обучаю веб-программированию качественно и не дорого: http://school-php.com
Фрилансер, принимаю заказы: PHP, JS, AS (видео-чаты). Писать в ЛС (Личные сообщения на phpforum).
PMПисьмо на e-mail пользователюICQ
    0   Для быстрого поиска похожих сообщений выделите 1-2 слова в тексте и нажмите сюда Для быстрой цитаты из этого сообщения выделите текст и нажмите сюда
Balancer73  
Дата
Цитировать сообщение

Пользователя сейчас нет на форуме



Новичок
*

Профиль
Группа: Пользователь
Сообщений: 7
Пользователь №: 40607
На форуме: 1 год, 11 месяцев, 27 дней
Карма:




Цитата (inpost @ 28.03.2015 - 02:47)
Balancer73
Ты считаешь, что гугл не уменьшит рейтинг сайта, который постоянно отдаёт 503?

Как минимум, рейтинг сайта будет не ниже, чем в варианте чистого бана или отдачи 404 smile.gif

Я на многих сайтах с высокой загрузкой подобное практикую. И Гугл с пониманием относится — доля 503-х ошибок в его статистике ничтожна. Начав их получать он честно снижает нагрузку.


--------------------
... чтобы понять рекурсию, нужно сперва понять рекурсию ...
PMПисьмо на e-mail пользователю
    0   Для быстрого поиска похожих сообщений выделите 1-2 слова в тексте и нажмите сюда Для быстрой цитаты из этого сообщения выделите текст и нажмите сюда
inpost  
 ۩  Дата
Цитировать сообщение

Пользователя сейчас нет на форуме



Помагите Здесь живу!!!
******

Профиль
Группа: Эксперт
Группа переписки
Сообщений: 22689
Пользователь №: 20039
На форуме: 6 лет, 11 месяцев, 27 дней
Карма: 599




Balancer73
404 говорит о том, что страницы не существует. 503 - сайт лежит. Используя логику мы ходим сказать поисковику, что этих страниц не существует и не надо к ним обращаться, то мы применим код 404, или 503? wink.gif
Представь себе, гугл хочет сделать 100 запросов. Эти 100 запросов он сделает за 100 секунд, или же 100 запросов за 100 дней? Какая разница в интенсивности, важна сама суть, он будет биться и биться, пока все страницы не обойдет или пока он не получит информацию о том, что страниц не существует.
Я хочу избавиться от проблемы у корня, а не растянуть её на долгий период.


--------------------
Обучаю веб-программированию качественно и не дорого: http://school-php.com
Фрилансер, принимаю заказы: PHP, JS, AS (видео-чаты). Писать в ЛС (Личные сообщения на phpforum).
PMПисьмо на e-mail пользователюICQ
    0   Для быстрого поиска похожих сообщений выделите 1-2 слова в тексте и нажмите сюда Для быстрой цитаты из этого сообщения выделите текст и нажмите сюда
Balancer73  
Дата
Цитировать сообщение

Пользователя сейчас нет на форуме



Новичок
*

Профиль
Группа: Пользователь
Сообщений: 7
Пользователь №: 40607
На форуме: 1 год, 11 месяцев, 27 дней
Карма:




404 говорит, что страницы нет. Соответственно, она не индексируется и не повышает рейтинг сайта.

503 — это не сайт лежит, не путайте с 500 smile.gif 503 — это «зайдите попозже» (и таймаут в секундах).

>Какая разница в интенсивности, важна сама суть, он будет биться и биться, пока все страницы не обойдет

Для Гугла разницы (при 503) нет. Он, увидев, что сайт перегружает, будет долбиться реже. Чем снизит нагрузку на сайт, что нам и требуется. Он всё равно его обойдёт весь, но уже без вредоносных последствий.

>Я хочу избавиться от проблемы у корня, а не растянуть её на долгий период.

Тогда непонятны комментарии на тему влияния на рейтинг сайта. И, кстати, Гугл никогда не прекратит ходить по сайту. Он будет делать это и для уже проиндексированных ранее страниц, и для тех, которые возвращали 404, но на которые есть ссылки на других страницах. На любом более-менее крупном сайте он живёт практически постоянно smile.gif



--------------------
... чтобы понять рекурсию, нужно сперва понять рекурсию ...
PMПисьмо на e-mail пользователю
    0   Для быстрого поиска похожих сообщений выделите 1-2 слова в тексте и нажмите сюда Для быстрой цитаты из этого сообщения выделите текст и нажмите сюда
inpost  
 ۩  Дата
Цитировать сообщение

Пользователя сейчас нет на форуме



Помагите Здесь живу!!!
******

Профиль
Группа: Эксперт
Группа переписки
Сообщений: 22689
Пользователь №: 20039
На форуме: 6 лет, 11 месяцев, 27 дней
Карма: 599




Balancer73
nginx возвращает 503, когда не дожидается ответа от скриптов, то есть во время перегрузки сервера.

Кроме этого мне надо, чтобы он ходил в НОРМАЛЬНОМ русле по существующим страницам, просто чтобы прекратил дёргать те, которых не существует.


--------------------
Обучаю веб-программированию качественно и не дорого: http://school-php.com
Фрилансер, принимаю заказы: PHP, JS, AS (видео-чаты). Писать в ЛС (Личные сообщения на phpforum).
PMПисьмо на e-mail пользователюICQ
    0   Для быстрого поиска похожих сообщений выделите 1-2 слова в тексте и нажмите сюда Для быстрой цитаты из этого сообщения выделите текст и нажмите сюда
FatCat  
Дата
Цитировать сообщение

Пользователя сейчас нет на форуме



Чеширский кот
******

Профиль
Журнал
Группа: Администратор
Почтальон группы
Сообщений: 5903
Пользователь №: 1
На форуме: 10 лет, 9 месяцев, 25 дней
Карма: 125

Не пью :
22 года, 2 месяца, 27 дней


Цитата (inpost @ 28.03.2015 - 03:25)
404 говорит о том, что страницы не существует. 503 - сайт лежит. Используя логику мы ходим сказать поисковику, что этих страниц не существует и не надо к ним обращаться, то мы применим код 404, или 503?

У гугла другая логика.
404-я страница - это полноценная страница сайта. И все адреса, которые ведут на эту страницу - это "сопли". Гугл редко переиндексирует сопли, но всё же переиндексирует, потому что гугл хранит сопли.
503-я страница - это ответ сервера, а не страница сайта; гугл не хранит в своей базе эти страницы и не переиндексирует.

Но с 503-й есть "подстава": если гугл страницу не держит в индексе, он ее не помнит. Но если на эту страницу есть ссылки с часто индексируемых страниц - страница вновь и вновь будет попадать в план индексации.

Есть и еще одна проблема: "клоакинг". Если обычным посетителям я отдаю один контент, а гуглботу другой - это называется "клоакингом" - гуглбот обижается и сильно понижает рейтинг всего сайта.

Однозначного правильного ответа я не знаю. Сейчас экспериментирую со страницами ошибок: отдаю всем обычную страницу ошибок под 503-м заголовком. Если прокатит (а вроде прокатывает), сделаю такую же штуку на профили пользователей и прочие страницы, которые не хочу индексировать.


--------------------
Бесплатному сыру в дырки не заглядывают...
PMПисьмо на e-mail пользователюICQ
    0   Для быстрого поиска похожих сообщений выделите 1-2 слова в тексте и нажмите сюда Для быстрой цитаты из этого сообщения выделите текст и нажмите сюда
  Быстрый ответ
Информация о Госте
Введите Ваше имя
Кнопки кодов
Для вставки цитаты, выделите нужный текст и
НАЖМИТЕ СЮДА
Введите сообщение
Смайлики
:huh:  :o  ;) 
:P  :D  :lol: 
B)  :rolleyes:  <_< 
:)  :angry:  :( 
:unsure:  :blink:  :ph34r: 
     
Показать всё

Опции сообщения  Включить смайлики?
 Включить подпись?
 
1 Пользователей читают эту тему (1 Гостей и 0 Скрытых Пользователей)
0 Пользователей:

Опции темыСтраницы: (2) [1] 2  Ответ в темуСоздание новой темыСоздание опроса