SmorodinKA
1.03.2015 - 03:10
Доброй ночи. Как реализовать функцию, с помощью которой пользователь может запретить поисковым ботам индексировать свои записи, статьи и т.д. Не в роботсе же это прописывается.
Ricco381
1.03.2015 - 04:21
например сделать чекбокс при нажатии на который в начале и в конце записи будет добавляться тег <noindex>
или как вариант в базе сделать дополнительное поле которое будет принимать в качестве параметра 1 или 0, и при публикации этой записи проверять этот параметр, если там 1 значит заворачиваем весь контент в <noindex> если там 0 ни чего не делаем.
<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">
Запрет индексации отдельной страницы.
_____________
Бесплатному сыру в дырки не заглядывают...
Цитата (Ricco381 @ 1.03.2015 - 03:21) |
заворачиваем весь контент в <noindex> |
Яндекс, по моим наблюдениям, отлично индексирует и находит страницы по тексту внутри этого тега. С гуглом не проверял, но думаю, что то же самое.
_____________
Бесплатному сыру в дырки не заглядывают...
Ricco381
1.03.2015 - 16:17
Цитата |
Запрет индексации отдельной страницы. |
я так понял что нужно запретить индексировать часть контента со страницы
Цитата (Ricco381 @ 1.03.2015 - 15:17) |
нужно запретить индексировать часть контента со страницы |
Хочешь жесткий эксперимент? Увидишь своими глазами что и как будет проиндексировано.
Возьми любую страницу, лучше новую, с парой тысяч хорошего текста, и заверни в "ноиндекс" под текст сотен пять ключей из вордстата; и дождись индексации. Если сайт УГ, потеряешь сайт с первого же обхода ботом. Если сайт более-менее нормальный, получишь красное предупреждение в панель яндекс-вебмастера об ограничениях индексации твоего сайта.
_____________
Бесплатному сыру в дырки не заглядывают...
Invis1ble
1.03.2015 - 16:39
Ricco381
1.03.2015 - 16:42
Цитата |
Хочешь жесткий эксперимент? Увидишь своими глазами что и как будет проиндексировано. Возьми любую страницу, лучше новую, с парой тысяч хорошего текста, и заверни в "ноиндекс" под текст сотен пять ключей из вордстата; и дождись индексации. Если сайт УГ, потеряешь сайт с первого же обхода ботом. Если сайт более-менее нормальный, получишь красное предупреждение в панель яндекс-вебмастера об ограничениях индексации твоего сайта. |
спасибо, воздержусь)
и что такое "УГ"?
sergeiss
1.03.2015 - 16:54
Цитата (Ricco381 @ 1.03.2015 - 16:42) |
и что такое "УГ"? |
"Унылое Г-но"
_____________
*
Хэлп по PHP*
Описалово по JavaScript *
Хэлп и СУБД для PostgreSQL*
Обучаю PHP, JS, вёрстке. Интерактивно и качественно. За разумные деньги. *
"накапливаю умение телепатии" (С) и "гуглю за ваш счет" (С)
Цитата (Invis1ble @ 1.03.2015 - 15:39) |
только robots.txt, только хардкор |
Я уже подумываю, чтобы продублировать роботса на пхп - чтобы по юзерагенту ботов вышвыривал нахер.
Запретил к индексации профили на форуме: информации для поисковок в них нет, а ресурсы сервера эти страницы жрут больше, чем обычные страницы тем. Так эта сука в ботах (яндексбот), несмотря на запрет, постоянно там пасется, словно этой мухе навозом намазали...
_____________
Бесплатному сыру в дырки не заглядывают...
По юзер агенту лучше не делать, потому как они (поисковые системы) иногда, для проверки представляются обычными пользователями. Факт.
_____________
Принимаю заказы, писать в ЛС
Invis1ble
1.03.2015 - 18:44
FatCatну как-то так можно, если не хочется заморачиваться со списком актуальных юзер-агентов:
if (stripos($_SERVER['HTTP_USER_AGENT'], 'yandex') !== false) {
header('HTTP/1.0 403 Forbidden', true, 403);
exit;
}
в принципе тоже самое можно и через .htaccess сделать, так наверное даже оптимальней будет
_____________
Профессиональная разработка на заказЯ на GitHub |
второй профиль
Invis1ble
1.03.2015 - 18:45
Цитата (Invis1ble @ 1.03.2015 - 18:45) |
пруф?
|
После такого скрипта, хороший сайт просто выкинуло из выдачи гугла.
_____________
Принимаю заказы, писать в ЛС
Цитата (Медведь @ 1.03.2015 - 17:36) |
потому как они (поисковые системы) иногда, для проверки представляются обычными пользователями. |
Ну и нехрена лезть туда, где написано "поисковкам не ходить".
Цитата (Invis1ble @ 1.03.2015 - 17:44) |
если не хочется заморачиваться со списком актуальных юзер-агентов |
У нас на форуме есть список "разрешенных" поисковок:
if ( preg_match( '/(YandexBlogs|googlebot|slurp@inktomi|ask jeeves|lycos|whatuseek|ia_archiver|aport|yandexbot|stackrambler|yahoo|msnbot|webalta|Mail.Ru|bingbot| mj12bot|exabot|baiduspider|hosttracker|AhrefsBot|SputnikBot|BLEXBot)/i', $_SERVER['HTTP_USER_AGENT'], $match ) )
Они получают "иммунитет", чтобы система защиты им айпишники не откусила. :lol:
Не проблема прямо тут распарсить robots.txt, и кто не туда лезет, отдать
header('HTTP/1.0 403 Forbidden');
header('HTTP/1.1 403 Forbidden');
print "Куда топчешь в ботах? Брысь!";
exit();
Цитата (Медведь @ 1.03.2015 - 18:09) |
выкинуло из выдачи гугла |
За клоакинг? Выкидывает.
А вот насчет закрытия страниц, закрытых в "роботсе" - не уверен...
_____________
Бесплатному сыру в дырки не заглядывают...
Быстрый ответ:
Powered by dgreen
Здесь расположена полная версия этой страницы.