[ Поиск ] - [ Пользователи ] - [ Календарь ]
Полная Версия: Запрет индексации своих страниц
Страницы: 1, 2
SmorodinKA
Доброй ночи. Как реализовать функцию, с помощью которой пользователь может запретить поисковым ботам индексировать свои записи, статьи и т.д. Не в роботсе же это прописывается.
Ricco381
например сделать чекбокс при нажатии на который в начале и в конце записи будет добавляться тег <noindex>

или как вариант в базе сделать дополнительное поле которое будет принимать в качестве параметра 1 или 0, и при публикации этой записи проверять этот параметр, если там 1 значит заворачиваем весь контент в <noindex> если там 0 ни чего не делаем.
FatCat
<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">
Запрет индексации отдельной страницы.

_____________
Бесплатному сыру в дырки не заглядывают...
FatCat
Цитата (Ricco381 @ 1.03.2015 - 03:21)
заворачиваем весь контент в <noindex>

Яндекс, по моим наблюдениям, отлично индексирует и находит страницы по тексту внутри этого тега. С гуглом не проверял, но думаю, что то же самое.

_____________
Бесплатному сыру в дырки не заглядывают...
Ricco381
Цитата
Запрет индексации отдельной страницы.


я так понял что нужно запретить индексировать часть контента со страницы
FatCat
Цитата (Ricco381 @ 1.03.2015 - 15:17)
нужно запретить индексировать часть контента со страницы

Хочешь жесткий эксперимент? Увидишь своими глазами что и как будет проиндексировано.
Возьми любую страницу, лучше новую, с парой тысяч хорошего текста, и заверни в "ноиндекс" под текст сотен пять ключей из вордстата; и дождись индексации. Если сайт УГ, потеряешь сайт с первого же обхода ботом. Если сайт более-менее нормальный, получишь красное предупреждение в панель яндекс-вебмастера об ограничениях индексации твоего сайта.

_____________
Бесплатному сыру в дырки не заглядывают...
Invis1ble
только robots.txt, только хардкор

_____________

Профессиональная разработка на заказ

Я на GitHub | второй профиль

Ricco381
Цитата
Хочешь жесткий эксперимент? Увидишь своими глазами что и как будет проиндексировано.
Возьми любую страницу, лучше новую, с парой тысяч хорошего текста, и заверни в "ноиндекс" под текст сотен пять ключей из вордстата; и дождись индексации. Если сайт УГ, потеряешь сайт с первого же обхода ботом. Если сайт более-менее нормальный, получишь красное предупреждение в панель яндекс-вебмастера об ограничениях индексации твоего сайта.


спасибо, воздержусь)
и что такое "УГ"?
sergeiss
Цитата (Ricco381 @ 1.03.2015 - 16:42)
и что такое "УГ"?

"Унылое Г-но"

_____________
* Хэлп по PHP
* Описалово по JavaScript
* Хэлп и СУБД для PostgreSQL

* Обучаю PHP, JS, вёрстке. Интерактивно и качественно. За разумные деньги.

* "накапливаю умение телепатии" (С) и "гуглю за ваш счет" (С)

user posted image
FatCat
Цитата (Invis1ble @ 1.03.2015 - 15:39)
только robots.txt, только хардкор

Я уже подумываю, чтобы продублировать роботса на пхп - чтобы по юзерагенту ботов вышвыривал нахер.
Запретил к индексации профили на форуме: информации для поисковок в них нет, а ресурсы сервера эти страницы жрут больше, чем обычные страницы тем. Так эта сука в ботах (яндексбот), несмотря на запрет, постоянно там пасется, словно этой мухе навозом намазали...

_____________
Бесплатному сыру в дырки не заглядывают...
Миша
По юзер агенту лучше не делать, потому как они (поисковые системы) иногда, для проверки представляются обычными пользователями. Факт.

_____________
Принимаю заказы, писать в ЛС
Invis1ble
FatCat
ну как-то так можно, если не хочется заморачиваться со списком актуальных юзер-агентов:
if (stripos($_SERVER['HTTP_USER_AGENT'], 'yandex') !== false) {
// давай, досвиданья!
header('HTTP/1.0 403 Forbidden', true, 403);
exit;
}

в принципе тоже самое можно и через .htaccess сделать, так наверное даже оптимальней будет

_____________

Профессиональная разработка на заказ

Я на GitHub | второй профиль

Invis1ble
Цитата
Факт.
Миша
Цитата (Invis1ble @ 1.03.2015 - 18:45)
Цитата
Факт.

пруф?

После такого скрипта, хороший сайт просто выкинуло из выдачи гугла.

_____________
Принимаю заказы, писать в ЛС
FatCat
Цитата (Медведь @ 1.03.2015 - 17:36)
потому как они (поисковые системы) иногда, для проверки представляются обычными пользователями.

Ну и нехрена лезть туда, где написано "поисковкам не ходить".


Цитата (Invis1ble @ 1.03.2015 - 17:44)
если не хочется заморачиваться со списком актуальных юзер-агентов

У нас на форуме есть список "разрешенных" поисковок:
Код
if ( preg_match( '/(YandexBlogs|googlebot|slurp@inktomi|ask jeeves|lycos|whatuseek|ia_archiver|aport|yandexbot|stackrambler|yahoo|msnbot|webalta|Mail.Ru|bingbot| mj12bot|exabot|baiduspider|hosttracker|AhrefsBot|SputnikBot|BLEXBot)/i', $_SERVER['HTTP_USER_AGENT'], $match ) )

Они получают "иммунитет", чтобы система защиты им айпишники не откусила. :lol:
Не проблема прямо тут распарсить robots.txt, и кто не туда лезет, отдать
отлуп
header('HTTP/1.0 403 Forbidden');
header('HTTP/1.1 403 Forbidden');
print "Куда топчешь в ботах? Брысь!";
exit();



Цитата (Медведь @ 1.03.2015 - 18:09)
выкинуло из выдачи гугла

За клоакинг? Выкидывает.
А вот насчет закрытия страниц, закрытых в "роботсе" - не уверен...

_____________
Бесплатному сыру в дырки не заглядывают...
Быстрый ответ:

 Графические смайлики |  Показывать подпись
Здесь расположена полная версия этой страницы.
Invision Power Board © 2001-2024 Invision Power Services, Inc.