Форум PHP программистов

Версия для печати

16 января 2010

16:31 Ульпан оптимизатора

Теория
+ Простой текстовый поиск:
+-- Движок phpBB2 как простейшая модель поисковой системы;
+-- Кеширование результатов поиска. "Поисковые запросы".
+ Поисковые запросы:
+-- "Дерево" запросов: ВЧ, СЧ, НЧ. Тематичность запросов;
+-- Внутренние факторы тематичности. "Еще с сайта" как основной фактор тематичности. Дополнительные факторы определения тематичности страницы;
+-- Внешние факторы тематичности. Ссылочное, околоссылочное, цитаты.
+ Ссылочное ранжирование:
+-- Внутренние ссылки видимые и "скрытые". Структура сайта глазами поисковки. Карта сайта;
+-- Исходящие и входящие ссылки. Ссылка или текст URL на странице. Лич картинок. "Авторитетность" ссылки;
+-- Передача текста по ссылке. Миф о "передаче веса";
+-- Околоссылочное. Тематичность ссылки.
+-- Цитата: бросаем кость ссылки с жирным куском мяса текста.
+ Бонусы и фильтры
+-- Новизна и уникальность. Бонус новичка; бонусы и фильтры неуникальных страниц.
+-- Цитаты и копии. Бонусы за цитаты и фильтры за копии.
+-- Бонусы и фильтры за ссылки.
Практика
+ Прежде чем создать сайт:
+-- Вордстат. Составляем семантическое ядро;
+-- Анализ конкуренции в теме;
+-- Формулируем тематику и желаемую аудиторию сайта;
+-- Берем "числом" или "умением"? Статика или динамика? Выбор типа сайта под способ продвижения.
+ Создаем сайт:
+-- Дизайн, юзабилити: удобство посетителям и логика поисковых ботов;
+-- Допускать ли "мусор", и если допускать, то осознанно. Дырявый презерватив из noindex и robots.txt;
+-- Экономия трафика полезна и для индексации;
+-- Автоматическая генерация и ручное прописывание тайтлов и метатегов;
+-- ЧПУ: много проблем и мало пользы под кириллицу.
+ Диалог с поисковыми системами:
+-- "Панели вебмастера", кнопки счетчиков, каталоги;
+-- Анализируем входящий трафик;
+-- Перелинковка тегами <a>, <abbr>, <span>. Негативная перелинковка джаваскриптом.
+-- Динамические каталоги. Размножение сайтов "почкованием" и "делением".

Комментарии :9

Написал: FatCat - 18:09 16/01/2010

Простой текстовый поиск
Наверное очевидно, что поисковая база любой поисковой системы - это хотя и очень большая, но все же БД.
Так же очевидно, надеюсь, что сайт яндекса, гугла или яхууу - это сайт, который интерпретирует поисковый запрос пользователя в команды поиска по БД.
Мои многолетние наблюдения за поисковыми системами показали, что семантический поиск по кириллице так и не создан; пополняется лишь словарная база словосочетаний. Слово с несовпадением одной-двух букв иногда находится, а иногда не находится, из чего я могу сделать вывод: у поисковых систем нет алгоритма поиска слов с несовпадением одной буквы, а есть лишь группировки родственных слов и словосочетаний.
На первый взгляд, алгоритм поиска таков:
Первый этап:
При отправке запроса, текст запроса сначала ищется по массиву прошлых запросов.
Если вхождение найдено, берется из кеша (или, возможно, по таймеру в какой-то момент повторно отрабатывает полный поиск и результаты перекешируются - апдейт поисковой базы или "ап").
Если вхождение не найдено, запрос разбивается по пробелам и прочим стоп-символам на подстроки, и ищутся вхождения подстрок.
В результате первого этапа получается небольшой массив строк для поиска, состоящий из самой строки поискового запроса, и/или похожих запросов и/или подстрок, полученных при разбивки длинной строки по стоп-символам.
Интересующиеся могут поискать информацию про шинглы - подстроки определенной длины, состоящие из нескольких слов.
Для меня же важно логическое заключение, что поиск, работающий в поисковке, работает так же, как если я буду использовать массив подстрок и LIKE-поиск по MySQL.
Массив поисковых строк в цикле прогоняется по текстовой базе, отдавая на выходе найденные страницы текста.

Написал: FatCat - 18:24 16/01/2010

Движок phpBB2 как простейшая модель поисковой системы
Не мной обнаружено, что чем больше повторений одного слова на странице, тем выше страница в результатах поиска по этому слову. Конечно же, при прочих равных условиях.
То есть, число повторений искомого слова - один из факторов релевантности страницы по этому слову.

Где-то я уже видел такой алгоритм поиска... Ба! Старый форумный движок phpBB2! Там при отправке сообщения в форум происходит не только запись в таблицу сообщений, но и запись в таблицу поиска: какое слово в каком сообщении сколько раз встретилось.
Такой алгоритм, собственно, убивает движок при большом количестве записей: добавление новой информации начинает занимать катастрофически много времени. Но зато сам поиск у этого движка очень быстрый и очень точный.

Не буду утверждать, что я расшифровал алгоритм работы поисквых систем, да и не ставил перед собой такой цели.
Важно лишь понимать: если я сделаю у себя на сайте поиск по сайту, и этот поиск будет плохо находить информацию - скорее всего и поисковые системы будут плохо находить страницы моего сайта.
Если мой поиск по сайту находит множество страниц всякой мути - вероятно, какой-то трафик из поисковок на мой сайт будет, но тематичность этого трафика оставит желать лучшего...

Написал: FatCat - 18:50 16/01/2010

Кеширование результатов поиска. "Поисковые запросы"
Желающим предлагаю поиграть с вордстатом: http://wordstat.yandex.ru/
Набираем "желтый чемоденчик" или что-либо еще, и смотрим статистику связанных запросов за месяц. Выбираем какой-нибудь редкий запрос, типа 1 раз в месяц, и идем на страницу самого яндекса, вводим со своего айпишника запрос; затем заходим на яндекс через анонимайзер, и снова вводим, повторяем процедуру раз 10. И уже на следующий день видим рост числа просмотров по этому запросу. Всё ОК, яндекс на высоте.
Теперь придумываем словосочетание, которого нет в вордстате, например "желтый кожаный чемоданчикс черной ручкой", важно, чтобы его в самом деле не было, чтобы вордстат выдал пустой результат. Снова идем в яндекс, ищем наш новый запрос, и через прокси делаем вид, что искали разные люди. На следующий день идем в вордстат, и видим... что наш запрос там не появился. И не появится до следующего падейта поисковой базы.
И третий, самый долгий и самый любопытный эксперимент. Опять придумываем заковыристое словосочетание, неизвестное вордстату, затем идем в поисковку, запрашиваем его, и больше ничего не делаем, не идем ни через какие прокси. Ждем апа - и запрос не появляется в вордстате.
Честно говоря не знаю какие промежутки времени учитывает яндекс и сколько раз запрос должен быть задан, чтобы мы его увидели в вордстате. Может быть 12 раз за год, а может 3 раза за 3 месяца, а может хватит и 3 за год...
Главное, что нам дали эти эксперименты, это понимание: какие же поисковые фразы есть в кеше яндекса, а каких нет.

Написал: FatCat - 20:06 16/01/2010

Поисковые запросы
Вордстат - это список кешированных запросов, которые дадут выдачу результатов поиска из кеша; но кроме того, близкие словосочетания с большой вероятностью тоже дадут выдачу из кеша. Вордстат это список тех словосочетаний, по которым хочется видеть свой сайт на первой странице поисковок не только потому, что эти словосочетания часто ищут, но и потому, что по близким словосочетаниям сайт тоже скорее всего окажется на первой странице выдачи результатов поиска.
Поэтому дальше, переходя к работе над сайтом, мы будем говорить не о пунктах вордстата, а о "ключах": ключевые слова на страницах нашего сайта - это первое условие показа нашего сайта в результатах поиска по соответствующим словам.

Написал: FatCat - 20:28 16/01/2010

"Дерево" запросов: ВЧ, СЧ, НЧ. Тематичность запросов
Чем точнее мы пытаемся описать тематику нашего будущего сайта - тем длиннее и "заковыристее" получается фраза.
Чем длиннее и "заковыристей" словосочетание мы отправляем в вордстат - тем короче результат подбора запросов, результат может оказаться и пустым.
Поэтому для описания тематики сайта принято говорить не об одном поисковом запросе, а о дереве запросов, или о деревьях.
"Ствол" дерева - это как правило одно слово; в вордстате мы видим десятки или сотни тысяч поисков к этому запросу. Это высокочастотный ключ или ВЧ. К нему можно подобрать несколько 2-3-словных словосочетаний с сотнями или тысячами поисков - это ветви дерева, среднечастотные ключи или СЧ. К ним уже примыкают сотни и тысячи совсем редких поисков по длинным словосочетаниям - листья дерева - низкочастотники или НЧ.
На первый взгляд, нам привлекательнее посетители по НЧ: они точно сформулировали запрос, и скорее всего окажутся тематическими посетителями. Но это лишь на первый взгляд. СЧ и ВЧ дают много нетематических посетителей, но и немало тематических, набравших в строке запроса одно единственное слово и выискивающих глазами интересующий их сайт - таких посетителей в интернете тоже немало.
О тактиках продвижения по ВЧ,СЧ и НЧ мы поговорим чуть позже, сейчас же нам важно уяснить для себя связь частоты запросов с тематичностью: низкочастотные запросы более тематичны, но убывание тематичности от листьев дерва к стволу происходит медленнее, чем прирост числа посетителей.
Простая логика: Если нам нужны искатели "желтого чемоданчика", продвинувшись по этому СЧ мы в лучшем случае соберем всех, кто искал по этим двум словам, но не соберем тех, кто искал просто "чемоданчик". Продвинувшись же по ВЧ "чемоданчик", мы соберем и всех искавших "желтый чемоданчик", и множество искавших просто "чемоданчик", которые только думали о желтом, но поленились набрать это слово на клавиатуре.

Написал: FatCat - 23:08 16/01/2010

Внутренние факторы тематичности. "Еще с сайта" как основной фактор тематичности. Дополнительные факторы определения тематичности страницы
Итак, мы договорились: когда посетитель вводит в поисковой системе поисковую фразу, поисковая система стремится показать ему страницу, содержащую или точное вхождение искомой фразы, или текст на тему поисковой фразы.
"Текст на тему" или "тематичность" страницы - это еще один алгоритм ранжирования страницы в результатах выдачи.
Конечно же, алгоритмы ранжирования намного сложней, чем пара связанных таблиц в БД.
Тематичность страницы определяется не только и не столько наличием на страницы слов из поискового запроса, но и соответствием теме запроса тематики прочих страниц сайта.
В очень упрощенной модели, у сайта всего одна тематика. В глазах поисковок, чем больше страниц на таком сайте - тем вероятнее посетитель найдет на этом сайте искомую информацию.
На практике, почти не бывает сайтов в одной теме; поэтому и учитывается тематичность не всего сайта, а количество страниц той же тематичности. Тематичность - свойство страницы, но не свойство всего сайта.
Это довольно легко проверить экспериментом. Берется два домена одного возраста (не нулевые), один пустой с момента регистрации, на другом вырос большой сайт с тысячами страниц узконаправленной тематики, например мебельный магазин. Начинаем добавлять на оба сайта новые страницы, тематики далекой от мебели и торговли, например разведение хомячков. Например, выложим пару сотен таких страниц в каждом домене. На первом домене это будет 200 страниц про хомячков в массе тысяч страниц мебели; на втором домене будет только 200 страниц про хомячков, и ничего более. Можете удивляться, но по теме хомячков сайты окажутся в выдаче примерно на равных позициях - проверял.
Итак, мы подошли к формулировке еще одного принципа ранжирования: принцип "еще с сайта". Принцип работает довольно интересно, и у разных поисковых систем немного по-разному, рассмотрим особенности работы у яндекса и гугла.
Итак, на сайт добавили новую страничку, и поисковый бот проиндексировал ее - добавил в индекс. Страничка начинает появляться в результатах поиска, как правило, не на первой странице, но... есть "бонусные" показы: некоторое количество раз новая страница оказывается в первых результатах поиска: "бонус новичка". Бонус новичка есть и у яндекса, и у гугла, но яндекс дает довольно большой бонус, и только "молодым" сайтам; гугл дает очень маленький бонус, но он дает его новым страничкам даже очень старых сайтов. Но вот, страничка заняла свое место в результатах поиска по каждому запросу. Что произойдет, если добавится еще одна страничка той же тематики, но с другим текстом? Правильно, две страницы одного сайта не будут конкурировать друг с другом и никогда не окажутся рядом в выдаче; иначе поисковки жили бы под риском заполонения всей страницы выдачи одним сайтом, чего никогда не случается. Поисковка как бы сравнивает релевантность двух страниц, и эти сравнения можно увидеть, если в настройках поиска ограничить зону поиска одним сайтом. Затем самая релевантная поднимается вверх. Это хорошо видно при добавлении новых тематичных но не очень релевантных страниц на сайт, когда в индексе уже есть более релевантная: добавляемые страницы попадают куда-то в самый конец выдачи, а лучшая страница поднимается все выше и выше. Чем больше "еще с сайта" страниц одинаковой тематики, тем выше поднимается лучшая страница. Практика показывает, что на подъем влияет абсолютное, а не относительное число страниц: добавление одинакового числа новых страниц дает одинаковый эффект как на сайте в 10 страниц, так и на сайте в 10 000 страниц.
И конечно же, большое влияние оказывает форматирование текста. Тематика слов, попавших в заголовки, выделенных визуально на странице тегами форматирования, слова в атрибуте alt тега img и многое другое.

Написал: FatCat - 11:39 17/01/2010

Внешние факторы тематичности. Ссылочное, околоссылочное, цитаты
Если страница содержит ссылку на другую страницу другого сайта - логично предположить, что информация по ссылке дополняет информацию ссылающейся страницы? Логично. И поисковые системы тоже придерживаются этой логики.
О ссылочном ранжировании мы поговорим позже, а сейчас, говоря о тематичности страницы, постараемся уяснить 4 важных внешних фактора тематичности нашей страницы. "Внешними" эти факторы называются потому, что расположены вне нашего сайта.

1. Анкор.
Наверное каждому хотя бы раз в жизни встречались ситуации при поиске в интернете: найденная поисковкой страница не имеет вообще ничего общего с тем, что мы искали, и на ней вообще нет ни одного слова из нашего запроса; при этом в поисковке в результатах поиска есть фраза: "Найдено по ссылке".
Все просто. Если какая-то страница содержит в себе <a href="наша страница">кривой текст</a>, а на нашей странице этого кривого текста нет и никогда не было - поисковка все равно считает, что на нашей странице есть что-то связанное с кривым текстом, и находит нашу страницу так же, как если бы она содержала точное вхождение этого "кривого текста".
Но этот механизм работает только в одном случае: когда тематика страниц донора и акцептора совпала. Если ссылка на медицинском сайте ведет на другой медицинский сайт - фактор сработает; но если с медицинского сайта ведет на автомобильный - фактор не сработает.
2. Околоссылочное.
Много споров, учитывает ли околоссылочное яндекс; а споры потому, что исследуют только феномен "найден по ссылке".
Околоссылочное - это текст до и после гиперссылки. Я проверял эффективность работы ссылок, расставленных на разных страницах, и убедился, что совпадение тематики околоссылочного с тематикой продвигаемой страницы дает лучший эффект продвижения, чем рассовывание ссылок на нетематические страницы даже тематических сайтов.
3. Репутация или "карма" сайта.
У гугла с этим проще: есть цифра PR, которую гугл не скрывает. Чем выше PR донора - тем сильнее влияние ссылки на продвижение акцептора. Хотя тоже не без лукавства: эффект от ссылки с годовалого сайта PR5-6 окажется ниже, чем с 10-летнего сайта PR2-3. Очень вероятно, что "карма" по гуглу состоит не только из PR и возраста домена, но и еще каких-то пока неведомых нам факторов.
У яндекса с "кармой" сложней. Дважды наблюдал ситуацию попадания "жирного донора" под фильтр с последующим выходом, и видел по своим страницам-акцепторам, как они гуляли в выдаче: с попаданием донора под фильтр они пошли резко вниз, а с выходом донора из-под фильтра, акцепторы плавно пошли вверх, и через год вернулись на прежние позиции.
4. Цитаты.
В научном мире принято цитировать авторитетные источники; чем чаще тебя цитируют, тем ты авторитетнее.
Борцы за уникальность контента теряют этот важный фактор ранжирования тематичности.
Случай из практики: На сайте был размещен уникальный сборник авторских юмористических одностиший. По запросу "одностишья" страница в поисковках не попадала и в первую сотню - сайт другой тематики, и "еще с сайта" не было совсем. Буквально в течение месяца по сотням сайтов и форумов появились стыренные одностишья с моего сайта, но так совпало, что тырили по 1-2-3 строки, но никто не стырил текст целиком. Ссылок на мою страницу не поставил ни один. Цитаты были без ссылок, что обеспечило естественную чистоту эксперимента. Страница поднялась в ТОП10. Но естественный эксперимент на том не кончился. Много цитат было на "жирном" сайте ostrie.ru, который вскоре склеил ласты; и тут же моя страница стала быстро опускаться в поисковках.
Итак, цитата - это точная копия небольшого куска текста с гиперссылкой на страницу-источник, или даже без ссылки.

Написал: FatCat - 18:33 22/01/2010

Ссылочное ранжирование
На эту тему уже так много написано, что не буду повторяться. Обозначу лишь основные закономерности:

Входящие ссылки увеличивают значимость страниц для поисковок, и тем самым двигают страницу в результатах выдачи.
Ссылки работают на продвижение в поисковках тем эффективней, чем точнее совпадение анкора ссылки с текстом поискового запроса.
Альты картинок работают анкорами, причем не только если картинка линкуется на реципиента, но и если картинка личится с реципиента.
При полном несовпадении или при полном отсутствии осмысленного анкора (например, кликабельный рисунок без альта) некоторое ранжирование все же происходит.
Исходящие сссылки с продвигаемой страницы тоже влияют на ее ранжирование. Слабее всего влияет на ранжирование "обмен ссылками", и это логично: партнерство свидетельствует о неестественности возникновения ссылок.
Плохо, когда на сайте много исходящих и мало входящих. Сайт низко ранжируется. Еще хуже, когда много входящих и мало исходящих - сайт быстро поднимается, и быстро попадает в бан или под фильтр.
"Вес" входящей ссылки определяется некоторомы параметрами донора, эти параметры скрываются поисковками и мы их не знаем, можем лишь догадываться.
Есть предположение, что "вес" может быть и отрицательным, и такие ссылки будут ухудшать ранжирование реципиента.

Написал: FatCat - 20:52 22/01/2010

Внутренние ссылки видимые и "скрытые". Структура сайта глазами поисковки. Карта сайта
"Внутренними" называются ссылки на другие страницы того же сайта. Они тоже влияют на ранжирование страниц в поисковках, хотя и не столь весомо, как внешние.
Я не буду говорить о клоакинге: отдаче людям и поисковым ботам разного содержимого страницы.

Ссылки создаются для того, чтобы посетителям было удобно переходить со страницы на страницу сайта.
Как в магазине мы предпочитаем видеть хозтовары на витрине хозтоваров, а продукты на витрине продуктов, так и в сайте пользователю удобнее, чтобы страницы одной тематики были собраны в одном разделе и перелинкованы между собой внутри раздела.
Представим сайт с простейшей древовидной структурой "в 3 клика": с главной страницы можно в один клик попасть в любой раздел; в разделе в один клик можно попасть в любой подраздел этого раздела; в подразделе можно попасть в один клик на любую страницу со статьей.
Ссылки от главной страницы к статье и обратно называются вертикальными; ссылки со страницы на страницу без захода на другие уровни называются горизонтальными.

Для удобства навигации пользователей больше важны горизонтальные ссылки. Для продвижения в поисковках больше важны ссылки на продвигаемые страницы, и чаще всего это вертикальные ссылки, или горизонтальные, но за пределами одного подраздела. Для продвижения в поисковках имеет значение количество ссылок на странице: чем их больше, тем меньше "вес" каждой ссылки.
Поэтому часто возникает желание скрыть какие-то ссылки от поисковок, оставив их видимыми для посетителей.
Создатели поисковых систем тоже это понимают, поэтому предлагают корректные способе сделать сайт одновременно удобным для посетителей и понятным для поисковых алгоритмов.
Первый (и не самый лучший) способ "скрыть" ссылку от поисковой системы - это воспользоваться камандами запрета индексации. К сожалению, эти команды есть только у яндекса и гугла, и их не понимают другие поисковые системы, и эти команды действуют не так, как нам хочется, а так, как они устроены: тег "ноиндекс" исключает из поиска яндекса содержимое контейнера, но не запрещает индексации страниц по ссылкам внутри тега; атрибут "нофоллов" исключает "перетекание" трастовости по ссылке, но не влияет ни на индексацию, ни на ранжирование.
Второй способ - robots.txt - работает не лучше, имеет преимуществом то, что его понимают все поисковки, но он не очень гибкий и очень неудобный.
Третий способ - это использование ссылок с редиректом. Такие ссылки не продвигают страницу-реципиент, а продвигают, как ни странно, главную страницу сайта.

Если все ссылки сделаны верно, поисковые системы будут видеть ту же структуру сайта, что и реальные посетители. И наградой за это будет показ в результатах поиска по высокочастотным запросам не только ссылки на главную страницу, но и ссылок на основные разделы, соответствующие по мнению поисковок тексту запроса.

Поисковки открыты для сотрудничества и охотно прислушиваются к пожеланиям вебмастера какие страницы хотелось бы проиндексировать. Только нужно говорить эти пожелания на понятном поисковкам языке: в виде карты сайта.
Для маленького сайта (до 100 страниц) пойдет и обычная ХТМЛ-страница, для сайтов побольше требуется генерация файла Sitemap.xml или Sitemap.txt с соответствующей инструкцией в файле robots.txt.