ввести URL и подсчитать количество исходящих, входящих и внутренних ссылок для каждой страницы сайта
Как это реализовать?
Заранее благодарен
Спустя 1 час, 48 минут, 17 секунд (11.09.2010 - 00:00) FatCat написал(а):
У меня это реализовано. Вместе с прочекиванием индексированности каждой страницы по яндексу, определением темы страницы по яндексу и сбором списка ключей, по которым страница ранжируется в серпе (без определения позиций ключей, только список).
Задачка, мягко скажем, не простая.
Задачка, мягко скажем, не простая.
Спустя 10 часов, 20 минут, 4 секунды (11.09.2010 - 10:20) gurt87 написал(а):
ну и каков алгоритм?
Спустя 1 час, 23 минуты, 32 секунды (11.09.2010 - 11:44) FatCat написал(а):
Прицеплю как образец результат работы алгоритма.
Спустя 10 минут, 37 секунд (11.09.2010 - 11:55) FatCat написал(а):
Сам алгоритм довольно простой: парсим сайт, собираем ссылки и парсим страницы по ссылкам. В общем, сайтмеп-генератор.
Дальше работаем с каждой страницей. Страницы пробиваем по яндексу, для проиндексированных ловим беки. По словам страницы парсим вордстат, собираем ключи и каждый пробиваем по яндексу ранжируется ли по нему страница. По семантической широте ранжирования получаем цифру индекса тематичности - сравнительную величину "ценности" страницы для яндекса, где 1.0 - средняя величина по всему интернету.
В чем непростота:
Во-первых, куча мелких подводных камней, требующих оригинальных решений. Та же капча яндекса на парсинг, ее же обходить надо...
Во-вторых, вопрос быстродействия, если тупо брать всё из яндекса, скорострельность скрипта будет 3-5 страниц в час; сделал кеширование, благодаря которому скорость сканирования возросла до 200-250 страниц в час.
Дальше работаем с каждой страницей. Страницы пробиваем по яндексу, для проиндексированных ловим беки. По словам страницы парсим вордстат, собираем ключи и каждый пробиваем по яндексу ранжируется ли по нему страница. По семантической широте ранжирования получаем цифру индекса тематичности - сравнительную величину "ценности" страницы для яндекса, где 1.0 - средняя величина по всему интернету.
В чем непростота:
Во-первых, куча мелких подводных камней, требующих оригинальных решений. Та же капча яндекса на парсинг, ее же обходить надо...
Во-вторых, вопрос быстродействия, если тупо брать всё из яндекса, скорострельность скрипта будет 3-5 страниц в час; сделал кеширование, благодаря которому скорость сканирования возросла до 200-250 страниц в час.
Спустя 2 часа, 3 минуты, 59 секунд (11.09.2010 - 13:59) Guest написал(а):
Ууу как все сложно...только начинаю знакомиться с PHP..
может ссылку дадите на какой нибудь похожий скриптик?
может ссылку дадите на какой нибудь похожий скриптик?
Спустя 8 часов, 36 минут, 29 секунд (11.09.2010 - 22:35) FatCat написал(а):
Цитата (Guest @ 11.09.2010 - 14:59) |
дадите на какой нибудь похожий скриптик? |
Если бы были похожие, стал бы я писать свой с нуля?

Не очень сложно, всего-то полторы сотни Кб кода.

Спустя 16 часов, 12 минут, 38 секунд (12.09.2010 - 14:48) SvSerg написал(а):
gurt87
Если не хочешь писать, то в Fire Fox есть плагин Seo Quake назавается.
Если не хочешь писать, то в Fire Fox есть плагин Seo Quake назавается.