если кто делал поделитесь идеей как реализовывал, подойдет ли Яндекс.XML?
алгоритм простой:
1. Взять штук N запросов.
2. Парсится выдача по этим запросам.
3. Сортируются по дате попадания страниц в индекс.
4. Если меняется дата попадания в индекс, то это и есть АП выдачи.
Спустя 1 час, 48 минут, 2 секунды (22.08.2010 - 12:30) FatCat написал(а):
Искмыл ограничивает 1000 запросов с айпишника в сутки, это очень мало.
На автоматические запросы выдачи довольно быстро опознается робот и посылается капча. Обмануть защиту и не попасть под капчу можно, но алгоритм очень не банальный. Делиться не буду - я чуть не рёхнулся пока писал алгоритм, яндекс хитрО накрутил защиты.
Парсить через прокси забодаешься; средний срок жизни российской прокси - около 40 запросов; для забугорной прокси вообще 6-8 запросов и капча даже при 15-секнудном слипе между запросами.
На автоматические запросы выдачи довольно быстро опознается робот и посылается капча. Обмануть защиту и не попасть под капчу можно, но алгоритм очень не банальный. Делиться не буду - я чуть не рёхнулся пока писал алгоритм, яндекс хитрО накрутил защиты.
Парсить через прокси забодаешься; средний срок жизни российской прокси - около 40 запросов; для забугорной прокси вообще 6-8 запросов и капча даже при 15-секнудном слипе между запросами.
Спустя 1 день, 16 часов, 58 минут, 15 секунд (24.08.2010 - 05:28) sc2r2bey написал(а):
но хотябы в каком направлении двигаться?