[ Поиск ] - [ Пользователи ] - [ Календарь ]
Полная Версия: Глюк при парсинге Ramblera
netruxa
Привет всем!
Заметил при парсинге рамблера такой баг. Вот, например, перейдите по ссылке http://nova.rambler.ru/srch?query=vkontakt...page=2&start=51 . Написано
Цитата
К сожалению, по запросу vkontakte.ru ничего не найдено.

А теперь найдите этот же запрос вручную. Для этого перейдите в расширенный поиск, и там следующие параметры:
Область на странице: в гиперссылках
Результатов на странице: 50
Жмем поиск, видим первые 50 найденых сайтов, идем на вторую страницу, там вторые 50 сайтов. И как раз получаеца ссылка http://nova.rambler.ru/srch?query=vkontakt...page=2&start=51
НО если в браузере по этой ссылке опять перейти, она становица нерабочей!
Как это они делают? )))



Спустя 2 минуты, 47 секунд (29.10.2010 - 10:44) phpguest написал(а):
да фиг поймешь их) я тоже такие фишки амечал

Спустя 14 минут, 33 секунды (29.10.2010 - 10:59) netruxa написал(а):
ыы форум помог мне решить вопрос)
если перейти по ссылке с первого топика, то все отображаеца (при этом в реферах http://phpforum.ru/index.php?act=ST&f=127&t=35557 )
а если без рефа ввести УРЛ, то ничего не отображаеца. Проверку на рефов они сделали, против парсеров защиту )

Спустя 53 минуты, 25 секунд (29.10.2010 - 11:52) netruxa написал(а):
во как они намудрили
curl_setopt($curl, CURLOPT_URL, 'http://nova.rambler.ru/srch?query=vkontakte.ru&news=2&pagelen=50&page=3&start=101');
...

curl_setopt($curl, CURLOPT_REFERER, 'http://nova.rambler.ru/');
...

-не работает

curl_setopt($curl, CURLOPT_URL, 'http://nova.rambler.ru/srch?query=vkontakte.ru&news=2&pagelen=50&page=3&start=101');
...

curl_setopt($curl, CURLOPT_REFERER, 'http://yandex.ru/');
...

-работает

Где логика не пойму )


_____________
ввв.парсер.рф - онлайн система проверки позиций Вашего сайта в поисковиках. Для форумчан 100 рублей на счет.
Быстрый ответ:

 Графические смайлики |  Показывать подпись
Здесь расположена полная версия этой страницы.
Invision Power Board © 2001-2024 Invision Power Services, Inc.