[ Поиск ] - [ Пользователи ] - [ Календарь ]
Полная Версия: парсинг закрытых страниц
ilma55
привет.

нужно распарсить сайт.
но доступ к контенту осушествляется через авторизацию.

как можно узнать строку, по которой будут передаваться данные.

а то только login.aspx и все



Спустя 1 час, 22 минуты (18.04.2012 - 15:40) vital написал(а):
Firefox. addon firebug, вкладка сеть.

Спустя 14 минут, 18 секунд (18.04.2012 - 15:55) ilma55 написал(а):
не совсем понятно. сайт на aspx

когда нажимаю на submit, то я не вижу чтоб в url что-то менялось.
меня перекидыват на default.aspx

я так понял, что там методом пост передаются данные. ХОТЯ я возможно ошибаюсь

Заголовки запроса
Accept	text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Encoding gzip, deflate
Accept-Language ru-ru,ru;q=0.8,en-us;q=0.5,en;q=0.3
Connection keep-alive
Cookie .ASPXANONYMOUS=6vlExiBTzQEkAAAAZTNmZTc5YTMtY2QzZi00MGI1LTg1OTItNGRlMzI0ZWU0Y2UwFCRJOAsCvGEHjSuinYtHKDDJE4c1; __utma=111031303.963449427.1334662851.1334747581.1334756931.4; __utmz=111031303.1294662851.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none); ASP.NET_SessionId=n1bgypxdncddpzvubiqfofud; __utmc=111031303; nop.onlineusertracking=af5520d9-7295-4eea-9cbe-c7f03f372d92; __utmb=111031303.1.10.1334565631
Host www.site.ca
Referer https://www.site.ca/login.aspx
User-Agent Mozilla/5.0 (Windows NT 6.1; rv:11.0) Gecko/20100101 Firefox/11.0

Спустя 13 минут, 26 секунд (18.04.2012 - 16:08) T1grOK написал(а):
Через firebug можно всю необходимую информацию просмотреть.

Спустя 6 минут, 48 секунд (18.04.2012 - 16:15) ilma55 написал(а):
мда... firebug это круть

вот тока как мне от сюда извлечь ПРАВИЛЬНО post, чтоб запихнуть в curl_setopt($ch, CURLOPT_POSTFIELDS, $postdata); ?

https://www.site.ca/login.aspx?__EVENTARGUMENT=&__EVENTTARGET=&__EVENTVALIDATION=% 2FwEWCAKA2NnxCwLPyt%2FlBgKN3OSnDAK%2Fs9HeCQKuqtaEDAKCpprEAgL6r4ivBAKYsMa%2FBEBXOKZXD16292oiswusEvRGTQ cA&__VIEWSTATE=%2FwEPDwULLTE5Njg4MDgyMTQPZBYCZg9kFgJmD2QWBAIBD2QWBAIBDxYCHgdjb250ZW50BRBTdXBlcmNvbTo6ZU9yZGVyZAICDxYCHwAFEFN1cGVyY29tOjplT3JkZXJkAgMPZBYEAgMPZBYCZg9kFgICAQ8PZBYEHgdvbmZvY 3VzBSBpZih0aGlzLnZhbHVlPT0nICcpdGhpcy52YWx1ZT0nJx4Jb25rZXlkb3duBc4BaWYoZXZlbnQud2hpY2ggfHwgZXZlbnQua2V5Q29kZSl7aWYgKChldmVudC53aGljaCA9PSAxMykgfHwg KGV2ZW50LmtleUNvZGUgPT0gMTMpKSB7ZG9jdW1lbnQuZ2V0RWxlbWVudEJ5SWQoJ2N0bDAwX2N0bDAwX2N0&__VIEWSTATE1=cmxIZWFkZXJNZW51X2N0cmxTZWFyY2hCb3hfYnRuU2VhcmNoJykuY2xpY2soKTtyZXR1cm4gZmFsc2U7fX0gZWxzZSB7cmV0dXJuIHRydWV9OyBkAgUPZBYCAgEPZBYGAgEPZBYEZg9kFgICAQ9kFgJmD2QWCAIBDw8WAh4EVGV4dAUIVXNlcm5hbWVkZAIFDw8WB B4MRXJyb3JNZXNzYWdlBRRVc2VybmFtZSBpcyByZXF1aXJlZB4HVG9vbFRpcAUUVXNlcm5hbWUgaXMgcmVxdWlyZWRkZAINDxAPFg IeB0NoZWNrZWRnZGRkZAITDw8WAh4HVmlzaWJsZWhkZAICD2QWAgIDDxYCHwdoFgJmDw9kFgIfAgXuAWlmKGV2ZW50LndoaWNoIHx8&__VIEWSTATE2=IGV2ZW50LmtleUNvZGUpe2lmICgoZXZlbnQud2hpY2ggPT0gMTMpIHx8IChldmVudC5rZXlDb2RlID09IDEzKSkge2RvY3VtZW50LmdldEVsZW1lbnRCeUlkKCdjdGwwMF9jdGwwMF9jcGgxX2NwaDFfY3RybEN1c3RvbWVyTG9naW5fdG9waWNDaGVja291dEFzR3Vlc 3RPclJlZ2lzdGVyX2J0blBhc3N3b3JkJykuY2xpY2soKTtyZXR1cm4gZmFsc2U7fX0gZWxzZSB7cmV0dXJuIHRydWV9OyBkAgMPZBYCAgMPFgIfB2gWAmYPD2QWAh8CBc0BaWYoZXZlbnQud2hpY2ggfHwgZXZlbnQua2V5Q29kZSl7aWYgKChldmVudC53aGljaCA9&__VIEWSTATE3=PSAxMykgfHwgKG V2ZW50LmtleUNvZGUgPT0gMTMpKSB7ZG9jdW1lbnQuZ2V0RWxlbWVudEJ5SWQoJ2N0bDAwX2N0bDAwX2NwaDFfY3BoMV90b3BpY0ZsYXNoTG9naW5fYnRuUGFzc3dvcmQnKS5jbGljaygpO3JldHVybiBmYWxzZTt9fSBlbHNlIHtyZXR1cm4gdHJ1ZX07IGQCBQ9kFgICAw8WAh8HaBYCZg8PZBYCHwIFzwFpZihldmVudC53aGljaCB8fCBldmVudC5rZXlDb2RlKXtpZiAoKG V2ZW50LndoaWNoID09IDEzKSB8fCAoZXZlbnQua2V5Q29kZSA9PSAxMykpIHtkb2N1bWVudC5nZXRFbGVtZW50QnlJZCgnY3RsMDBfY3Rs&__VIEWSTATE4=MDBfY3BoMV9jcGgxX3RvcGljQnV0dG9uc0xvZ2luX2J0blBhc3N3b3JkJykuY2xpY2soKTtyZXR1cm4gZmFsc2U7fX0gZWxzZSB7cmV0dXJuIHRydWV9OyBkGAEFHl9fQ29udHJvbHNSZXF1aXJlUG9zdEJhY2tLZXlfXxYCBTxjdGwwMCRjdGwwMCRjcGgxJGNwaDEkY3Ryb EN1c3RvbWVyTG9naW4kTG9naW5Gb3JtJFJlbWVtYmVyTWUFNmN0bDAwJGN0bDAwJGNwaDEkY3BoMSRjdHJsQ3VzdG9tZXJMb2dpbiRpbWdidG5SZWdpc3Rlct%2F0MAJ0QoCgkn1%2BwndkCcvmpYWd&__VIEWSTATEFIELDCOUNT=5&ctl00%24ctl00%24cph1%24cph1%24ctrlCustomerLogin%24LoginForm%24LoginButton=%20%20Log%20in%20%20&ctl00%24ctl00%24cph1%24cph1%24ctrlCustomerLogin%24LoginForm%24Password=zfqdf928tc&ctl00%24ctl00%24cph1%24cph1%24ctrlCustomerLogin%24LoginForm%24RememberMe=on&ctl00%24ctl00%24cph1%24cph1%24ctrlCustomerLogin%24LoginForm%24UserName=ptz1700&ctl00%24ctl00%24ctrlHeaderMenu%24ctrlSearchBox%24txtSearchTerms=%20

Спустя 1 час, 32 минуты, 5 секунд (18.04.2012 - 17:47) walerus написал(а):
Используй "DOMDocument" или регулярки для нахождения нужных форм для отправки...

Спустя 20 часов, 1 минута, 34 секунды (19.04.2012 - 13:49) ilma55 написал(а):
блин, опять фигня.

вот вывожу документ
$result = curl_exec($ch);
curl_close($ch);
echo $result;


но не вся инфа подгружается.
та что нах-ся в табах не подгружается.

!!! если вырубаю JS в браузере, то на реальном сайте пусто.
получается что подгрузка как-то идет через js ?

а как можно как-то установить метатег base с указанием основного url ?
или иной способ?

Спустя 2 часа, 28 минут, 31 секунда (19.04.2012 - 16:17) I++ написал(а):
Для более подробного дэбага юзаем http://fiddler2.com/fiddler2/

Фаербагом, всю инфу не вытащить.

Есть еще реалтайм прокси, с авто-инжектами, но там внутренний анализатор пакетов и свой скриптовый язык. Но в данном случае это не нужно, не GTA IV ломаем же biggrin.gif

Спустя 4 минуты, 35 секунд (19.04.2012 - 16:22) ilma55 написал(а):
нашел я эти запросы.
но почему они не работают?
я даже не вижу то что json мне отдает ввиде текста.

тупо вбиваю в браузере строку и она мне возвращает сохранение файла, а в нем уже все то что json мне передает


_____________
Программист – это не деятельность, это иной образ жизни!
Быстрый ответ:

 Графические смайлики |  Показывать подпись
Здесь расположена полная версия этой страницы.
Invision Power Board © 2001-2024 Invision Power Services, Inc.