Собственно, вопрос: как скачать все эти 20 страниц, поэтапно переходя от одной к другой, без подвисаний и всяких тяжеленных циклов? И можно ли вообще это реализовать на php? Буду благодарен за идеи.
Спустя 10 минут, 19 секунд (21.03.2011 - 01:38) inpost написал(а):
ancient mariner
Скачать в каком смысле?
Скачать в каком смысле?
Спустя 6 минут, 51 секунда (21.03.2011 - 01:45) Andrey65 написал(а):
А зачем на php? Для этих целей проще использовать Teleport Pro
Спустя 2 часа, 45 минут, 44 секунды (21.03.2011 - 04:31) kirik написал(а):
С помощью wget: _http://e-pavlov.ru/blog/2008/05/04/kak-polnostyu-skachat-tselyiy-sayt-legko-i-byistro.html
Спустя 7 часов, 10 минут, 7 секунд (21.03.2011 - 11:41) Arni написал(а):
Цитата (kirik @ 21.03.2011 - 01:31) |
С помощью wget: _http://e-pavlov.ru/blog/2008/05/04/kak-polnostyu-skachat-tselyiy-sayt-legko-i-byistro.html |
+1. Самая рулезная утилита.
Спустя 5 часов, 25 минут, 13 секунд (21.03.2011 - 17:06) ancient mariner написал(а):
inpost, ну, допустим, сделаешь поисковый запрос в яндекс и качаешь все страницы с полученными с результатами. HTML-код, в смысле.
Спустя 1 час, 28 минут, 1 секунда (21.03.2011 - 18:34) alex12060 написал(а):
Цитата |
качаешь все страницы с полученными с результатами |
Ээ...бред)
Тогда берешь функцию file_get_contents() и рулишь туда полученную ссылку, и оваля.
Спустя 2 минуты, 55 секунд (21.03.2011 - 18:37) killer8080 написал(а):
у Яндекса есть защита от ботов
Спустя 20 минут, 16 секунд (21.03.2011 - 18:58) alex12060 написал(а):
CURL тогда
Спустя 3 часа, 23 минуты, 56 секунд (21.03.2011 - 22:22) ancient mariner написал(а):
Цитата |
CURL тогда |
А как curl-ом пробежаться по всем страницам? На яндексе не настаиваю. Можно, например, скачать все страницы многостраничного топика на этом форуме. Хочу уяснить общий принцип. Страниц может быть много.
Спустя 6 часов, 54 минуты, 43 секунды (22.03.2011 - 05:16) kirik написал(а):
Цитата (ancient mariner @ 21.03.2011 - 14:22) |
А как curl-ом пробежаться по всем страницам? |
Делаешь запрос, вытаскиваешь страницу, парсишь ссылки, делаешь запрос по каждой из ссылок, вытаскиваешь страницу, парсишь ссылки, делаешь запрос по каждой из ссылок, вытаскиваешь страницу, парсишь ссылки, делаешь запрос по каждой из ссылок, вытаскиваешь страницу, парсишь ссылки, делаешь запрос по каждой из ссылок
Maximum execution time of 30 seconds exceeded...
Спустя 6 часов, 18 минут, 52 секунды (22.03.2011 - 11:35) ancient mariner написал(а):
Ну циклы, в общем, да.
Спустя 1 час, 36 минут, 57 секунд (22.03.2011 - 13:12) killer8080 написал(а):
Нужно выхватывать только те ссылки, что в пределах домена и подкаталога. Вести их учёт в базе и отмечать пройденные, иначе если страницы ссылаются друг на друга, бот будет бегать по ним бесконечно.
Спустя 7 дней, 21 час, 23 минуты, 30 секунд (30.03.2011 - 09:36) Michael написал(а):
А wget скачает те картинки, которые в css файлах указаны со всем сохранением путей и т.д. ?
Спустя 31 минута, 52 секунды (30.03.2011 - 10:07) kirik написал(а):
Цитата (Michael @ 30.03.2011 - 01:36) |
А wget скачает те картинки, которые в css файлах указаны со всем сохранением путей и т.д. ? |
Ага.. юзай флаг "-p".
Только в самих css файлах URL останется прежний.