Вообщем есть парсер который скачивает картинки с гугла через get_file_content().
Всё бы хорошо но пару дней назад он накрылся.Начал выдавать сообщение Forbidden после массивного обновления сайта.В тех. поддержке хостинга сказали что они не при чём.Мол все вопросы к google.Пробывал через curl,но тогда гугл находит бота.Прошу помощи,желательно со вставками кода

Спустя 35 минут, 47 секунд (30.06.2012 - 10:18) forza написал(а):
: ))) Уно моменто, сейчас вам гугл бота напишем, ага ага 
Извините за прямоту, но в гугл работают дядьки по серьезней, чем вчерашние выпускники-школьники ) Не удивлюсь, если ваш ип уже в блэк-листе у гугла.
Надо очень аккуратно парсить гугл, бот должен иметь хоть какой-то интелект, чтобы быть похожим на человека.

Извините за прямоту, но в гугл работают дядьки по серьезней, чем вчерашние выпускники-школьники ) Не удивлюсь, если ваш ип уже в блэк-листе у гугла.
Надо очень аккуратно парсить гугл, бот должен иметь хоть какой-то интелект, чтобы быть похожим на человека.
Спустя 8 минут, 58 секунд (30.06.2012 - 10:27) Agronya написал(а):
А если например использовать curl через proxy сервер,он посчитает это за бота?
Спустя 1 час, 40 минут, 52 секунды (30.06.2012 - 12:08) walerus написал(а):
Цитата |
Forbidden |
99.9% бан по IP, через прокси можно, но это должны быть нормальные прокси, иначе парсить будете до зеленых веников... И незабываем менять юзер агент и всю остальную лабуду..
Спустя 21 минута, 37 секунд (30.06.2012 - 12:29) forza написал(а):
Ну давайте рассуждать. Если у нас нету своего прокси сервера, то его нужно найти. Как можно их найти? Правильно через поисковые системы, но эти сайты давно уже известны гуглу, и, я думаю, они то точно знают все ИП прокси серверов. Значит такой подход тоже не пройдет. Значит нужен свой собственный север о котором никто не знает. Но опять же, это всего 1 сервер => 1 ИП. Честно говоря, я не зняю, можно ли постоянно генерировать разные ИП для этого сервера.
Если мы захотим написать бота-парсера, который бы не попал в бан, то он должен вести себя как человек. Например, совершенно случайное время проводить онлине, в случайное время начинать парсить, после каждой скаченной картинки засыпать на случайное время. Про подделку браузера я вообще не говорю ). Я думаю это только вершина айзберга.
Если мы захотим написать бота-парсера, который бы не попал в бан, то он должен вести себя как человек. Например, совершенно случайное время проводить онлине, в случайное время начинать парсить, после каждой скаченной картинки засыпать на случайное время. Про подделку браузера я вообще не говорю ). Я думаю это только вершина айзберга.
Спустя 1 минута, 29 секунд (30.06.2012 - 12:31) medvedeva написал(а):
Как вариант, через TOR парсить.
Спустя 1 минута (30.06.2012 - 12:32) forza написал(а):
Цитата (walerus @ 30.06.2012 - 09:08) |
веников... И незабываем менять юзер агент и всю остальную лабуду.. |
А вот тут я бы не советовал постоянно менять юзер агентов. ИП то один. Сразу будет "палево" что это не человек

Спустя 33 секунды (30.06.2012 - 12:32) vital написал(а):
Цитата |
Как можно их найти? |
список из 50 соксов на 1 день стоит 50$ на любом форуме соотв-й тематики.
А ваши детские рассуждения оставьте при себе - вы ни капли не разбираетесь в том, о чем пишете.
Спустя 3 минуты, 36 секунд (30.06.2012 - 12:36) forza написал(а):
Т.е. я заплачу 50 баксов за день. Только для мня дадут 50 прокси серверов, которые еще нигде "не палились"?
Спустя 1 минута, 7 секунд (30.06.2012 - 12:37) vital написал(а):
Цитата (forza @ 30.06.2012 - 11:36) |
Т.е. я заплачу 50 баксов за день. Только для мня дадут 50 прокси серверов, которые еще нигде "не палились"? |
Да.
Вот только 50 или 25 проксей уже не помню точно.
Спустя 6 минут, 52 секунды (30.06.2012 - 12:44) forza написал(а):
Интересно, как генерируются "валидные" ИП-адреса для этих серверов ) ?
Мне кажется, даже если и купить эти прокси сервера, все равно придется стараться вести себя "как человек", иначе сразу банан получишь. Ну а так они только ускорят процесс парсинга ровно в н-ое кол-во раз.
Мне кажется, даже если и купить эти прокси сервера, все равно придется стараться вести себя "как человек", иначе сразу банан получишь. Ну а так они только ускорят процесс парсинга ровно в н-ое кол-во раз.
Спустя 4 минуты, 53 секунды (30.06.2012 - 12:49) vital написал(а):
Цитата |
Интересно, как генерируются "валидные" ИП-адреса для этих серверов ) ? |
В википедию про стек протоколов TCP/IP.
Цитата |
Мне кажется, даже если и купить эти прокси сервера, все равно придется стараться вести себя "как человек", иначе сразу банан получишь. Ну а так они только ускорят процесс парсинга ровно в н-ое кол-во раз. |
Ну у тебя явно не выйдет написать бота, к-й сможет эти прокси полноценно использовать.
Спустя 6 минут, 9 секунд (30.06.2012 - 12:55) forza написал(а):
Цитата (vital @ 30.06.2012 - 09:49) |
Ну у тебя явно не выйдет написать бота, к-й сможет эти прокси полноценно использовать. |
Да я не спорю. Просто интересуюсь
Спустя 2 часа, 25 минут, 12 секунд (30.06.2012 - 15:20) vital написал(а):
Цитата (forza @ 30.06.2012 - 11:55) | ||
Да я не спорю. Просто интересуюсь |
Ну если ради справки:
Доводилось парсить яндекс.маркет. Парcер работал 2 недели

Мы покупали вышеозначенный список прокси, каждое подключение делали с рандомного прокси из списка, между подключениями с 1го прокси делали с таймаутом там каким-то, и все это в несколько потоков.
Спарсили. но нек-е прокси все-равно банились в процессе работы.
Спустя 4 часа, 17 минут, 25 секунд (30.06.2012 - 19:37) walerus написал(а):
forza Читаем мой ответ полностью и внимательно, а не кусками как Вам удобнее, речь про 1н IP не ведется, я писал про прокси кагбе.
vital Поддерживаю, покупаете "прокси-сервис", и юзаете список, список отработал, сделали запрос на новый лист и так по кругу, пока деньги не закончатся )).
p.s. Гугл ВСЕ, не забанит...
vital Поддерживаю, покупаете "прокси-сервис", и юзаете список, список отработал, сделали запрос на новый лист и так по кругу, пока деньги не закончатся )).
p.s. Гугл ВСЕ, не забанит...