Допустим с гуглом в этом плане проблем нету и можно все спарсить, а вот у яндекса есть некоторая параноя на то, кто просматривает их контент.
Я вижу 2 варианта:
1. Яндекс XML, только хрен знает как его настроить
2. curl отправлять куки и заголовки яндексу имитируя работу браузера
Что вы посоветуете на этот счет?
Спустя 32 минуты, 26 секунд (6.07.2012 - 10:29) walerus написал(а):
Раз с первым напрял, используй 2й вариант, что проще не могу сказать, т.к. не юзал Яндекс ХМЛ
Спустя 2 минуты (6.07.2012 - 10:31) justyork написал(а):
вопрос номер 2 гугл банит меня при частом обращении что с ним сделать?
поставить слип в 1 секунду?
Да и какбы отправляя курл это как-то нечестно
Может поможет кто разобраться с яндекс xml?
поставить слип в 1 секунду?
Да и какбы отправляя курл это как-то нечестно
Может поможет кто разобраться с яндекс xml?
Спустя 1 час, 25 минут, 39 секунд (6.07.2012 - 11:57) forza написал(а):
Ребятки, ребятки... решили пропарсить серьезных дядек. Вот здесь почитайте, обсуждалась уже такая тема и что для этого нужно.
П.С. Или вы думаете гугл для дурачков-девелоперов предоставляет сервис индексации
Ваш ИП уже в бане сидит.
П.С. Или вы думаете гугл для дурачков-девелоперов предоставляет сервис индексации
Ваш ИП уже в бане сидит.
Спустя 14 минут, 46 секунд (6.07.2012 - 12:12) Игорь_Vasinsky написал(а):
гиблое дело.
тока парсить тех у кого мозгов по более оказалось.
тока парсить тех у кого мозгов по более оказалось.
Спустя 6 часов, 18 секунд (6.07.2012 - 18:12) FatCat написал(а):
Цитата (justyork @ 6.07.2012 - 10:57) |
Яндекс XML, только хрен знает как его настроить |
1000 запросов в день, если мне память не изменяет.
Цитата (justyork @ 6.07.2012 - 10:57) |
curl отправлять куки и заголовки яндексу имитируя работу браузера |
1000 запросов в день с одного айпишника, затем бан по айпишнику.
Надо как-то леммингов запускать, но у меня пока нет идей как это реализовать.
Спустя 2 минуты, 4 секунды (6.07.2012 - 18:14) forza написал(а):
Ботнет тащит.
Спустя 8 часов, 51 минута, 55 секунд (7.07.2012 - 03:06) justyork написал(а):
Цитата (forza @ 6.07.2012 - 23:14) |
1000 запросов в день, если мне память не изменяет. |
Без подтверждения 10 запросов в сутки, с подтверждением 1000 запросов в сутки, если установлена РСЯ то, неограничено
Спустя 4 часа, 53 минуты, 50 секунд (7.07.2012 - 08:00) Игорь_Vasinsky написал(а):
Цитата |
Яндекс XML, только хрен знает как его настроить 1000 запросов в день, если мне память не изменяет. |
на данный момент регистрация IP приостановлена.
я же вот на днях такое делал. я сделал - но не разглашаю инфу.
вообще вот скрипт мониторинга поисковой выдачи yandex:
1. Регистрация / авторизация
Свернутый текст

2. Пользовательский кабинет позволяет
Свернутый текст

- добавлять/удалять домены + регион (код)
- добавлять список ключевых слов для каждого домена
- мониторинг поисковой выдачи ключевой запрос+регион
3. админ часть позволяет
Свернутый текст

- смена логина и пароля админа
- указать макс. кол-во ключевых фраз для каждого домена пользователей
- указать миним. позиции при показе в виджете
- указать максим кол-во позиций для каждого домена в виджете
- указать макс кол-во доменов в виджете
+ скрипт парсера - получение позиций по всем ключевым запросам по отдельным доменам для CRON
пробовал получить позиции по 12 нч+вч запросам - успешно.
сам виджет http://www.hdkinozavr.ru/yapos/view.php
исходный код открыт везде, кроме самой функции парсинга.
цена договорная.
Спустя 2 дня, 17 часов, 51 минута, 21 секунда (10.07.2012 - 01:51) justyork написал(а):
Сделал, если интересно, могу поделиться функциями
Спустя 3 минуты (10.07.2012 - 01:54) Игорь_Vasinsky написал(а):
что сделал?
конкретнее, опиши функционал то

Спустя 2 часа, 30 минут, 36 секунд (10.07.2012 - 04:25) justyork написал(а):
Количество проиндексированных страниц в гугле и яндексе. Гугл парсится курлом, яндекс через xml. Это что у меня цели стояли.
А так проверка robots.txt, наличие metica, analytic, получение заголовков сайта, кодировки, title главной страницы. ну и всякая ерунда. это для массовой проверки сайтов
А так проверка robots.txt, наличие metica, analytic, получение заголовков сайта, кодировки, title главной страницы. ну и всякая ерунда. это для массовой проверки сайтов