[ Поиск ] - [ Пользователи ] - [ Календарь ]
Полная Версия: Мониторинг большого сайта
braindbrigada
День добрый!
Не знаю, в какую сторону рыть...

Есть сайт 100 000+ страниц нужно каждые 5-10 мин заходить пробегать по всем страницам и сравнивать информацию из SQL с информацией на странице.

Как можно реализовать?
Rand
braindbrigada
Если сайт из 100к страниц чужой, то только парсить каждую страницу через cURL или сокеты. Но для решения всех проблем нужно будет как минимум реализовывать многопоточность (запускать несколько процессов) и скорее всего забирать контент с нескольких IP, т.к. если посчитать, например 1 секунда на 1 страницу, то 100к сек / 60 = 1661 мин = 27,7 часов. Время на обработку одной страницы будет варьироваться от времени соединения с сервером и объема контента.
braindbrigada
Rand, спасибо. Да, сайт сторонний.

Есть сервисы мониторинга позиций сайта, на которых, тысячи пользователей и миллионы поисковых запросов, которые обновляются минимум 1 раз в день.

Вот как у таких сервисов работает мониторинг.

з.ы. cURL был работал тухло...
Игорь_Vasinsky
Цитата
з.ы. cURL был работал тухло...

гы.. а без курла то вас спалят и всех ваших чудес хватит на полдня.

_____________
HTML, CSS (Bootstrap), JS(JQuery, ExtJS), PHP, MySQL, MSSql, Posgres, (TSql, BI OLAP, MDX), Mongo, Git, SVN, CodeIgnater, Symfony, Yii 2, JiRA, Redmine, Bitbucket, Composer, Rabbit MQ, Amazon (SQS, S3, Transcribe), Docker
bestxp
ну например обрабить внимание на sitemap и наличие rss
может так же упростить жизнь в парсинге, хотя зависит от тематики
braindbrigada
Всем спасибо!
Быстрый ответ:

 Графические смайлики |  Показывать подпись
Здесь расположена полная версия этой страницы.
Invision Power Board © 2001-2024 Invision Power Services, Inc.