[ Поиск ] - [ Пользователи ] - [ Календарь ]
Полная Версия: Помогите изготовить робота
gsnzone
В общем, суть такова: мне нужно создать базу данных всех или почти всех страниц сайта, которая содержала бы заголовок, урл, возможно меты каждой страницы сайта. я вижу в принципе только один вариант - пустить по сайту бота, который например через file_get_contents загружал бы страницы сайта и добавлял в базу данные о каждой посещенной странице. но вот вопрос как его реализовать? или может есть готовое решение.

мне это нужно чтобы потом быстро вывести данные об определенной странице
Игорь_Vasinsky
1200 руб. 1 день.

работать будет так: указал url сайта - паук собрал все внутренние ссылки и титлы - и по кждой ссылке в рекурсии - но тока по уникальным ссылкам, чтоб не тратить ни время, ни дублировать данные

_____________
HTML, CSS (Bootstrap), JS(JQuery, ExtJS), PHP, MySQL, MSSql, Posgres, (TSql, BI OLAP, MDX), Mongo, Git, SVN, CodeIgnater, Symfony, Yii 2, JiRA, Redmine, Bitbucket, Composer, Rabbit MQ, Amazon (SQS, S3, Transcribe), Docker
inpost
gsnzone
Да, писать паука. Готовое = платное smile.gif

_____________
Обучаю веб-программированию качественно и не дорого: http://school-php.com
Фрилансер, принимаю заказы: PHP, JS, AS (видео-чаты). Писать в ЛС (Личные сообщения на phpforum).
gsnzone
да я сам могу написать его, если немного толкнете в нужную сторону smile.gif))
inpost
первое - паук, он должен парсить страницу и записывать результаты в БД пройденной страницы и страниц, которые осталось пройти. И всё это в цикле. В итоге получишь список всех страниц. Парсер должен вырывать ссылки в <a href="">, иногда в JS (но это редко). После того, когда имеешь список всех страниц - открываешь в цикле каждую из них через тот же file_get_contents и выдёргиваешь всё, что надо.

Тут кода не очень много, цикл для запуска, через регулярку ищешь в коде ссылки, и так далее. Важно не количество строк, а логику продумать, чтобы скрипт работал!

_____________
Обучаю веб-программированию качественно и не дорого: http://school-php.com
Фрилансер, принимаю заказы: PHP, JS, AS (видео-чаты). Писать в ЛС (Личные сообщения на phpforum).
gsnzone
во спс) логику вашу понял, попробую завтра это реализовать, умений должно хватить)
gsnzone
но один момент - если я такого бота запущу - не будет ли ругаться хостер после его запуска? я в том плане, что он может потребовать много серверных ресурсов... хостер у меня неплохой, тариф не самый дешевый, но все же есть такое опасение))
inpost
gsnzone
ну так не обрабатывай всё за 1 минуту. Можешь не цикл использовать, а крон для каждой итерации цикла. Тогда нет. К тому же ты же не собираешься постоянно это делать, немного поделал и перерыв.

_____________
Обучаю веб-программированию качественно и не дорого: http://school-php.com
Фрилансер, принимаю заказы: PHP, JS, AS (видео-чаты). Писать в ЛС (Личные сообщения на phpforum).
Быстрый ответ:

 Графические смайлики |  Показывать подпись
Здесь расположена полная версия этой страницы.
Invision Power Board © 2001-2024 Invision Power Services, Inc.