gsnzone
18.10.2012 - 00:58
В общем, суть такова: мне нужно создать базу данных всех или почти всех страниц сайта, которая содержала бы заголовок, урл, возможно меты каждой страницы сайта. я вижу в принципе только один вариант - пустить по сайту бота, который например через file_get_contents загружал бы страницы сайта и добавлял в базу данные о каждой посещенной странице. но вот вопрос как его реализовать? или может есть готовое решение.
мне это нужно чтобы потом быстро вывести данные об определенной странице
Игорь_Vasinsky
18.10.2012 - 01:17
1200 руб. 1 день.
работать будет так: указал url сайта - паук собрал все внутренние ссылки и титлы - и по кждой ссылке в рекурсии - но тока по уникальным ссылкам, чтоб не тратить ни время, ни дублировать данные
_____________
HTML, CSS (Bootstrap), JS(JQuery, ExtJS), PHP, MySQL, MSSql, Posgres, (TSql, BI OLAP, MDX), Mongo, Git, SVN, CodeIgnater, Symfony, Yii 2, JiRA, Redmine, Bitbucket, Composer, Rabbit MQ, Amazon (SQS, S3, Transcribe), Docker
inpost
18.10.2012 - 01:32
gsnzoneДа, писать паука. Готовое = платное
_____________
Обучаю веб-программированию качественно и не дорого:
http://school-php.comФрилансер, принимаю заказы: PHP, JS, AS (видео-чаты). Писать в ЛС (Личные сообщения на phpforum).
gsnzone
18.10.2012 - 02:50
да я сам могу написать его, если немного толкнете в нужную сторону

))
inpost
18.10.2012 - 02:55
первое - паук, он должен парсить страницу и записывать результаты в БД пройденной страницы и страниц, которые осталось пройти. И всё это в цикле. В итоге получишь список всех страниц. Парсер должен вырывать ссылки в <a href="">, иногда в JS (но это редко). После того, когда имеешь список всех страниц - открываешь в цикле каждую из них через тот же file_get_contents и выдёргиваешь всё, что надо.
Тут кода не очень много, цикл для запуска, через регулярку ищешь в коде ссылки, и так далее. Важно не количество строк, а логику продумать, чтобы скрипт работал!
_____________
Обучаю веб-программированию качественно и не дорого:
http://school-php.comФрилансер, принимаю заказы: PHP, JS, AS (видео-чаты). Писать в ЛС (Личные сообщения на phpforum).
gsnzone
18.10.2012 - 03:01
во спс) логику вашу понял, попробую завтра это реализовать, умений должно хватить)
gsnzone
18.10.2012 - 03:47
но один момент - если я такого бота запущу - не будет ли ругаться хостер после его запуска? я в том плане, что он может потребовать много серверных ресурсов... хостер у меня неплохой, тариф не самый дешевый, но все же есть такое опасение))
inpost
18.10.2012 - 03:59
gsnzoneну так не обрабатывай всё за 1 минуту. Можешь не цикл использовать, а крон для каждой итерации цикла. Тогда нет. К тому же ты же не собираешься постоянно это делать, немного поделал и перерыв.
_____________
Обучаю веб-программированию качественно и не дорого:
http://school-php.comФрилансер, принимаю заказы: PHP, JS, AS (видео-чаты). Писать в ЛС (Личные сообщения на phpforum).