ignatovsdm
11.03.2013 - 12:58
Товарищи коллеги программисты, прошу помощи. Пишу диплом. Программу на с++ buildere, которая будет помогать школоте готовиться к егэ. Мне нужна база заданий. Нашел в нете сайт с большой базой заданий. Примерно 80000 заданий. Думаю импортировать с помощью
php. Но я не знаю как грамотно написать скрипт, т.к.
php только поверхостно изучал. В билдере есть компонент браузер. Он отображает html код.
http://live.mephist.ru/show/mathege2010/view/all/210/ это сайт с базой.
Думаю зациклить перебор страниц, вырезать куски заданий вместе с картинками, и сохранять к себе на компьютер. Потом случайным образом составлять вариант теста.
Очень не хочется терять время на написание бесполезного скрипта. Поделитесь опытом...
Вопросы:
1) Реально ли перенести на компьютер столько информации в одном скрипте?
ignatovsdm
11.03.2013 - 12:59
И если не реально, то как грамотно это сделать???
Игорь_Vasinsky
11.03.2013 - 13:05
это называется парсинг.
используется curl (или file_get_contents) + регулярные выражения (или готовые библии)
результат парсинга обрабатывается и сохраняется в БД
_____________
HTML, CSS (Bootstrap), JS(JQuery, ExtJS), PHP, MySQL, MSSql, Posgres, (TSql, BI OLAP, MDX), Mongo, Git, SVN, CodeIgnater, Symfony, Yii 2, JiRA, Redmine, Bitbucket, Composer, Rabbit MQ, Amazon (SQS, S3, Transcribe), Docker
ignatovsdm
11.03.2013 - 13:19
Не могу уложить в голове полную схему. Обрабабываю я эти страницы. HTML код ладно, могу положить к примеру в mysql базу. Как быть с картинками?
Я хотел на каждое задание делать отдельную папку, в неё html с обрезанными ссылками на картинки, и картинки в эту же папку. Так получится?
Michael
11.03.2013 - 13:23
Картинки по их путям также качаются через file_get_contents и сохраняются на локальном компе.
_____________
There never was a struggle in the soul of a good man that was not hard
ignatovsdm
11.03.2013 - 13:29
Спасибо за ответы. Буду пробовать.