[ Поиск ] - [ Пользователи ] - [ Календарь ]
Полная Версия: Импорт 8000 страниц.
ignatovsdm
Товарищи коллеги программисты, прошу помощи. Пишу диплом. Программу на с++ buildere, которая будет помогать школоте готовиться к егэ. Мне нужна база заданий. Нашел в нете сайт с большой базой заданий. Примерно 80000 заданий. Думаю импортировать с помощью php. Но я не знаю как грамотно написать скрипт, т.к. php только поверхостно изучал. В билдере есть компонент браузер. Он отображает html код.
http://live.mephist.ru/show/mathege2010/view/all/210/ это сайт с базой.

Думаю зациклить перебор страниц, вырезать куски заданий вместе с картинками, и сохранять к себе на компьютер. Потом случайным образом составлять вариант теста.

Очень не хочется терять время на написание бесполезного скрипта. Поделитесь опытом...
Вопросы:
1) Реально ли перенести на компьютер столько информации в одном скрипте?
ignatovsdm
И если не реально, то как грамотно это сделать???
Игорь_Vasinsky
это называется парсинг.

используется curl (или file_get_contents) + регулярные выражения (или готовые библии)

результат парсинга обрабатывается и сохраняется в БД



_____________
HTML, CSS (Bootstrap), JS(JQuery, ExtJS), PHP, MySQL, MSSql, Posgres, (TSql, BI OLAP, MDX), Mongo, Git, SVN, CodeIgnater, Symfony, Yii 2, JiRA, Redmine, Bitbucket, Composer, Rabbit MQ, Amazon (SQS, S3, Transcribe), Docker
ignatovsdm
Не могу уложить в голове полную схему. Обрабабываю я эти страницы. HTML код ладно, могу положить к примеру в mysql базу. Как быть с картинками?
Я хотел на каждое задание делать отдельную папку, в неё html с обрезанными ссылками на картинки, и картинки в эту же папку. Так получится?
Michael
Картинки по их путям также качаются через file_get_contents и сохраняются на локальном компе.

_____________
There never was a struggle in the soul of a good man that was not hard
ignatovsdm
Спасибо за ответы. Буду пробовать.
Быстрый ответ:

 Графические смайлики |  Показывать подпись
Здесь расположена полная версия этой страницы.
Invision Power Board © 2001-2024 Invision Power Services, Inc.