Есть лента, с которой я паршу последнии пару страниц ссылки на полные новости, в полных новостях я забираю описание и дополнительные характеристики а ля комментарии которые могут также добавляться время от времени.
Вопрос: как лучше отфильтровать те новости которые уже были обработаны и те дополнения к новости которые я уже спрарсил ?
alexbel2404
7.01.2013 - 17:04
Заносить в базу или текстовый файл уже спарсенные ссылки. Потом проверять на наличие ссылки в базе/файле и пропускать, если есть.
Игорь_Vasinsky
7.01.2013 - 17:13
совершенно верно. я в txt файле храню список ссылок
_____________
HTML, CSS (Bootstrap), JS(JQuery, ExtJS), PHP, MySQL, MSSql, Posgres, (TSql, BI OLAP, MDX), Mongo, Git, SVN, CodeIgnater, Symfony, Yii 2, JiRA, Redmine, Bitbucket, Composer, Rabbit MQ, Amazon (SQS, S3, Transcribe), Docker