[ Поиск ] - [ Пользователи ] - [ Календарь ]
Полная Версия: Парсинг с запоминаем последней точки
gera
Есть лента, с которой я паршу последнии пару страниц ссылки на полные новости, в полных новостях я забираю описание и дополнительные характеристики а ля комментарии которые могут также добавляться время от времени.

Вопрос: как лучше отфильтровать те новости которые уже были обработаны и те дополнения к новости которые я уже спрарсил ?
alexbel2404
Заносить в базу или текстовый файл уже спарсенные ссылки. Потом проверять на наличие ссылки в базе/файле и пропускать, если есть.
Игорь_Vasinsky
совершенно верно. я в txt файле храню список ссылок

_____________
HTML, CSS (Bootstrap), JS(JQuery, ExtJS), PHP, MySQL, MSSql, Posgres, (TSql, BI OLAP, MDX), Mongo, Git, SVN, CodeIgnater, Symfony, Yii 2, JiRA, Redmine, Bitbucket, Composer, Rabbit MQ, Amazon (SQS, S3, Transcribe), Docker
Быстрый ответ:

 Графические смайлики |  Показывать подпись
Здесь расположена полная версия этой страницы.
Invision Power Board © 2001-2025 Invision Power Services, Inc.