[ Поиск ] - [ Пользователи ] - [ Календарь ]
Полная Версия: Разработка софта: парсинг страниц из google cache
DamnNoob
Всем привет. Интересует решение поиска и парсинга страниц из кэша гугла. Хотелось бы получить десктопную версию программы, которая находила бы из загруженного csv-списка доменов, те у которых есть кэш и парсила его в файлы .doc или .txt. Лучше чтобы перед парсингом можно было выбирать текст для парсинга с каждой страницы. Поясню. Например нашли=ась страница, но на ней по мимо основной статьи есть еще и различные текстовые блоки, не имеющие никакого отношения к основной статье, вот их бы и исключить.

Также программа должна уметь автоматически сменять IP-адреса, чтобы гугл не блокировал доступ.

Вопросы:
1. Какой язык программирования способен реализовать это?
2. Сколько на написание софта уйдет времени?
3. Сколько нужно денег на это?

Игорь_Vasinsky
вы же на форуме php)
любой серверный наверн и способен)

часа 3

рублей 1к, + затраты на оплату прокси серверов ($10 в месяц), но можно и парсить список с шаровых ресурсов

_____________
HTML, CSS (Bootstrap), JS(JQuery, ExtJS), PHP, MySQL, MSSql, Posgres, (TSql, BI OLAP, MDX), Mongo, Git, SVN, CodeIgnater, Symfony, Yii 2, JiRA, Redmine, Bitbucket, Composer, Rabbit MQ, Amazon (SQS, S3, Transcribe), Docker
DamnNoob
1000 рублей? 3 часа? Я вам дам 2000 рублей если вы мне дадите готовый софт к 6 утра по Москве, договорились?
Игорь_Vasinsky
ооооо.. так у меня 4.30 и в 8.30 вставать)
я бы с удовольствием

_____________
HTML, CSS (Bootstrap), JS(JQuery, ExtJS), PHP, MySQL, MSSql, Posgres, (TSql, BI OLAP, MDX), Mongo, Git, SVN, CodeIgnater, Symfony, Yii 2, JiRA, Redmine, Bitbucket, Composer, Rabbit MQ, Amazon (SQS, S3, Transcribe), Docker
DamnNoob
тогда зачем ложиться?)
Ну а если серьезно... Десктопная программа с парсером гугл кэша из списка доменов с возможностью выбора частей текста и автоматической смены IP-адресов примерно стоит 1000 рублей и 3 часа работы?
Игорь_Vasinsky
ну если сохранить в txt и не париться с DOC и вырезанием всего лишнего - т.к. для этого нет универсального алготитма - то думаю да 1-1.5к рублей

при компиляции указать доп библию curl - и этого достаточно

а весь скрипт на php

_____________
HTML, CSS (Bootstrap), JS(JQuery, ExtJS), PHP, MySQL, MSSql, Posgres, (TSql, BI OLAP, MDX), Mongo, Git, SVN, CodeIgnater, Symfony, Yii 2, JiRA, Redmine, Bitbucket, Composer, Rabbit MQ, Amazon (SQS, S3, Transcribe), Docker
DamnNoob
я вот только не понимаю,разве на php можно писать десктопные программы?
Игорь_Vasinsky
Цитата
при компиляции указать доп библию curl - и этого достаточно

а весь скрипт на php


_____________
HTML, CSS (Bootstrap), JS(JQuery, ExtJS), PHP, MySQL, MSSql, Posgres, (TSql, BI OLAP, MDX), Mongo, Git, SVN, CodeIgnater, Symfony, Yii 2, JiRA, Redmine, Bitbucket, Composer, Rabbit MQ, Amazon (SQS, S3, Transcribe), Docker
DamnNoob
Вы можете это сделать?
Игорь_Vasinsky
ну завтра ближе к вечеру

к самому приложению будет прилагаться файл с доменами, файл с прокси
сохранять будет в отдельную папку с именами файлов по домену.

было дело, компилировал, но не было необходимости использования доп. библий.
весь скрипт был в одном Файле.

_____________
HTML, CSS (Bootstrap), JS(JQuery, ExtJS), PHP, MySQL, MSSql, Posgres, (TSql, BI OLAP, MDX), Mongo, Git, SVN, CodeIgnater, Symfony, Yii 2, JiRA, Redmine, Bitbucket, Composer, Rabbit MQ, Amazon (SQS, S3, Transcribe), Docker
Быстрый ответ:

 Графические смайлики |  Показывать подпись
Здесь расположена полная версия этой страницы.
Invision Power Board © 2001-2025 Invision Power Services, Inc.