[ Поиск ] - [ Пользователи ] - [ Календарь ]
Полная Версия: Требуется написать парсер-граббер сайтов
bashkov
Требуется написать десктопный парсер-граббер сайтов на .blogspot.com (там все блоги на движке WordPress).

Цель парсера - получить локальную копию любого сайта с blogspot.com в статическом виде с некоторыми доработками, залить на сторонний хостинг и сайт должен сразу работать.

Задачи парсера:
1. Пройтись по всем страницам сайта и собрать весь контент (посты, комментарии, картинки).

2. Полученный контент обработать и вставить в статичные страницы со всеми стилями и оформлением, так чтобы получилась точная копия всех страниц сайта-донора. Расширение получаемых страниц .html или .php должно задаваться в настройках, т.е. быть вариантом выбора.

2.1. Обработать текст:
2.1.1. удалить все внешние ссылки из текста - сделать их неактивными: удалить тег A, адрес ссылки прописать текстом; если у ссылки был анкор, поместить его текст через знак "-" непосредственно перед адресом. Полученный после обработки адрес внешней ссылки дополнительно нужно обрамить тегом noindex.
Пример.
Было: Это пример текста со ссылкой, которая ведет < A href="http://www.site.com/123/test.php">сюда< / A >.
Стало: Это пример текста со ссылкой, которая ведет сюда - < noindex >http://www.site.com/123/test.php< /noindex >.
2.1.2. все внутренние ссылки нужно сделать относительными, чтобы работали относительно корня сайта.

2.2. Обработать картинки:
2.2.1. все картинки сохранить локально в папку /images;
2.2.2. если картинка одновременно является и внешней ссылкой - ссылку удалить, если внутренней - ссылку сделать относительной и оставить.

2.3. Обработать комментарии:
2.3.1. удалить из имен комментаторов ссылки, сделать их текстом.
2.3.2. Ссылку на добавление нового комментария ("Отправить комментарий") удалить полностью.

2.4. Обработать боковую колонку и футер отдельно:
2.4.1. если в нем есть только ссылки на друзей и последние комменты - обрабатывать как в предыдущих пунктах.
2.4.2. если в нем есть баннеры: предусмотреть возможность выбора - удалить все баннеры, либо удалить некоторые, либо поменять в баннерах внешние ссылки на свои.
2.4.3. если в нем есть баннеры Google Adsense предусмотреть возможность вставки своего идентификатора!

3. Структура получаемого сайта должна собираться на инклудах: отдельно боковая колонка (sidebar), отдельно тело (посты + комменты), отдельно футер.

4. В настройках программы предусмотреть возможность вставки своего кода в инклуды.

ТЗ примерное, требует небольшой приватной правки. Парсер нужен серверный (под денвер), но при возможности реализации подойдет и десктопный под XP.

Обращаю внимание еще раз - требуется статичная копия всего сайта. Всего сайта целиком, а не последних выводящихся через RSS постов.

Пример типичных сайтов для парсинга lankazp.blogspot.com, doandfollow.blogspot.com, pdaplusi.blogspot.com и т.п.

Просьба оценить трудозатраты и отписываться с ценой и сроками. Опыт написания подобных парсеров - ваше преимущество.
Просьба без перса предоплату не предлагать.

Для связи - эта тема, личка, icq 3-6-7-7-48.



Спустя 30 минут, 47 секунд (27.07.2009 - 10:49) Sylex написал(а):
bashkov
хохо, неплохо выходит smile.gif

чтоб тебе не повезло dry.gif

Спустя 26 минут, 56 секунд (27.07.2009 - 11:16) PandoraBox2007 написал(а):
укажи гарантии а то еще кинеш

гарант или гопстоп нужен >:-[

Спустя 2 часа, 20 минут, 5 секунд (27.07.2009 - 13:36) Sylex написал(а):
Цитата (PandoraBox2007 @ 27.07.2009 - 14:16)
гопстоп

laugh.gif

Спустя 26 минут, 20 секунд (27.07.2009 - 14:03) jetistyum написал(а):
Цитата (bashkov @ 27.07.2009 - 10:18)
сайтов на .blogspot.com (там все блоги на движке WordPress).


laugh.gif laugh.gif laugh.gif laugh.gif laugh.gif biggrin.gif biggrin.gif biggrin.gif biggrin.gif biggrin.gif biggrin.gif
Быстрый ответ:

 Графические смайлики |  Показывать подпись
Здесь расположена полная версия этой страницы.
Invision Power Board © 2001-2024 Invision Power Services, Inc.