Правила     Закладки     Карма    Календарь    Журналы    Помощь    Поиск    PDA    Чат   
        СМС-ки
   
Пейджер выключен!
 
Фильтр авторов:    показать 
  скрыть
  Ответ в темуСоздание новой темыСоздание опроса

> Как можно реализовать такой парсинг?
seowin  
 ۩  Дата
Цитировать сообщение

Пользователя сейчас нет на форуме



Новичок
*

Профиль
Группа: Пользователь
Сообщений: 22
Пользователь №: 40895
На форуме: 1 год, 9 месяцев, 27 дней
Карма:




Доброго времени суток!

Возникла необходимость написать своеобразный шаблонизатор для одной CMS на основе существующих страниц.

Суть идеи:
1. Указываем скрипту ссылку на страницу существующего сайта, на основе которой нужно сделать шаблон
2. Скрипт обрабатывает эту страницу следующим образом:
- Удаляет весь контент (текст, картинки, таблицы и т.п.)
- Заместо этого контента вставляет макрос (к примеру: [TEXT])
- Заменяет все ссылки на макрос (к примеру, на [LINK])
- Заменяет мета-теги (title, description)
- Подключаемые файлы (css, js и прочее) не трогает, пути остаются такими же.

Проблема в том, как определить, в каком именно месте выводить макрос [TEXT]. Так как текст на странице может выводиться и в футере, и в сайдбаре.
Нужно как-то определить место, где выводится основной контент страницы, и заместо него вставить этот макрос.

Также сложность возникает в удалении картинок. Могут быть картинки из контента, а могут быть те, которые прописаны в шаблоне (элемет дизайна).

Помогите, пожалуйста, придумать алгоритм.
PMПисьмо на e-mail пользователю
    0   Для быстрого поиска похожих сообщений выделите 1-2 слова в тексте и нажмите сюда Для быстрой цитаты из этого сообщения выделите текст и нажмите сюда
Игорь_Vasinsky  
Дата
Цитировать сообщение

Пользователь сейчас на форуме



Лысый и злой
******

Профиль
Журнал
Группа: ★ЛжеЭксперт★
Завсегдатай форума
Сообщений: 25993
Пользователь №: 21350
На форуме: 6 лет, 8 месяцев, 25 дней
Карма: 725

Не курю:
1 год, 2 месяца, 11 дней


можно же указать в настройках парсера - элемент в котором контент, заголовок, футер и т.д.

не вижу проблем

картинки удалить из контента не беда.

остальные прописаны в CSS - это элемент шаблона - зачем из трогать?


--------------------
Халявные ответы кончились.
Если нужен готовый код - готовьтесь заплатить.
Райкин тоже был артист

Возле дома был сарай
А когда всё хорошо
Можно просто покурить

user posted image
http://ufa102.xyz/
PMПисьмо на e-mail пользователю
    0   Для быстрого поиска похожих сообщений выделите 1-2 слова в тексте и нажмите сюда Для быстрой цитаты из этого сообщения выделите текст и нажмите сюда
seowin  
 ۩  Дата
Цитировать сообщение

Пользователя сейчас нет на форуме



Новичок
*

Профиль
Группа: Пользователь
Сообщений: 22
Пользователь №: 40895
На форуме: 1 год, 9 месяцев, 27 дней
Карма:




Цитата (Игорь_Vasinsky @ 12.11.2015 - 18:59)
можно же указать в настройках парсера - элемент в котором контент, заголовок, футер и т.д.

не вижу проблем

картинки удалить из контента не беда.

остальные прописаны в CSS - это элемент шаблона - зачем из трогать?

Хотелось бы минимум телодвижений при парсинге.

Не всегда бывает, что картинки прописаны в CSS. Иногда они могут быть прописаны прямо в шаблоне
PMПисьмо на e-mail пользователю
    0   Для быстрого поиска похожих сообщений выделите 1-2 слова в тексте и нажмите сюда Для быстрой цитаты из этого сообщения выделите текст и нажмите сюда
GET  
Дата
Цитировать сообщение

Пользователя сейчас нет на форуме



TERRAFORMING ENGINEER
******

Профиль
Журнал
Группа: ★ЛжеЭксперт★
Завсегдатай форума
Сообщений: 3846
Пользователь №: 21196
На форуме: 6 лет, 9 месяцев, 6 дней
Карма: 87




seowin

Мне кажется только ручками сначала анализировать страничку, ориентироваться на классы, где картинка явно прописывается, а где через стили, тоже самое с текстом, хотя легче, а потом уже через, например, simple html dom все это рассортировывать и подменять. Недавно писал такой парсер, но было легче т.к. цель была конкретный контент и конкретные картинки привязанные к классам.

Мне казалось, что я разминировою страницу, особенно когда разбирался, как они прячут на странице скрытый контент в разных местах через base64 smile.gif


--------------------
Не тот велик, кто не падал, а тот кто падал и поднимался.
PMПисьмо на e-mail пользователю
    0   Для быстрого поиска похожих сообщений выделите 1-2 слова в тексте и нажмите сюда Для быстрой цитаты из этого сообщения выделите текст и нажмите сюда
Игорь_Vasinsky  
Дата
Цитировать сообщение

Пользователь сейчас на форуме



Лысый и злой
******

Профиль
Журнал
Группа: ★ЛжеЭксперт★
Завсегдатай форума
Сообщений: 25993
Пользователь №: 21350
На форуме: 6 лет, 8 месяцев, 25 дней
Карма: 725

Не курю:
1 год, 2 месяца, 11 дней


Цитата
Хотелось бы минимум телодвижений при парсинге.


универсальный парсер ? laugh.gif ну-ну.


--------------------
Халявные ответы кончились.
Если нужен готовый код - готовьтесь заплатить.
Райкин тоже был артист

Возле дома был сарай
А когда всё хорошо
Можно просто покурить

user posted image
http://ufa102.xyz/
PMПисьмо на e-mail пользователю
    0   Для быстрого поиска похожих сообщений выделите 1-2 слова в тексте и нажмите сюда Для быстрой цитаты из этого сообщения выделите текст и нажмите сюда
Ron  
Дата
Цитировать сообщение

Пользователя сейчас нет на форуме



Здесь живет
******

Профиль
Группа: Форумчанин
Завсегдатай форума
Сообщений: 1046
Пользователь №: 41686
На форуме: 1 год, 4 месяца
Карма: 13




Парсинг вообще дело довольно непростое. Даже целевого ресурса. А универсальный парсер на грани невозможного. Как в одном известном ролике "это не то, чтобы невозможно... Но близко к этому..." ))))) Там где линии рисовали, может кто помнит. )))

Особенно если аяксом чего-то подгружается, то можно застрять на долгие и утомительные часы, а то и дни.

Короче это не шутки шутить. Вам с таким скилом потом можно будет идти поисковых роботов создавать


--------------------
Жду 5.11.2017
PMПисьмо на e-mail пользователю
    0   Для быстрого поиска похожих сообщений выделите 1-2 слова в тексте и нажмите сюда Для быстрой цитаты из этого сообщения выделите текст и нажмите сюда
seowin  
 ۩  Дата
Цитировать сообщение

Пользователя сейчас нет на форуме



Новичок
*

Профиль
Группа: Пользователь
Сообщений: 22
Пользователь №: 40895
На форуме: 1 год, 9 месяцев, 27 дней
Карма:




А если рассматривать простой дизайн, без наворотов типа аякса и прочего...

Приходит на ум только следующее: вычислять текст на странице и удалять предложения, которые длиннее N слов (символов).

Только вот как праивльно вставить макрос с выводом текста, не понимаю..
PMПисьмо на e-mail пользователю
    0   Для быстрого поиска похожих сообщений выделите 1-2 слова в тексте и нажмите сюда Для быстрой цитаты из этого сообщения выделите текст и нажмите сюда
Игорь_Vasinsky  
Дата
Цитировать сообщение

Пользователь сейчас на форуме



Лысый и злой
******

Профиль
Журнал
Группа: ★ЛжеЭксперт★
Завсегдатай форума
Сообщений: 25993
Пользователь №: 21350
На форуме: 6 лет, 8 месяцев, 25 дней
Карма: 725

Не курю:
1 год, 2 месяца, 11 дней


seowin
ну ты хернёй занимаешься.

я тебе вариант предложил - предложил.

ты от него отказался и предлагаешь свой:
Цитата
А если рассматривать простой дизайн, без наворотов типа аякса и прочего...

один хер шаблон будешь изучать.

Цитата
Только вот как праивльно вставить макрос с выводом текста, не понимаю..


здрасти, приехали.

ты парсеры то писал?

про регулярные выражения слышал? или только Simple HTML DOM и прочая гадость в твоём арсенале?

если последнее - то лучше штампуй клиентам визитки на джумле и не морочь занятым людям головы.


--------------------
Халявные ответы кончились.
Если нужен готовый код - готовьтесь заплатить.
Райкин тоже был артист

Возле дома был сарай
А когда всё хорошо
Можно просто покурить

user posted image
http://ufa102.xyz/
PMПисьмо на e-mail пользователю
    0   Для быстрого поиска похожих сообщений выделите 1-2 слова в тексте и нажмите сюда Для быстрой цитаты из этого сообщения выделите текст и нажмите сюда
  Быстрый ответ
Информация о Госте
Введите Ваше имя
Кнопки кодов
Для вставки цитаты, выделите нужный текст и
НАЖМИТЕ СЮДА
Введите сообщение
Смайлики
:huh:  :o  ;) 
:P  :D  :lol: 
B)  :rolleyes:  <_< 
:)  :angry:  :( 
:unsure:  :blink:  :ph34r: 
     
Показать всё

Опции сообщения  Включить смайлики?
 Включить подпись?
 
1 Пользователей читают эту тему (1 Гостей и 0 Скрытых Пользователей)
0 Пользователей:

Опции темы Ответ в темуСоздание новой темыСоздание опроса