[ Поиск ] - [ Пользователи ] - [ Календарь ]
Полная Версия: Помогите с xml дампом русской Википедии
mp_petrol
Есть xml дамп русской Википедии. Структура его следующая:
HTML
<mediawiki><page> <title>Заголовок</title><id>380248</id><revision><id>2097005</id><timestamp>2008-12-16T14:07:23Z</timestamp><contributor><username>User</username><id>9835</id></contributor><minor /><comment>Комментарий</comment>
<text xml:space="preserve">Текст статьи с вики разметкой</text></revision></page>
И так далее
</mediawiki>

Задача такова:
Нужно удалить всё от <page> до </page> (с тегами page в том числе), если <title> начинается с ключевых слов: Файл:, Изображение:, Mediawiki: и Википедия:
После этого надо скопировать значение из титла, преобразовать его в url код и вставить после <text xml:space="preserve">{{оригинал статьи|http://ru.wikipedia.org/wiki/ ВОТ СЮДА }} Текст статьи с вики разметкой
чтобы имело вот такой вид:
[html]<text xml:space="preserve">{{оригинал статьи|http://ru.wikipedia.org/wiki/%D0%97%D0%B0%D0%B3%D0%BE%D0%BB%D0%BE%D0%B2%D0%BE%D0%BA }} Текст статьи с вики разметкой[html]
С программированием дела обстоят плохо. Поэтому ищу помощи на форумах. Помогите, ПОЖАЛУЙСТА!



Спустя 21 минута, 5 секунд (23.02.2009 - 13:26) Семён написал(а):
Посмотрите название форума - "Форум PHP программистов", а не "Бесплатные PHP фрилансеры". Если я не умею класть плитку, я же не пойду к плиточнику с улицы: "Положи мне новую плитку в туалете нахаляву, ок?" Мы можем помочь с логикой, подходом к задаче частично кодом, что использовать, но не написать за вас готовое решение! huh.gif
Быстрый ответ:

 Графические смайлики |  Показывать подпись
Здесь расположена полная версия этой страницы.
Invision Power Board © 2001-2025 Invision Power Services, Inc.