Форум PHP программистов > Разбивка строки на теги

[ Поиск ] - [ Пользователи ] - [ Календарь ]

Alecs

4.10.2016 - 11:44

Здраствуйте.
Второй день туплю.
Есть строка типа: "<x:row r="2">...куча подтегов...</x:row><x:row r="3">...куча подтегов...</x:row> ... <x:row r="n">...куча подтегов...</x:row>".
Надо разбить ее на теги "x:row". Разные вариации типа `<x:row .*>.+?</x:row>` у меня в preg_match_all выделяют всю строку, то есть самый первый открывающий тег и самый последний закрывающий тег показывается как один единый.
Где я ошибаюсь?

_____________

kaww

4.10.2016 - 12:01

Судя по всему строка эта в формате xml, поэтому можно воспользоваться специальным инструментарием. который есть в php http://php.net/manual/ru/function.simplexml-load-string.php.

Alecs

4.10.2016 - 13:31

Файл весит 1,5 гигабайта. Часть парсеров уже отсеялась. Потоковые парсеры выдают ошибку при разборе. Копал долго, в результате понял что будет быстрее написать свой парсер (через file_get_contents), чем налаживать их.

PS: Это экселевский файл xlsx. Все опробованые библиотеки для эксель-файлов выдают ошибки, из за отклонений формирования пакета, хотя сам эксель файл читает, правда медленно(после пересохранения скорость увеличивается в разы). Поставщик файла ничего менять с положением вещей не собирается, так что придется выкручиваться мне.

_____________

Alecs

4.10.2016 - 15:08

Решение:

$pattern = "`<x:row\s.*>.*</x:row>`U";

_____________

Быстрый ответ:

Здесь расположена полная версия этой страницы.