Здраствуйте.
Второй день туплю.
Есть строка типа: "<x:row r="2">...куча подтегов...</x:row><x:row r="3">...куча подтегов...</x:row> ... <x:row r="n">...куча подтегов...</x:row>".
Надо разбить ее на теги "x:row". Разные вариации типа `<x:row .*>.+?</x:row>` у меня в preg_match_all выделяют всю строку, то есть самый первый открывающий тег и самый последний закрывающий тег показывается как один единый.
Где я ошибаюсь?
_____________
Судя по всему строка эта в формате xml, поэтому можно воспользоваться специальным инструментарием. который есть в php
http://php.net/manual/ru/function.simplexml-load-string.php.
Файл весит 1,5 гигабайта. Часть парсеров уже отсеялась. Потоковые парсеры выдают ошибку при разборе. Копал долго, в результате понял что будет быстрее написать свой парсер (через file_get_contents), чем налаживать их.
PS: Это экселевский файл xlsx. Все опробованые библиотеки для эксель-файлов выдают ошибки, из за отклонений формирования пакета, хотя сам эксель файл читает, правда медленно(после пересохранения скорость увеличивается в разы). Поставщик файла ничего менять с положением вещей не собирается, так что придется выкручиваться мне.
_____________
Решение:
$pattern = "`<x:row\s.*>.*</x:row>`U";
_____________