Есть сайт: http://www.imuc.ru/
В ОБУЧАЮЩИХ ЦЕЛЯХ пытаюсь спарсить ссылки его каталога(см. фото)
вот мой исходный код:
$content = file_get_contents($url);
preg_match_all('~<a href=\'/category/.*/\'>.*</a>~', $content, $result);
print_r($result) ;
А на выходе я получаю:
Array
(
[0] => Array
(
[0] => <a href='/category/zhenskaja-parfjumerija/'>Женская парфюмерия</a>
</li>
<li class="parent cat_621">
<span class="bullet"> </span><a href='/category/muzhskaja-parfjumerija/'>Мужская парфюмерия</a>
</li>
<li class="parent cat_1218">
<span class="bullet"> </span><a href='/category/kompaktnyj-parfjum-45-ml/'>Компактный парфюм (mini)</a>
</li>
<span class="bullet"> </span><a href='/category/sale/'>Распродажа</a>
)
)
Почему моя регулярка захватывает теги <li><span>?
И как от них (<li><span>) избавиться?