Форум PHP программистов > preg_match и русские символы

[ Поиск ] - [ Пользователи ] - [ Календарь ]

Полная Версия: preg_match и русские символы

forza

25.07.2013 - 13:03

Пытаюсь выдернуть тайтл у страницы через функ-ию preg_match, но сталкиваюсь с чудесами кодировки в HTML коде с русскими буквами.
Приведенный сайт беру как пример.
Пусть мы имеем ХТМЛ код сайта bn.ru. Заголовок у страницы: "Портал БН.ру - Бюллетень недвижимости Петербурга. Первичное и вторичное жилье Петербурга и Ленинградской области - Бюллетень Недвижимости"

Кусок кода отвечающий за вырезку тайтла:

$pattern = "<title.*?>(.*?)</title>";
preg_match("#{$pattern}#ius", $this->html, $matches);
echo '<pre>';
var_dump($matches);
die();

Результат:

array(0) {
}

Если убрать модификатор u, то тайтл получаю, но в не понятной кодировки.

Ïîðòàë ÁÍ.ðó - Áþëëåòåíü íåäâèæèìîñòè Ïåòåðáóðãà. Ïåðâè÷íîå è âòîðè÷íîå æèëüå Ïåòåðáóðãà è Ëåíèíãðàäñêîé îáëàñòè - Áþëëåòåíü Íåäâèæèìîñòè

_____________
Заработок для веб-разработчиков: CodeCanyon
Мое Портфолио

Winston

25.07.2013 - 13:29

Здесь http://2cyr.com/decode/?lang=ru можно определить кодировку

forza

25.07.2013 - 13:46

Цитата (Winston @ 25.07.2013 - 09:29)

Здесь http://2cyr.com/decode/?lang=ru можно определить кодировку

Кодировку я знаю , но если делаю

var_dump(iconv("windows-1251", "utf-8", $matches[1]));

то получаю вот такую бороду

РŸРѕС€С‚Р°Р» Р‘Рќ.С€Сƒ - Р‘СŽР»Р»РµС‚РµРЅСŒ РЅРµРґРІРёР¶РёРјРѕСЃС‚Рё РŸРµС‚РµС€Р±СƒС€РіР°. РŸРµС€РІРё
С‡РЅРѕРµ Рё РІС‚РѕС€РёС‡РЅРѕРµ Р¶РёР»СŒРµ РŸРµС‚РµС€Р±СƒС€РіР° Рё Р›РµРЅРёРЅРіС€Р°РґСЃРєРѕР№ РѕР
±Р»Р°СЃС‚Рё - Р‘СŽР»Р»РµС‚РµРЅСŒ РќРµРґРІРёР¶РёРјРѕСЃС‚Рё

Как то все печально

_____________
Заработок для веб-разработчиков: CodeCanyon
Мое Портфолио

forza

25.07.2013 - 15:08

Ай дурак, заработался, все норм... эт я на прямую в файле тестирую, а заголовков то нет...

_____________
Заработок для веб-разработчиков: CodeCanyon
Мое Портфолио

Быстрый ответ:

Здесь расположена полная версия этой страницы.