[ Поиск ] - [ Пользователи ] - [ Календарь ]
Полная Версия: preg_match и русские символы
forza
Пытаюсь выдернуть тайтл у страницы через функ-ию preg_match, но сталкиваюсь с чудесами кодировки в HTML коде с русскими буквами.
Приведенный сайт беру как пример.
Пусть мы имеем ХТМЛ код сайта bn.ru. Заголовок у страницы: "Портал БН.ру - Бюллетень недвижимости Петербурга. Первичное и вторичное жилье Петербурга и Ленинградской области - Бюллетень Недвижимости"

Кусок кода отвечающий за вырезку тайтла:

$pattern = "<title.*?>(.*?)</title>";
preg_match("#{$pattern}#ius", $this->html, $matches);
echo '<pre>';
var_dump($matches);
die();


Результат:
array(0) {
}


Если убрать модификатор u, то тайтл получаю, но в не понятной кодировки.

Ïîðòàë ÁÍ.ðó - Áþëëåòåíü íåäâèæèìîñòè Ïåòåðáóðãà. Ïåðâè÷íîå è âòîðè÷íîå æèëüå Ïåòåðáóðãà è Ëåíèíãðàäñêîé îáëàñòè - Áþëëåòåíü Íåäâèæèìîñòè

_____________
Заработок для веб-разработчиков: CodeCanyon
Мое Портфолио
Winston
Здесь http://2cyr.com/decode/?lang=ru можно определить кодировку
forza
Цитата (Winston @ 25.07.2013 - 09:29)
Здесь http://2cyr.com/decode/?lang=ru можно определить кодировку

Кодировку я знаю , но если делаю
var_dump(iconv("windows-1251", "utf-8", $matches[1]));

то получаю вот такую бороду
РŸРѕС€С‚Р°Р» БН.С€Сƒ - Р‘СŽР»Р»РµС‚РµРЅСŒ недвижимости РŸРµС‚РµС€Р±СƒС€РіР°. РŸРµС€РІРё
чное Рё втошичное Р¶РёР»СŒРµ РŸРµС‚РµС€Р±СƒС€РіР° Рё Ленингшадской РѕР
±Р»Р°СЃС‚Рё - Р‘СŽР»Р»РµС‚РµРЅСŒ Недвижимости

Как то все печально

_____________
Заработок для веб-разработчиков: CodeCanyon
Мое Портфолио
forza
Ай дурак, заработался, все норм... эт я на прямую в файле тестирую, а заголовков то нет...

_____________
Заработок для веб-разработчиков: CodeCanyon
Мое Портфолио
Быстрый ответ:

 Графические смайлики |  Показывать подпись
Здесь расположена полная версия этой страницы.
Invision Power Board © 2001-2024 Invision Power Services, Inc.