Форум PHP программистов > Парсер кодировки сайта

[ Поиск ] - [ Пользователи ] - [ Календарь ]

5maks5

1.07.2011 - 14:31

Здравствуйте, мне требуется парсить мета-тег где отображается кодировка сайта.
К примеру такой тег:

<meta http-equiv="Content-Type" content="text/html; charset=windows-1251" />

Из него нужно извлекать ТОЛЬКО windows-1251

Помогите пожалуйста реализовать.

<?php
$url = "celsoft.ru";

//код

echo "Результат";
?>

Спустя 14 часов, 29 минут, 4 секунды (2.07.2011 - 04:00) 5maks5 написал(а):

UP !!!

Спустя 8 минут, 40 секунд (2.07.2011 - 04:09) waldicom написал(а):

Забираем файл с помощь fopen/fgets или file_get_contents или сокетов или curl или других функций.
Затем с помощью регулярок или strpos ищем строку 'content="text/html; charset=', затем находим позицию следующее кавычки.
Затем просто вырезаем кодировку с помощью substr (или же регулярки).

Спустя 1 час, 59 минут, 49 секунд (2.07.2011 - 06:09) 5maks5 написал(а):

Помогли на другом форуме. Выкладываю код. Вдруг кому пригодится.

<?php

/**
 * @author DotNet
 * @copyright 2011
 */

$url = "http://celsoft.ru/";

$content = @file_get_contents($url);

preg_match("/<meta (.*) charset=(.*)\" \/>/",$content,$charset);

echo $charset[2];
?>

Спустя 47 минут, 7 секунд (2.07.2011 - 06:56) twin написал(а):

ЭЭЭЭ! Вы чего? Вот сюда ходи.

Спустя 2 часа, 39 минут, 48 секунд (2.07.2011 - 09:36) 5maks5 написал(а):

Цитата (twin @ 2.07.2011 - 03:56)

ЭЭЭЭ! Вы чего? Вот сюда ходи.

Не на всех сайтах есть кодировка в заголовках сервера.
У меня идёт условие в котором сначала проверяется кодировка в заголовках сервера, если там она не указана то я пытаюсь брать ее с мета-тега, а если такого мата-тега нет, то уже как говорится не наша проблема если проверяемый сайт не соблюдает элементарные стандарты.

_____________
Где исходники вселенной?

Быстрый ответ:

Здесь расположена полная версия этой страницы.