[ Поиск ] - [ Пользователи ] - [ Календарь ]
Полная Версия: замена на скандинавскую кодировку
tok24ua
есть несколько html файликов по 10 метров на шведском.

этим кодом файлы конвертируются в txt файлов с очисткой тэгов:

<?php

$data = file_get_contents('input.htm');
file_put_contents('output.txt', strip_tags($data)); ?>



но вместо скандинавских букв которых нету в английском алфавите появляются кода из нескольких цифр.

подскажите пожалуйста, как этот скрипт должен выглядеть что бы текст сохранялся без замен шведских букв.

если можно конкретный код, т.к. я пхп не знаю вообще.



Спустя 27 минут, 1 секунда (18.02.2011 - 18:26) Invis1ble написал(а):
а это зависит от кодировки исходного файла. Если в utf-8, то ничего делать вроде бы не нужно, только данный скрипт должен быть также в utf-8

Спустя 13 минут, 47 секунд (18.02.2011 - 18:39) tok24ua написал(а):
вот файл который надо переконвертировать в txt http://zalil.ru/30530425/70f2eb5a.4d5f3550/input.rar

когда открываю мозиллой всё отлично, все буквы на месте. открой обычным редактором, сразу появляются цифры вместо букв.


помогите плз, а то уже намучался...

Спустя 19 минут, 26 секунд (18.02.2011 - 18:59) Invis1ble написал(а):
tok24ua
<?php

$data = html_entity_decode(file_get_contents('input.htm'));
file_put_contents('output.txt', strip_tags($data));

?>

этот скрипт должен быть в utf-8

Спустя 9 минут, 29 секунд (18.02.2011 - 19:08) tok24ua написал(а):
Цитата (Invis1ble @ 18.02.2011 - 15:59)
tok24ua
<?php

$data = html_entity_decode(file_get_contents('input.htm'));
file_put_contents('output.txt', strip_tags($data));

?>

этот скрипт должен быть в utf-8

ну да, он в этой кодировке и есть utf-8. и пробывал и без BOM и просто utf-8.

блин мужик, ну помоги, умоляю просто!

Спустя 5 минут, 35 секунд (18.02.2011 - 19:14) Invis1ble написал(а):
так а чем тебе еще помочь?
открой в блокноте исходный htm и результат работы скрипта и сравни. Контент полностью идентичен, без html-сущностей и тегов.

Спустя 4 минуты, 54 секунды (18.02.2011 - 19:19) tok24ua написал(а):
Цитата (Invis1ble @ 18.02.2011 - 16:14)
так а чем тебе еще помочь?
открой в блокноте исходный htm и результат работы скрипта и сравни. Контент полностью идентичен, без html-сущностей и тегов.

в результате работы скрипта вот это

Цитата
Tisdag den 11 september kommer de flesta av oss att minnas på samma sätt som en tidigare generation mindes var de var och vad de gjorde när Kennedy blev skjuten. Jag var på jobbet, radion var på. Först trodde jag att det jag hörde var en recension av någon ny dålig katastroffilm. När jag förstod att det var allvar kändes det som ett knytnävsslag i magen. Allt stannade upp, världen blev overklig. Onsdag morgon kom jag till kontoret men insåg snabbt att det inte gick att arbeta som vanligt. Att ringa upp en kund och prata annonsering kändes trivialt och banalt.


ä или å и т.д. скандинавские буквы... как их сделать нормальными то???


p.s. блин а тут на форуме всё нормально отобразилось.............. а в файле
Цитата
v & # 2 2 8
только без пробелов

Спустя 6 минут, 1 секунда (18.02.2011 - 19:25) Invis1ble написал(а):
tok24ua
Цитата
& # 2 2 8

это и есть html-сущности. а теперь посмотри внимательно, есть ли они в txt-файле? их нет, потому что я вставил html_entity_decode()
Быстрый ответ:

 Графические смайлики |  Показывать подпись
Здесь расположена полная версия этой страницы.
Invision Power Board © 2001-2025 Invision Power Services, Inc.