Владимир55
1.11.2017 - 23:45
Файл в формате csv получен из Яндекс вебмастера и перекодировать его средствами РНР не удается.
Если открыть файл блокнотом, то там кодировка Юникод. Не UTF-8, а именно Unicode.
При перекодировании
$val_new = iconv('utf-8', 'cp1251', $val);
получаем
Цитата |
48AB0=F8@>20BLAO >B =5C40G=8:>2 @0AG5BK ?> D@0=G0978=3C |
При перекодировании
$val_new = iconv('utf-16', 'cp1251', $val);
получаем
Цитата |
бизнесмен олег герасимов 4истанцироватьсяР>тР=еудачниковЉ |
Как можно решить эту проблему?
AllesKlar
2.11.2017 - 00:40
Цитата (Владимир55 @ 1.11.2017 - 21:45) |
Если открыть файл блокнотом, то там кодировка Юникод. Не UTF-8, а именно Unicode. |
Нет такой кодировки Unicode.
Unicode - это стандарт, а за отображение Unicode отвечают как раз кодировки UTF-8, UTF-16 и т.д.
Выложи файл куданидь, посмотрим.
_____________
[продано копирайтерам]
sergeiss
2.11.2017 - 00:42
Владимир55, я зашел в гугл, спросил у него "php unicode decode"... Получил много ссылок. Ты пробовал это сделать прежде, чем спрашивать на форуме?
_____________
*
Хэлп по PHP*
Описалово по JavaScript *
Хэлп и СУБД для PostgreSQL*
Обучаю PHP, JS, вёрстке. Интерактивно и качественно. За разумные деньги. *
"накапливаю умение телепатии" (С) и "гуглю за ваш счет" (С)
walerus
2.11.2017 - 00:59
Владимир55 попробуйте
mb-convert-encoding
Владимир55
2.11.2017 - 10:03
Цитата (AllesKlar @ 1.11.2017 - 20:40) |
Цитата (Владимир55 @ 1.11.2017 - 21:45) | Если открыть файл блокнотом, то там кодировка Юникод. Не UTF-8, а именно Unicode. |
Нет такой кодировки Unicode. Unicode - это стандарт, а за отображение Unicode отвечают как раз кодировки UTF-8, UTF-16 и т.д. Выложи файл куданидь, посмотрим.
|
Это для меня не новость, я это знаю. Но Блокнот показывает, что это НЕ UTF-8.
См. криншот.
Владимир55
2.11.2017 - 10:08
mb-convert-encoding не изменило ситуацию.
(Обрабатываемый файл, почему-то, форум не позволяет вставить).
AllesKlar
2.11.2017 - 11:26
Цитата (Владимир55 @ 2.11.2017 - 08:03) |
Но Блокнот показывает, что это НЕ UTF-8. |
Блокнот - это что? Это та программа от криворуких программистов, которая убивает все кодировки, насильственно их изменяет и вставляет в файл кучу своего мусора? Нет, для меня это не аргумент.
Позволю себе еще раз:
Цитата (AllesKlar @ 1.11.2017 - 22:40) |
Выложи файл куданидь, посмотрим. |
_____________
[продано копирайтерам]
Владимир55
2.11.2017 - 19:33
Владимир55
2.11.2017 - 21:01
Перекодировал вручную с помощью Notepad++ все использующиеся информационные csv файлы - так быстрее получилось.
Спасибо всем откликнувшимся!
arbuzmaster
2.11.2017 - 21:04
Вот, что показывает мой блокнот(gedit) :unsure:
бизнесмен олег герасимов 1 1 https://
дистанцироваться от неудачников 1 https://
расчеты по франчайзингу 1 https://
Из этого могу сделать вывод, что это однозначно UTF-8
_____________
Мой первый сайтикПосмотри на свой XBMC под другим углом
killer8080
2.11.2017 - 22:23
Цитата (arbuzmaster @ 2.11.2017 - 21:04) |
Из этого могу сделать вывод, что это однозначно UTF-8
|
ошибочный вывод, там utf-16! Код ТС из первого поста рабочий.
Владимир55
2.11.2017 - 23:22
Цитата (killer8080 @ 2.11.2017 - 18:23) |
Цитата (arbuzmaster @ 2.11.2017 - 21:04) | Из этого могу сделать вывод, что это однозначно UTF-8
|
ошибочный вывод, там utf-16! Код ТС из первого поста рабочий.
|
Там вот какая кодировка:

(Инфа из Notepad++)
AllesKlar
3.11.2017 - 00:16
Цитата (Владимир55 @ 2.11.2017 - 21:22) |
Цитата (killer8080 @ 2.11.2017 - 18:23) | Цитата (arbuzmaster @ 2.11.2017 - 21:04) | Из этого могу сделать вывод, что это однозначно UTF-8
|
ошибочный вывод, там utf-16! Код ТС из первого поста рабочий.
|
Там вот какая кодировка:  (Инфа из Notepad++) |
А вот, что показывает терминал в нормальной ОС
_____________
[продано копирайтерам]
killer8080
3.11.2017 - 10:42
Цитата (Владимир55 @ 2.11.2017 - 23:22) |
Там вот какая кодировка:
|
все верно
UCS - кодовая страница (charset), набор символов
UTF - кодировка (encoding), способ представления кодовой страницы
https://ru.wikipedia.org/wiki/ЮникодЦитата |
Стандарт состоит из двух основных разделов: универсальный набор символов (англ. UCS, universal character set) и семейство кодировок (англ. UTF, Unicode transformation format). Универсальный набор символов задаёт однозначное соответствие символов кодам — элементам кодового пространства, представляющим неотрицательные целые числа. Семейство кодировок определяет машинное представление последовательности кодов UCS. |
Быстрый ответ:
Powered by dgreen
Здесь расположена полная версия этой страницы.