[ Поиск ] - [ Пользователи ] - [ Календарь ]
Полная Версия: Как перекодировать файл
Владимир55
Файл в формате csv получен из Яндекс вебмастера и перекодировать его средствами РНР не удается.

Если открыть файл блокнотом, то там кодировка Юникод. Не UTF-8, а именно Unicode.

При перекодировании
$val_new = iconv('utf-8', 'cp1251', $val);

получаем
Цитата
48AB0=F8@>20BLAO >B =5C40G=8:>2
@0AG5BK ?> D@0=G0978=3C



При перекодировании
$val_new = iconv('utf-16', 'cp1251', $val);

получаем
Цитата
бизнесмен олег герасимов
4истанцироватьсяР>тР=еудачниковЉ


Как можно решить эту проблему?
AllesKlar
Цитата (Владимир55 @ 1.11.2017 - 21:45)
Если открыть файл блокнотом, то там кодировка Юникод. Не UTF-8, а именно Unicode.

Нет такой кодировки Unicode.
Unicode - это стандарт, а за отображение Unicode отвечают как раз кодировки UTF-8, UTF-16 и т.д.
Выложи файл куданидь, посмотрим.

_____________
[продано копирайтерам]
sergeiss
Владимир55, я зашел в гугл, спросил у него "php unicode decode"... Получил много ссылок. Ты пробовал это сделать прежде, чем спрашивать на форуме?

_____________
* Хэлп по PHP
* Описалово по JavaScript
* Хэлп и СУБД для PostgreSQL

* Обучаю PHP, JS, вёрстке. Интерактивно и качественно. За разумные деньги.

* "накапливаю умение телепатии" (С) и "гуглю за ваш счет" (С)

user posted image
walerus
Владимир55 попробуйте mb-convert-encoding
Владимир55
Цитата (AllesKlar @ 1.11.2017 - 20:40)
Цитата (Владимир55 @ 1.11.2017 - 21:45)
Если открыть файл блокнотом, то там кодировка Юникод. Не UTF-8, а именно Unicode.

Нет такой кодировки Unicode.
Unicode - это стандарт, а за отображение Unicode отвечают как раз кодировки UTF-8, UTF-16 и т.д.
Выложи файл куданидь, посмотрим.

Это для меня не новость, я это знаю. Но Блокнот показывает, что это НЕ UTF-8.

См. криншот.
Владимир55
mb-convert-encoding не изменило ситуацию.

(Обрабатываемый файл, почему-то, форум не позволяет вставить).
AllesKlar
Цитата (Владимир55 @ 2.11.2017 - 08:03)
Но Блокнот показывает, что это НЕ UTF-8.

Блокнот - это что? Это та программа от криворуких программистов, которая убивает все кодировки, насильственно их изменяет и вставляет в файл кучу своего мусора? Нет, для меня это не аргумент.

Позволю себе еще раз:
Цитата (AllesKlar @ 1.11.2017 - 22:40)
Выложи файл куданидь, посмотрим.



_____________
[продано копирайтерам]
Владимир55
Файл вот здесь: http://rgho.st/6kQqVGYjV
Владимир55
Перекодировал вручную с помощью Notepad++ все использующиеся информационные csv файлы - так быстрее получилось.

Спасибо всем откликнувшимся!
arbuzmaster
Вот, что показывает мой блокнот(gedit) :unsure:

бизнесмен олег герасимов 1 1 https://
дистанцироваться от неудачников 1 https://
расчеты по франчайзингу 1 https://

Из этого могу сделать вывод, что это однозначно UTF-8

_____________
Мой первый сайтик

Посмотри на свой XBMC под другим углом
killer8080
Цитата (arbuzmaster @ 2.11.2017 - 21:04)
Из этого могу сделать вывод, что это однозначно UTF-8

ошибочный вывод, там utf-16! Код ТС из первого поста рабочий.
Владимир55
Цитата (killer8080 @ 2.11.2017 - 18:23)
Цитата (arbuzmaster @ 2.11.2017 - 21:04)
Из этого могу сделать вывод, что это однозначно UTF-8

ошибочный вывод, там utf-16! Код ТС из первого поста рабочий.

Там вот какая кодировка:
user posted image

(Инфа из Notepad++)
AllesKlar
Цитата (Владимир55 @ 2.11.2017 - 21:22)
Цитата (killer8080 @ 2.11.2017 - 18:23)
Цитата (arbuzmaster @ 2.11.2017 - 21:04)
Из этого могу сделать вывод, что это однозначно UTF-8

ошибочный вывод, там utf-16! Код ТС из первого поста рабочий.

Там вот какая кодировка:
user posted image

(Инфа из Notepad++)

А вот, что показывает терминал в нормальной ОС
user posted image

_____________
[продано копирайтерам]
killer8080
Цитата (Владимир55 @ 2.11.2017 - 23:22)
Там вот какая кодировка:

все верно
UCS - кодовая страница (charset), набор символов
UTF - кодировка (encoding), способ представления кодовой страницы
https://ru.wikipedia.org/wiki/Юникод
Цитата
Стандарт состоит из двух основных разделов: универсальный набор символов (англ. UCS, universal character set) и семейство кодировок (англ. UTF, Unicode transformation format). Универсальный набор символов задаёт однозначное соответствие символов кодам — элементам кодового пространства, представляющим неотрицательные целые числа. Семейство кодировок определяет машинное представление последовательности кодов UCS.
Быстрый ответ:

 Графические смайлики |  Показывать подпись
Здесь расположена полная версия этой страницы.
Invision Power Board © 2001-2025 Invision Power Services, Inc.