Конференция VBStreets

**Rody66** » 17.06.2012 (Вс) 1:02

Доброго дня.
Не могу найти способ получить нормальные русские символы в исходнике страницы. Пример: s=Inet.OpenURL("http://ya.ru") вместо русских символов в содержимом s будет какая-то ересь.
Кстати если эту ересь перекинуть в Notepad++ и выбрать кодировку UTF-8, то она превращается в нормальные русские символы. Из чего делаю вывод, что страница грузится в кодировке UTF=8. А это, насколько мне известно, юникод. Но вот загвоздка.. s=StrConv(s, vbFromUnicode) тоже работает не так как нужно, и ничего хорошего мы не получаем. Что же не так? И как все-таки эти русские символы получить?
Пример русских символов: РЎРѕСЂС‚РёСЂРѕРІР°С‚СЊ
Спасибо.

**iGrok** » 17.06.2012 (Вс) 2:01

Rody66 писал(а):А это, насколько мне известно, юникод.

Вот тут и кроется источник проблем. Юникод, да не тот.

Читать сюда.

**Хакер** » 17.06.2012 (Вс) 3:00

Rody66 писал(а):И как все-таки эти русские символы получить?

Конвертировать из UTF-8 в UCS-2. StrConv этого не умеет только MultiByteToWideChar.
Предварительно прочитав (пять раз) статью, ссылка на которую дана выше.

**parserdcc** » 17.06.2012 (Вс) 8:05

Код: Выделить всё: Public Function UTF8_16(UTF8Data$) UTF8_16 = "" Dim i$, j$, j2$, ch, k1$, k2$, k3$, m$ i = 1 Do While i <= Len(UTF8Data) ch = Mid(UTF8Data, i, 1) j = CLng(Asc(ch)) If j >= 128 Then If j < 224 Then k1 = j Mod 32 i = i + 1 ch = Mid(UTF8Data, i, 1) j2 = CLng(Asc(ch)) k2 = j2 Mod 64 UTF8_16 = UTF8_16 & ChrW(k2 + k1 * 64) Else k1 = j Mod 16 i = i + 1 ch = Mid(UTF8Data, i, 1) j2 = CLng(Asc(ch)) k2 = j2 Mod 64 i = i + 1 ch = Mid(UTF8Data, i, 1) j2 = CLng(Asc(ch)) k3 = j2 Mod 64 UTF8_16 = UTF8_16 & ChrW(k3 + (k2 + k1 * 64) * 64) End If Else UTF8_16 = UTF8_16 & ch End If i = i + 1 Loop End Function

На выходе функции будет русский язык.

**Хакер** » 17.06.2012 (Вс) 8:07

Отвратительный код, никому больше его не показывай.

**Rody66** » 17.06.2012 (Вс) 13:51

Искал по форуму по MultiByteToWideChar, наткнулся на пост arthur2, немного укорочил его код, всё отлично работает. Всем большое спасибо.

Код: Выделить всё: Private Declare Function MultiByteToWideChar Lib "kernel32.dll" (ByVal CodePage As Long, ByVal dwFlags As Long, ByVal lpMultiByteStr As String, ByVal cchMultiByte As Long, ByVal lpWideCharStr As Long, ByVal cchWideChar As Long) As Long Private Declare Function WideCharToMultiByte Lib "kernel32.dll" (ByVal CodePage As Long, ByVal dwFlags As Long, ByVal lpWideCharStr As Long, ByVal cchWideChar As Long, ByVal lpMultiByteStr As Long, ByVal cchMultiByte As Long, ByVal lpDefaultChar As Long, ByVal lpUsedDefaultChar As Long) As Long Public Function UTF8ToWin(ByVal inString As String) As String Dim hMemLock1 As Long, hMemLock2 As Long Dim iStrSize As Long, lMaxSize As Long, str1 As String, str2 As String inString = inString & vbNullChar lMaxSize = Len(inString) str1 = String$(lMaxSize, 0&) str2 = String$(lMaxSize, 0&) hMemLock1 = StrPtr(str1) hMemLock2 = StrPtr(str2) iStrSize = MultiByteToWideChar(CP_UTF8, 0&, inString, &HFFFF, hMemLock1, lMaxSize) iStrSize = WideCharToMultiByte(0&, 0&, hMemLock1, &HFFFF, hMemLock2, iStrSize, 0&, 0&) If Len(iStrSize) Then UTF8ToWin = StrConv(str2, vbUnicode) End Function

**Хакер** » 17.06.2012 (Вс) 15:19

Адовая ересь. Авторов такого кода надо расстреливать.

**Хакер** » 17.06.2012 (Вс) 15:52

Это надо быть полным кретином, чтобы имея задачу «преобразовать UTF-8 в UCS-2» делать преобразование:
— UTF-8 → UCS-2 → ANSI → UCS-2
теряя при этом безвозвратно 99 процентов символов текста, вместо того, чтобы сделать просто
— UTF-8 → UCS-2

Правильный код для варианта с API-функциями:

Код: Выделить всё: Private Declare Function MultiByteToWideChar Lib "kernel32" (ByVal CodePage As Long, ByVal dwFlags As Long, lpMultiByteStr As Any, ByVal cchMultiByte As Long, lpWideCharStr As Any, ByVal cchWideChar As Long) As Long Private Const CP_UTF8 = 65001 Public Function Utf8ToUcs2(ByRef sInput As String) As String Dim ret As Long If Len(sInput) = 0 Then Exit Function Else Utf8ToUcs2 = Space(Len(sInput)) ret = MultiByteToWideChar(CP_UTF8, 0, _ ByVal StrPtr(sInput), Len(sInput), _ ByVal StrPtr(Utf8ToUcs2), LenB(Utf8ToUcs2)) If ret = 0 Then Error 51 Else Utf8ToUcs2 = Left$(Utf8ToUcs2, ret) End Function

А ты Rody, просто бессовестный. Ты гарантированно не прочитал статью (пять раз), и даже не поинтересовался, годен ли тот код, который ты отрыл в каком-то мусорном баке. Считаешь себя достаточно грамотным, чтобы определять, хорош ли код? Или тебе вообще наплевать абсолютно на всё, лишь бы абы-абы-абы-как работало?

**arthur2** » 17.06.2012 (Вс) 19:27

Rody66 писал(а):наткнулся на пост arthur2, немного укорочил его код,

Ну, это не мой код. Это моя тогдашняя (в 2008) попытка на ощупь исправить жуткие косяки чужого кода, не вполне понимая его смысл. "Укоротил", это, я так понимаю, выбросил закомментированные куски того, на что как раз укоротил оригинальный код я

Именно мой код для подобной задачи, уже с пониманием смысла, здесь: viewtopic.php?p=6736460#p6736460 Как можно заметить, практически то же самое, что у Хакера - так что прошу меня не расстреливать

**Rody66** » 18.06.2012 (Пн) 0:18

Это надо быть полным кретином, чтобы имея задачу «преобразовать UTF-8 в UCS-2» делать преобразование:
— UTF-8 → UCS-2 → ANSI → UCS-2
теряя при этом безвозвратно 99 процентов символов текста

Я об этом думал, но т. к. код вполне себе неплохо работал, счел необязательным что-то оптимизировать.
А насчет потери не понял. У меня ничего не терялось.

А ты Rody, просто бессовестный. Ты гарантированно не прочитал статью (пять раз), и даже не поинтересовался, годен ли тот код, который ты отрыл в каком-то мусорном баке. Считаешь себя достаточно грамотным, чтобы определять, хорош ли код? Или тебе вообще наплевать абсолютно на всё, лишь бы абы-абы-абы-как работало?

Да, ты прав, прочел всего один раз (кстати, по факту уже 2, ибо недавно ты тоже мне ее предлагал).
Нет, особо грамотным себя не считаю. Насчет абы-абы - код работал и всё устраивало (кроме того, что так и не приложил достаточно усилий, чтобы осмыслить его полностью), поэтому и повода искать что-то иное не было, темболее, учитывая то, что на поиски Я достаточно немало времени.
arthur2, спасибо за линк, почитал твои посты, и все-таки в полной мере разобрался с параметрами. Правда, вот что Я не очень понял: у ф-ции параметров 6, а тут ты описываешь целых 8, откуда еще 2? - viewtopic.php?p=6736460#p6736467
Хакер, твой код почему то работает неверно, и на выходе кракозябры. А вот код Артура отлично работает.
Вот результат в моей интерпретации:

Код: Выделить всё: Public Const CP_UTF8 = 65001 Private Declare Function MultiByteToWideChar Lib "kernel32.dll" (ByVal CodePage As Long, ByVal dwFlags As Long, ByVal lpMultiByteStr As String, ByVal cchMultiByte As Long, ByVal lpWideCharStr As Long, ByVal cchWideChar As Long) As Long Public Function Utf8ToUcs2(ByVal inString As String) As String Dim ret As Long, StringSize As Long, strBuffer As String If inString = "" Then Exit Function StringSize = Len(inString) strBuffer = String$(StringSize, 0&) ret = MultiByteToWideChar(CP_UTF8, 0&, inString, -1&, StrPtr(strBuffer), StringSize) If ret >= 0 Then Utf8ToUcs2 = Left$(strBuffer, StringSize - 1) End Function

И последнее, не сочтите за идиотизм, но UCS2 - это же UTF-16 ?

**iGrok** » 18.06.2012 (Пн) 0:58

Rody66 писал(а):но UCS2 - это же UTF-16

Не совсем, и у Джоэла этот момент таки не описан.
UCS2 - это первоначальный стандарт, с пространством в 65536 символов.
UTF-16 появился позже, и в нём введены "суррогатные пары" - возможность представления одного символа парой кодовых точек. Таким образом пространство расширено до 1 112 064 символов, в википедии этот момент описан, если интересно. Ну или вот тут чётко несколько строк про различия между ними: http://www.unicode.org/faq/basic_q.html#14

**Хакер** » 18.06.2012 (Пн) 9:18

Rody66 писал(а):Вот результат в моей интерпретации:

Твоя интерпретация — образец дрянейшей интерпретации. Ты взял и выкинул из моего кода все самые хорошие и добрые моменты и заменил полной гадостью.

У меня аргумент был ByRef, ты его заменил на ByVal. Ты отдаёшь себя, черт возьми, отчёт, что ты заменил хорошее на плохое? Ты отдаёшь себе отчёт, что ты заменил отсутствие ненужного копирования большой строки на наличие ненужного копирования большой строки?

Ты заменил хорошее имя sInput, в котором 1/6 часть была посвящена техническому типу, и 5/6 — логической сути, на глупое имя inString, в котором не видно сути.

Ты заменил правильную проверку на пустоту строки If Len(sInput) = 0 на неправильную проверку на пустоту строки If inString = "".

Ты занил более само-документирующую Space на менее само-документирующую String, но это мелочь.

Ты заменил 4-ый аргумент функции MultiByteToWideChar на -1, что делать категорически недопустимо :twisted:

Этим ты внёс в свою программу баг, из-за которого все строки, содержащие где-нибудь в середине или начале символ с кодом 0 будет автоматически урезаться до этого символа. Ты мог написать StringSize, но написал -1. Не было никакой сложности написать StringSize, но ты взял и написал -1. Что у тебя в голове?

Ты убрал из функции проверку ошибок. У тебя возврат функцией нулевого значение считается нормальным сценарием действия. Любая хоть чуть-чуть профессиональная программа на 10 % состоит из кода, осуществляющего полезные действия, и на 90 % — из кода обработки ошибок, могущих возникнуть в процессе этих действий. Но ты всё это убрал. У тебя по твоей отвратительной логике, заложенной в код, функция WideCharToMultiByte может вернуть ноль, хотя в реальной жизни она не может, потому что она вернут 0 только для пустой входной строки, но если входная строка пуста, то дело до вызова функции WideCharToMultiByte не дойдёт, потому что у тебя до её вызова стоит проверяющее пустоту условие. Поэтому ноль — однозначное свидетельство ошибки. Но у тебя это допустимый и правильный ход работы.

Rody66 писал(а):Я об этом думал, но т. к. код вполне себе неплохо работал, счел необязательным что-то оптимизировать.

Нет такого понятия в инженерном деле как «вполне себе». Летай пожалуйста, на самолётах, которые «вполне себе» летают, по мнению конструктора.

Есть понятие «соответствуют предъявляемым требованиям» и есть понятия «не соответствует». В твоём случае трабования такие: она должна без искажений данных конвертировать UTF8-представление строки в UCS2-представление строки. Реальность такова, что для 99 % входных символов твоя функция исказит данные. Но ты имел невероятную глупость проверить функцию на оставшемся 1 % вариантов входных символов. В оставшийся 1 % входят спецсимволы, латинские символы, цифры и символы текущей системной локали (для твоего компьютера — предположительно «русской» локали). Всё. Ты обидел украинцев, белорусов, казахов, немцев, евреев, арабов, и ещё всех нормальных совестливых программистов. Своей наивной зашоренной позиций, что кроме латинских и русских букв в мире не существует никаких других.

Rody66 писал(а):Хакер, твой код почему то работает неверно, и на выходе кракозябры.

Признаю, в ней есть ошибки, я писал её прямо здесь в форме постинга, без проверок.

А причина подобных ошибок проста. Идеологически запрещено хранить UTF8-строку (или UTF7-строку или любую другую) в переменной типа String. Потому что существует как минимум два способа хранить UTF8-строку внтри String-переменной, и не существует абсолютно никакого способа узнать, какой из них используется, не существует никакого способа пометить переменную как использующую какой-то конкретный способ. Не существует способа заставить инструмент проконтролировать, что использован правильный способ. А главная цель использования любого программистского инструмента, такого как язык и компилятор — не упрощение работы программиста, а ужесточение контроля за программистом воимя избеждания типичных для программиста (как для человека) ошибок.

Так вот, UTF8 строка, лежащая внутри String переменной, может лежать либо как есть: каждый байт UTF8-строки совпадает с каждым байтом String-переменной, либо в по-глупому-в-юнкод-преобразованном виде, каждый каждый символ бессмысленной UCS-2 строки совпадает по своему коду со значением каждого байта UTF8-строки.

Вот у тебя судя по всему используется второй способ. Единственная идеологически правильная форма хранения UTF8-текста: хранение в массиве байтов. Без всяких «но».

Соответственно, три варианта функции.

Для случая, когда UTF8-строка представляет (как положено) в виде массива байтов.

Код: Выделить всё: Public Function Utf8ToUcs2(ByRef sInputUtf8Str() As Byte) As String Dim ret As Long Dim nInpLength As Long: nInpLength = ByteArySize(sInputUtf8Str) If nInpLength = 0 Then Exit Function Else Utf8ToUcs2 = Space(nInpLength) ret = MultiByteToWideChar(CP_UTF8, 0, _ sInputUtf8Str(LBound(sInputUtf8Str)), nInpLength, _ ByVal StrPtr(Utf8ToUcs2), nInpLength) If ret = 0 Then Error 51 Else Utf8ToUcs2 = Left$(Utf8ToUcs2, ret) End Function

Для случая, когда UTF8-строка (как не следует делать) засунута в String-переменную в том виде, в каком есть.

Код: Выделить всё: Public Function Utf8AsIsToUcs2(ByRef sAsIsBytes As String) As String Dim ret As Long Dim nInpLength As Long: nInpLength = LenB(sAsIsBytes) If nInpLength = 0 Then Exit Function Else Utf8AsIsToUcs2 = Space(nInpLength) ret = MultiByteToWideChar(CP_UTF8, 0, _ ByVal StrPtr(sAsIsBytes), nInpLength, _ ByVal StrPtr(Utf8AsIsToUcs2), nInpLength) If ret = 0 Then Error 51 Else Utf8AsIsToUcs2 = Left$(Utf8AsIsToUcs2, ret) End Function

Для самого тупого случая (как, надо полагать, у тебя), когда UTF8-строка хранится в String-переменной, причём каждому байту UTF8-строки соответствует двухбайтная пара String-переменная, представляющая UCS2-символ, код которого равен значение соответствующего байта оригинальной UTF8-строки.

Код: Выделить всё: Public Function Utf8DirtyToUcs2(ByVal sDirtyString As String) As String Dim ret As Long Dim nInpLength As Long: nInpLength = Len(sDirtyString) If nInpLength = 0 Then Exit Function Else Utf8DirtyToUcs2 = Space(nInpLength) sDirtyString = StrConv(sDirtyString, vbFromUnicode) ret = MultiByteToWideChar(CP_UTF8, 0, _ ByVal StrPtr(sDirtyString), nInpLength, _ ByVal StrPtr(Utf8DirtyToUcs2), nInpLength) If ret = 0 Then Error 51 Else Utf8DirtyToUcs2 = Left$(Utf8DirtyToUcs2, ret) End Function

Ну и чтобы не было лишних вопросов насчёт ByteArySize:

Код: Выделить всё: Private Function ByteArySize(ByRef b() As Byte) As Long On Error Resume Next ByteArySize = UBound(b) - LBound(b) + 1 End Function

И вот проверка этих трёх функций.
Задача, сконвертировать фразу
Hello, Вселенная, نهار, Straße, φανός, дәріхана!!
которая содержит слова на английском, русском, арабском («день»), немецком («улица»), греческом («фонарь») и казахском («аптека») языках, хранимую в формате UTF-8, в формат UCS-2, и вывести с помощью MessageBox на экран. Конвертация производится всеми тремя функциями подряд. Продемонстрированны все три варианта в порядке возрастания степени их отстойности:

: utf8_to_ucs2_result.png (19.18 Кб) Просмотров: 4167

(кегль шрифта специально увеличен)

Исходник:

shame_on_rody66.zip: Позор Rody66; (2.43 Кб) Скачиваний: 159

**ger_kar** » 19.06.2012 (Вт) 18:26

Хакер писал(а):Ты занил более само-документирующую Space на менее само-документирующую String, но это мелочь.

Я тоже всегда применяю String, ибо считаю, что это более правильно, так как например при вызовах WinApi из Си например передается указатель на текстовый буфер, который в пустом состоянии содержит нули. Нафига его пробелами то забивать? И что это такое само-документирующуя функция, я что-то вообще не въехал, как функция может документировать сама себя?

**Хакер** » 19.06.2012 (Вт) 19:08

ger_kar писал(а):так как например при вызовах WinApi из Си например передается указатель на текстовый буфер, который в пустом состоянии содержит нули.

Какая разница, чем заполнен буфер, если он является буфером-приёмником, а не буфером-источником данных?

ger_kar писал(а):
И что это такое само-документирующуя функция, я что-то вообще не въехал, как функция может документировать сама себя?

Код может самодокументировать себя. Ещё бы ты не въехал, если ты английского не знаешь нифига.

**ger_kar** » 19.06.2012 (Вт) 19:11

Хакер писал(а):Код может самодокументировать себя. Ещё бы ты не въехал, если ты английского не знаешь нифига.

Если будет нетрудно, поведай на досуге, что это за фишка такая.

Конференция VBStreets

MS Inernet Transfer Control - как получить символы кирилицы?

MS Inernet Transfer Control - как получить символы кирилицы?

Re: MS Inernet Transfer Control - как получить символы кирил

Re: MS Inernet Transfer Control - как получить символы кирил

Re: MS Inernet Transfer Control - как получить символы кирил

Re: MS Inernet Transfer Control - как получить символы кирил

Re: MS Inernet Transfer Control - как получить символы кирил

Re: MS Inernet Transfer Control - как получить символы кирил

Re: MS Inernet Transfer Control - как получить символы кирил

Re: MS Inernet Transfer Control - как получить символы кирил

Re: MS Inernet Transfer Control - как получить символы кирил

Re: MS Inernet Transfer Control - как получить символы кирил

Re: MS Inernet Transfer Control - как получить символы кирил

Re: MS Inernet Transfer Control - как получить символы кирил

Re: MS Inernet Transfer Control - как получить символы кирил

Re: MS Inernet Transfer Control - как получить символы кирил

Кто сейчас на конференции