AIX系统UNICODE转中文,该如何处理

AIX系统UNICODE转中文
由于系统中iconv没有 UNICODE 这个编码，用iconv_open不行。
然后用 setlocate,wcstombs也不行。
求查码表的代码，或看怎么解决
------解决思路----------------------
UNICODE不用转，本来就包括中文。
------解决思路----------------------
除非是转UTF8或转GBK、BIG5啥的。
------解决思路----------------------

// UTF-8 编码字符理论上可以最多到 6个字节长，但目前全世界的所

// 有文字和符号种类加起来也只要编到 4个字节长就够了。

// 　　UTF-8 是以 8位（即 1个字节）为单元对原始码进行编码（注意一

// 点：这里所讲的原始码都是指Unicode码），并规定：多字节码（2个字

// 节以上才称为多字节）以转换后第1个字节起头的连续“1”的数目（这

// 些连续“1”称为标记位），表示转换成几个字节：“110”连续两个

// “1”，表示转换结果为2个字节，“1110”表示3个字节，而“11110”

// 则表示4个字节……跟随在标记位之后的“0”，其作用是分隔标记位和

// 字符码位。第2～第4个字节的起头两个位固定设置为“10”，也作为标

// 记，剩下的6个位才做为字符码位使用。

// 　　这样，2字节UTF-8码剩下11个字符码位，可用以转换0080～07FF的

// 原始字符码，3字节剩下16个字符码位，可用以转换0800～FFFF的原始字

// 符码，由此类推。编码方式的模板如下：

//

// 原始码（16进制）　UTF－8编码（二进制）

// --------------------------------------------

// 0000 - 007F       0xxxxxxx

// 0080 - 07FF       110xxxxx 10xxxxxx

// 0800 - FFFF       1110xxxx 10xxxxxx 10xxxxxx

// ……

// --------------------------------------------

//

// 　　模板中的“x”表示字符码。

// 　　Ascii码＜007F，编为1个

// 字节的UTF－8码。汉字的 Unicode编码范围为0800－FFFF，所以被编为

// 3个字节的UTF－8码。

// 　　例如“汉”字的Unicode编码是6C49，6C49在0800-FFFF之间，所以

// 要用3个字节的模板：1110wwww 10xxxxyy 10yyzzzz。


//    6    C    4    9

// 0110 1100 0100 1001

// wwww xxxx yyyy zzzz

//     wwww   xxxxyy   yyzzzz

// 1110wwww 10xxxxyy 10yyzzzz。

// 11100110 10110001 10001001

//    E   6    B   1    8   9

//“汉”字的UTF-8编码是E6 B1 89

------解决思路----------------------
UNICODE 本身不就包括中文。
是你没装中文字体吧
------解决思路----------------------

引用:

Quote: 引用:

UNICODE 本身不就包括中文。
是你没装中文字体吧

AIX系统，现在问题是这样的，我收到别人发过来的字符串 &#x6210,&#x529f
需要转成中文“成功”

不一定对，仅供参考：

// UTF-8 编码字符理论上可以最多到 6个字节长，但目前全世界的所

// 有文字和符号种类加起来也只要编到 4个字节长就够了。

// 　　UTF-8 是以 8位（即 1个字节）为单元对原始码进行编码（注意一

// 点：这里所讲的原始码都是指Unicode码），并规定：多字节码（2个字

// 节以上才称为多字节）以转换后第1个字节起头的连续“1”的数目（这

// 些连续“1”称为标记位），表示转换成几个字节：“110”连续两个

// “1”，表示转换结果为2个字节，“1110”表示3个字节，而“11110”

// 则表示4个字节……跟随在标记位之后的“0”，其作用是分隔标记位和

// 字符码位。第2～第4个字节的起头两个位固定设置为“10”，也作为标

// 记，剩下的6个位才做为字符码位使用。

// 　　这样，2字节UTF-8码剩下11个字符码位，可用以转换0080～07FF的

// 原始字符码，3字节剩下16个字符码位，可用以转换0800～FFFF的原始字

// 符码，由此类推。编码方式的模板如下：

//

// 原始码（16进制）　UTF－8编码（二进制）

// --------------------------------------------

// 0000 - 007F       0xxxxxxx

// 0080 - 07FF       110xxxxx 10xxxxxx

// 0800 - FFFF       1110xxxx 10xxxxxx 10xxxxxx

// ……

// --------------------------------------------

//

// 　　模板中的“x”表示字符码。

// 　　Ascii码＜007F，编为1个

// 字节的UTF－8码。汉字的 Unicode编码范围为0800－FFFF，所以被编为

// 3个字节的UTF－8码。

// 　　例如“汉”字的Unicode编码是6C49，6C49在0800-FFFF之间，所以

// 要用3个字节的模板：1110wwww 10xxxxyy 10yyzzzz。


//    6    C    4    9

// 0110 1100 0100 1001

// wwww xxxx yyyy zzzz

//     wwww   xxxxyy   yyzzzz

// 1110wwww 10xxxxyy 10yyzzzz。

// 11100110 10110001 10001001

//    E   6    B   1    8   9

//“汉”字的UTF-8编码是E6 B1 89


// &#x6210,&#x529f需要转成中文“成功”

#include <stdio.h>

char u[]="&#x6210,&#x529f";

unsigned short int w[2];

unsigned char utf8[7];

int main() {

    sscanf(u,"&#x%4hx,&#x%4hx",&w[0],&w[1]);

    utf8[0]=0xe0u
------解决思路----------------------
(w[0]>>12);

    utf8[1]=0x80u
------解决思路----------------------
((w[0]>>6)&0x3fu);

    utf8[2]=0x80u
------解决思路----------------------
(w[0]&0x3fu);

    utf8[3]=0xe0u
------解决思路----------------------
(w[1]>>12);

    utf8[4]=0x80u
------解决思路----------------------
((w[1]>>6)&0x3fu);

    utf8[5]=0x80u
------解决思路----------------------
(w[1]&0x3fu);

    utf8[6]=0;

    printf("%s\n",(char *)utf8);

    return 0;

}

------解决思路----------------------

ubuntu@:~/src$ locale -a

C

C.UTF-8

en_US.utf8

POSIX

zh_CN.gbk

zh_CN.utf8

ubuntu@:~/src$ cat test.cpp

#include <iostream>

#include <clocale>


int main()

{

   setlocale(LC_ALL, "zh_CN.UTF-8");

   wchar_t str[3] = {0x6210, 0x529f, 0};

   std::wcout << str << std::endl;

   return 0;

}

ubuntu@:~/src$ g++ -o test  test.cpp

ubuntu@:~/src$ ./test

成功

AIX系统UNICODE转中文,该如何处理

相关推荐