很多朋友对于日文中字乱码一二三区别在哪和理解文本编码不太懂,今天就由小编来为大家分享,希望可以帮助到大家,下面一起来看看吧!
1、在计算机的内部,信息都是以二进制的方式存储的,二进制的一位(bit)可以表示0和1。位也叫做比特。
2、位作为单位太小,为了便于使用,通常使用字节(byte)来表示二进制。一个字节有8位,可以表示256种(2的8次方)种状态,对应数字是0~255。字节是计算机存储的最小单位。
3、计算机在存储各种类型的数据,文本,图像,音乐,视频等时,需要将数据转换成字节,这个过程就是编码。不同的格式有不同的编码,文本编码就是将文本转换成字节一种方法。下面,就来了解一下最简单的文本编码。
4、英文字母只有26个,大小写一共52个,数字有10个,再加上一些标点符号,也不超过256种,因此英文使用一个字节就可以表示。
5、计算机中最常见英文编码的就是ASCII(AmericanStandardCodeforInformationInterchange)美国信息标准信息交换码。
6、标准的ASCII编码使用7位。其中65~90是大写字母,97~122是小写字母,48~57是数字,32是空格。
7、扩展的ASCII使用了8位,增加了最高位为1的部分,用于表示特殊符号、外来语字母和图形符号。
8、小技巧:在电脑上,按住Alt键,使用小键盘区的数字按下ASCII编码,再松开Alt键,可以输入对应的字符了。
9、汉字的数量和英文字母相比,就不是一个量级了。中文常用字就有几千,使用一个字节无法表示。
10、汉字使用的编码是GB2312,一个汉字使用两个字节表示,比如"我"使用两个字节"CED2"表示。
11、GB2312编码中,英文使用一个字节表示,兼容ASCII标准编码,字节的最高位为0;中文使用两个字节表示,每个字节的最高位都是1。
12、GBK是对GB2312的补充,增加了许多不常用汉字和繁体字。
13、不同文字有自己的编码。比如繁体中文(BIG5),日文(SHIFT_JIS)。
14、不同的编码可能使用相同的字节表示本国的字符。比如在GB2312编码中“我”字的编码是“CED2”,而在BIG5编码中,“CED2”对应的是“扂”字。
15、ACSII编码一个使用1个字节,是单字节编码,GB2312一个文字编码使用1个或2个字节,是多字节编码。
16、为何需要Unicode
17、每种文字有各自的编码,但一个文本无法同时包含多种编码的文字。于是产生了Unicode(统一码),为每种语言的文字设置了统一并且唯一的编码。有了Unicode,就可以跨语言、跨平台进行文字处理。
18、Unicode相关的概念
19、在Unicode字符集中的某个字符对应的代码值,称作代码点(CodePoint),用16进制书写,并加上U+前缀。比如,“田”的代码点是U+7530,”A”的代码点是U+0041。
20、目前的Unicode字符分为17组编排,U+0000至U+10FFFF,每组称为代码平面(CodePlane),每平面拥有65536(2的16次方)个代码点。
21、平面0的部分编码区
22、U+D800-U+DFFF,是代理区(Surrogate)。UTF16需要通过代理区表示平面0以外的一个字符。
23、UCS(UniversalCharacterSet)通用字符集是与Unicode相似的一种统一编码,是由ISO国际标准化组织制定的,后来与Unicode统一了编码。如今,我们说Unicode,也就是UCS。
24、UTF(UnicodeTransferFormat)统一码传输格式定义了统一码的代码点如何转换到字节。
25、通常我们说Unicode,指的是UTF16和UTF8编码,尤其指UTF16编码。
26、UCS-2和UCS-4是UCS定义的字符转换字节的方式。
27、UCS-2是UTF16的子集,不支持代理对,因此只能表示平面0的字符。
28、UTF16和UTF32编码,根据字节的顺序,分为BigEndian(大字节序,高位在前)和LittleEndian(小字节序,高位在后),为了区分字节顺序,需要在文本的开头加入BOM(ByteOrderMark)字节序标志。
29、UTF8没有字节序的区分,不需要BOM来表明字节序,但可以用BOM来表明编码方式。
30、记事本可以读取无BOM的UTF8编码,但写入UTF8编码时,总是带上BOM。
31、乱码可以分成两种,一种是文本本身不是乱码,但是读取时选择了错误的编码,导致显示出来的是乱码,这种情况重新选择正确的编码读取就恢复正常了;另一种是文本本身经过不当处理,已经是乱码了,这种情况,乱码已经被保存,正确的文字已经丢失,无法恢复。
32、始终使用Unicode保存文本。UTF8,UTF16都是比较常用的编码。
如果你还想了解更多这方面的信息,记得收藏关注本站。
本文由欣欣吧手游攻略栏目发布,感谢您对欣欣吧的认可,以及对我们原创作品以及文章的青睐,非常欢迎各位朋友分享到个人站长或者朋友圈,但转载请说明文章出处“日文中字乱码一二三区别在哪?理解文本编码”