注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

Code@Pig Home

喜欢背着一袋Code傻笑的Pig .. 忧美.欢笑.记忆.忘却 .之. 角落

 
 
 

日志

 
 

[www] Unicode ... blab . blab ..  

2009-01-23 16:18:11|  分类: web |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

看了下 Unicode 相关的介绍,发现这篇文字实在不错,深入浅出介绍了 Unicode 相关的各种内容。

http://tech.idv2.com/2008/02/21/unicode-intro/

 

======== 下面是自己记录的一些笔记(杂乱无章) =======

ASCII 用 7-bit 对字符(character)进行编码;而 unicode 用 16-bit,这样可以使大多数语言的常用字符都能通过一个 word(16-bit) 表达出来。

ASCII 原来用的 7-bit,而 8-bit 中多余的 1-bit 用作 parity-check bit。不过后来不再需要此 1-bit,那么就多出来 128 个数字,可用来表示新的字符。因此,衍生出来了好多 8-bit encoding scheme,比如:ISO 8859-1(Latin-1), ISO 8859-2, ...

除了 ISO 的 8-bit encoding scheme 外,其他业界厂商也弄了很多标准出来,比如 IBM, M$。它们发明的标准,称为 code page。

几个术语:(编码方式定义的几个阶段)
abstract character repertoire, 需要 encode 的字符集
coded character set, 编码集
    encoding space,
    code point, encoding space 上的一个空位
    code point value, 对于字符'a',encoding space 相对于'a'的空位,称为'a'的 code point value
character encoding form,
    code unit
character encoding scheme, 把 13-bit, 7-bit 这样的 encoding form 转化为 n-byte(8-bit x n) 的形式,方便计算机处理。
transfer encoding syntax, 与上面几个阶段不同,此阶段只关心如何传输 character encoding scheme 产生出来的 bytes。

举例,如果有 a, b, c, d, e, 1, 2, 3, 4, 5 一共十个字符。我们可以用两个 coded character set 对其进行编码,比如分为 [LETTER], [NUMBER] 两个 coded characer set,其中 [LETTER] 的 1-5 表示 a-e,而 [NUMBER] 的 1-5 就表示字符 1-5。

上面 ISO 8859 family 引入了欧洲的一些内容,而 ISO 2022 则引入东亚的一些文字,比如:ISO-2022-JP、ISO-2022-CN、...

What a mess, huh? So ... Unicode 到来。

Unicode
UCS-2, UCS-4 (coded character set)
UTF-8, UTF-16, UTF-32 (character encoding form)
UTF-8, UTF-16, UTF-16LE, UTF-16BE, UTF-32, UTF-32LE, UTF-32BE (encoding scheme, LE/BE little/big endian)

 

  评论这张
 
阅读(538)| 评论(0)
推荐 转载

历史上的今天

在LOFTER的更多文章

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017