WonderCSS

简单了解 GBK 和 UTF8 两种编码的区别

无论是 dedecms 还是 Discuz! 或其他网站程序在下载的时候都会面临一个编码的选择:GBK or UTF-8 ?那么我们先来了解下他们都从何而来:

GBK 编码是中国大陆制订的、等同于UCS的新的中文编码扩展国家标准。GBK 的文字编码是双字节来表示的,即不论中、英文字符均使用双字节来表示,只不过为区分中文,将其最高位都定成1。GBK包括所有的汉字,包括简体和繁体(GB2312 只包括简体汉字)。

UTF-8 编码则是用以解决国际上字符的一种多字节编码,它对英文使用8位(即一个字节),中文使用24位(三个字节)来编码。对于英文字符较多的论坛则用UTF-8节省空间。

那么 GBK 和 UTF8 如何选择?

简单的说 GBK 就是中文字符集,在装有中文 GBK 编码电脑上能正常显示中文,而如果在国外非中文操作系统的电脑上则会显示成为乱码,所以 GBK 主要针对国内网站使用。

而 UTF-8 则是国际标准,如果在国外非中文操作系统上,也可以正确的显示中文。所以如果要做的网站如果用户群中包括非中文地区,那么 UTF-8 必须首选。

除了网站要面对的用户群外,还有就是数据库大小的问题,由于GBK用双字节来表示,而UTF8的中文要使用三字节来表示,所以 UTF-8 的数据库会比GBK的要大。

如果还是不太明白无法选择,那么就选 UTF-8 没错,首先他是国际化标准编码,没有地域差的问题。相对 GBK 而言就算他的数据库要大些,但硬件是很好扩展的,不过多花些银子而已。还有一个主要原因,那么就是很多插件或开源程序几乎都是以 UTF-8 为基准的,如果使用 GBK 的话还涉及到转码等麻烦问题。所以在不明所以的情况下 UTF-8 是最保险的选择。

By 于湛 发布于 2013.03.11 2,248 次浏览

发表评论

电子邮件地址不会被公开。 必填项已用*标注