编码技术

编码技术

Cookie/Session机制是什么样的?

回复

常识zkbhj 回复了问题 • 1 人关注 • 1 个回复 • 2556 次浏览 • 2016-12-19 17:55 • 来自相关话题

中文在unicode中的编码范围

常识zkbhj 发表了文章 • 0 个评论 • 1756 次浏览 • 2016-11-16 11:46 • 来自相关话题

对于这次研究的unicode把编码分为以下几个平面(英文中是plane,可以认为就是不同的区位)。Unicode可以逻辑分为17平面(Plane),每个平面拥有65536( = 216)个代码点,虽然目前只有少数平面被使用。
 
平面0 (0000–FFFF): 基本多文种平面(Basic Multilingual Plane, BMP).平面1 (10000–1FFFF): 多文种补充平面(Supplementary Multilingual Plane, SMP).平面2 (20000–2FFFF): 表意文字补充平面(Supplementary Ideographic Plane, SIP).平面3 (30000–3FFFF): 表意文字第三平面(Tertiary Ideographic Plane, TIP).平面4 to 13 (40000–DFFFF)尚未使用平面14 (E0000–EFFFF): 特别用途补充平面(Supplementary Special-purpose Plane, SSP)平面15 (F0000–FFFFF)保留作为私人使用区(Private Use Area, PUA)平面16 (100000–10FFFF),保留作为私人使用区(Private Use Area, PUA)

最有用的当然就是BMP平面0了编码从U+0000至U+FFFF。那里包含了几乎全部的常用字符。
为鉴于Unicode原有的16位空间不足以应用,于是从Unicode 3.1版本开始,设立了16个扩展字码空间,称为辅助平面,使 Unicode 的可使用空间由6万多字增至约100万字。辅助平面字符要用上4字节来存储。
 
最后小结下:

1、现在网上大多数用于判断中文字符的是 U+4E00..U+9FA5 这个范围是只是“中日韩统一表意文字”这个区间,但这不是全部,如果要全部包含,则还要他们的扩展集、部首、象形字、注间字母等等;

2E80-A4CF 加上 F900-FAFF 加上 FE30-FE4F

其中
2E80-A4CF
包含了中日朝部首补充、康熙部首、表意文字描述符、中日朝符号和标点、日文平假名、日文片假名、注音字母、谚文兼容字母、象形字注释标志、注音字母扩展、中 日朝笔画、日文片假名语音扩展、带圈中日朝字母和月份、中日朝兼容、中日朝统一表意文字扩展A、易经六十四卦符号、中日韩统一表意文字、彝文音节、彝文字根。

F900-FAFF
中日朝兼容表意文字

FE30-FE4F
中日朝兼容形式

所以,一般用4E00-9FA5已经可以,如果要更广,则用2E80-A4CF  ||   F900-FAFF || FE30-FE4F

2、全角ASCII、全角中英文标点、半宽片假名、半宽平假名、半宽韩文字母:FF00-FFEF

3、不要太关心简繁中文的区别,如果要明确非要简体中文可参考unicode中简体中文编码 查看全部
对于这次研究的unicode把编码分为以下几个平面(英文中是plane,可以认为就是不同的区位)。Unicode可以逻辑分为17平面(Plane),每个平面拥有65536( = 216)个代码点,虽然目前只有少数平面被使用。
 
  • 平面0 (0000–FFFF): 基本多文种平面(Basic Multilingual Plane, BMP).
  • 平面1 (10000–1FFFF): 多文种补充平面(Supplementary Multilingual Plane, SMP).
  • 平面2 (20000–2FFFF): 表意文字补充平面(Supplementary Ideographic Plane, SIP).
  • 平面3 (30000–3FFFF): 表意文字第三平面(Tertiary Ideographic Plane, TIP).
  • 平面4 to 13 (40000–DFFFF)尚未使用
  • 平面14 (E0000–EFFFF): 特别用途补充平面(Supplementary Special-purpose Plane, SSP)
  • 平面15 (F0000–FFFFF)保留作为私人使用区(Private Use Area, PUA)
  • 平面16 (100000–10FFFF),保留作为私人使用区(Private Use Area, PUA)


最有用的当然就是BMP平面0了编码从U+0000至U+FFFF。那里包含了几乎全部的常用字符。
为鉴于Unicode原有的16位空间不足以应用,于是从Unicode 3.1版本开始,设立了16个扩展字码空间,称为辅助平面,使 Unicode 的可使用空间由6万多字增至约100万字。辅助平面字符要用上4字节来存储。
 
最后小结下:


1、现在网上大多数用于判断中文字符的是 U+4E00..U+9FA5 这个范围是只是“中日韩统一表意文字”这个区间,但这不是全部,如果要全部包含,则还要他们的扩展集、部首、象形字、注间字母等等;

2E80-A4CF 加上 F900-FAFF 加上 FE30-FE4F

其中
2E80-A4CF
包含了中日朝部首补充、康熙部首、表意文字描述符、中日朝符号和标点、日文平假名、日文片假名、注音字母、谚文兼容字母、象形字注释标志、注音字母扩展、中 日朝笔画、日文片假名语音扩展、带圈中日朝字母和月份、中日朝兼容、中日朝统一表意文字扩展A、易经六十四卦符号、中日韩统一表意文字、彝文音节、彝文字根。

F900-FAFF
中日朝兼容表意文字

FE30-FE4F
中日朝兼容形式

所以,一般用4E00-9FA5已经可以,如果要更广,则用2E80-A4CF  ||   F900-FAFF || FE30-FE4F

2、全角ASCII、全角中英文标点、半宽片假名、半宽平假名、半宽韩文字母:FF00-FFEF

3、不要太关心简繁中文的区别,如果要明确非要简体中文可参考unicode中简体中文编码


Cookie/Session机制是什么样的?

回复

常识zkbhj 回复了问题 • 1 人关注 • 1 个回复 • 2556 次浏览 • 2016-12-19 17:55 • 来自相关话题

中文在unicode中的编码范围

常识zkbhj 发表了文章 • 0 个评论 • 1756 次浏览 • 2016-11-16 11:46 • 来自相关话题

对于这次研究的unicode把编码分为以下几个平面(英文中是plane,可以认为就是不同的区位)。Unicode可以逻辑分为17平面(Plane),每个平面拥有65536( = 216)个代码点,虽然目前只有少数平面被使用。
 
平面0 (0000–FFFF): 基本多文种平面(Basic Multilingual Plane, BMP).平面1 (10000–1FFFF): 多文种补充平面(Supplementary Multilingual Plane, SMP).平面2 (20000–2FFFF): 表意文字补充平面(Supplementary Ideographic Plane, SIP).平面3 (30000–3FFFF): 表意文字第三平面(Tertiary Ideographic Plane, TIP).平面4 to 13 (40000–DFFFF)尚未使用平面14 (E0000–EFFFF): 特别用途补充平面(Supplementary Special-purpose Plane, SSP)平面15 (F0000–FFFFF)保留作为私人使用区(Private Use Area, PUA)平面16 (100000–10FFFF),保留作为私人使用区(Private Use Area, PUA)

最有用的当然就是BMP平面0了编码从U+0000至U+FFFF。那里包含了几乎全部的常用字符。
为鉴于Unicode原有的16位空间不足以应用,于是从Unicode 3.1版本开始,设立了16个扩展字码空间,称为辅助平面,使 Unicode 的可使用空间由6万多字增至约100万字。辅助平面字符要用上4字节来存储。
 
最后小结下:

1、现在网上大多数用于判断中文字符的是 U+4E00..U+9FA5 这个范围是只是“中日韩统一表意文字”这个区间,但这不是全部,如果要全部包含,则还要他们的扩展集、部首、象形字、注间字母等等;

2E80-A4CF 加上 F900-FAFF 加上 FE30-FE4F

其中
2E80-A4CF
包含了中日朝部首补充、康熙部首、表意文字描述符、中日朝符号和标点、日文平假名、日文片假名、注音字母、谚文兼容字母、象形字注释标志、注音字母扩展、中 日朝笔画、日文片假名语音扩展、带圈中日朝字母和月份、中日朝兼容、中日朝统一表意文字扩展A、易经六十四卦符号、中日韩统一表意文字、彝文音节、彝文字根。

F900-FAFF
中日朝兼容表意文字

FE30-FE4F
中日朝兼容形式

所以,一般用4E00-9FA5已经可以,如果要更广,则用2E80-A4CF  ||   F900-FAFF || FE30-FE4F

2、全角ASCII、全角中英文标点、半宽片假名、半宽平假名、半宽韩文字母:FF00-FFEF

3、不要太关心简繁中文的区别,如果要明确非要简体中文可参考unicode中简体中文编码 查看全部
对于这次研究的unicode把编码分为以下几个平面(英文中是plane,可以认为就是不同的区位)。Unicode可以逻辑分为17平面(Plane),每个平面拥有65536( = 216)个代码点,虽然目前只有少数平面被使用。
 
  • 平面0 (0000–FFFF): 基本多文种平面(Basic Multilingual Plane, BMP).
  • 平面1 (10000–1FFFF): 多文种补充平面(Supplementary Multilingual Plane, SMP).
  • 平面2 (20000–2FFFF): 表意文字补充平面(Supplementary Ideographic Plane, SIP).
  • 平面3 (30000–3FFFF): 表意文字第三平面(Tertiary Ideographic Plane, TIP).
  • 平面4 to 13 (40000–DFFFF)尚未使用
  • 平面14 (E0000–EFFFF): 特别用途补充平面(Supplementary Special-purpose Plane, SSP)
  • 平面15 (F0000–FFFFF)保留作为私人使用区(Private Use Area, PUA)
  • 平面16 (100000–10FFFF),保留作为私人使用区(Private Use Area, PUA)


最有用的当然就是BMP平面0了编码从U+0000至U+FFFF。那里包含了几乎全部的常用字符。
为鉴于Unicode原有的16位空间不足以应用,于是从Unicode 3.1版本开始,设立了16个扩展字码空间,称为辅助平面,使 Unicode 的可使用空间由6万多字增至约100万字。辅助平面字符要用上4字节来存储。
 
最后小结下:


1、现在网上大多数用于判断中文字符的是 U+4E00..U+9FA5 这个范围是只是“中日韩统一表意文字”这个区间,但这不是全部,如果要全部包含,则还要他们的扩展集、部首、象形字、注间字母等等;

2E80-A4CF 加上 F900-FAFF 加上 FE30-FE4F

其中
2E80-A4CF
包含了中日朝部首补充、康熙部首、表意文字描述符、中日朝符号和标点、日文平假名、日文片假名、注音字母、谚文兼容字母、象形字注释标志、注音字母扩展、中 日朝笔画、日文片假名语音扩展、带圈中日朝字母和月份、中日朝兼容、中日朝统一表意文字扩展A、易经六十四卦符号、中日韩统一表意文字、彝文音节、彝文字根。

F900-FAFF
中日朝兼容表意文字

FE30-FE4F
中日朝兼容形式

所以,一般用4E00-9FA5已经可以,如果要更广,则用2E80-A4CF  ||   F900-FAFF || FE30-FE4F

2、全角ASCII、全角中英文标点、半宽片假名、半宽平假名、半宽韩文字母:FF00-FFEF

3、不要太关心简繁中文的区别,如果要明确非要简体中文可参考unicode中简体中文编码