gbk字库

时间：2024-03-31 08:17:09编辑：奇事君

编码GBK的不可映射字符.

　　一般做项目公司都会统一要求文件编码类型，很多为了实现应用国际化和本地化和更高的性能，而选用UTF-8而非GBK。
　　但在开发过程中我们都用的是IDE，只要更改了配置就不用操心了，但有时=也会用命令行来编译java文件，这种时候就会出现warning：编码 GBK 的不可映射字符。解决这个问题当然是指定在编译时的编码格式。

　　方法:
　　加参数-encoding UTF-8
　　例如：javac -encodig UTF-8 HelloWorld.java
　　
　　UTF-8简介：
　　是 UNICODE 的一种变长字符编码，即 RFC 3629。这种大字符集可以解决多种语言文本显示问题，从而实现应用国际化和本地化。UTF-8 编码可以通过屏蔽位和移位操作快速读写，排序更加容易。由于UTF-8 是字节顺序无关的，它的字节顺序在所有系统中都是一样的。因此 UTF-8 具有更高的性能。

怎么处理警告：编码 GBK 的不可映射字符

输入javac -encoding utf-8 文件名.java。就可以解决了。当Java源代码中包含中文字符时，我们在用javac编译时会出现“错误：编码GBK的不可映射字符”。由于JDK是国际版的，我们在用javac编译时，编译程序首先会获得我们操作系统默认采用的编码格式（GBK），然后JDK就把Java源文件从GBK编码格式转换为Java内部默认的Unicode格式放入内存中，然后javac把转换后的Unicode格式的文件编译成class类文件。此时，class文件是Unicode编码的，它暂存在内存中，紧接着，JDK将此以Unicode格式编码的class文件保存到操作系统中形成我们见到的class文件。当我们不加设置就编译时，相当于使用了参数：javac -encoding GBK Test.java，就会出现不兼容的情况。拓展资料：javac 是java语言编程编译器。全称java compiler。javac工具读由java语言编写的类和接口的定义，并将它们编译成字节代码的class文件。javac 可以隐式编译一些没有在命令行中提及的源文件。用 -verbose 选项可跟踪自动编译。当编译源文件时，编译器常常需要它还没有识别出的类型的有关信息。对于源文件中使用、扩展或实现的每个类或接口，编译器都需要其类型信息。这包括在源文件中没有明确提及、但通过继承提供信息的类和接口。JDK（Java Development Kit）称为Java开发包或Java开发工具，是一个编写Java的Applet小程序和应用程序的程序开发环境。JDK是整个Java的核心，包括了Java运行环境（Java Runtime Envirnment），一些Java工具和Java的核心类库（Java API）。不论什么Java应用服务器实质都是内置了某个版本的JDK。主流的JDK是Sun公司发布的JDK，除了Sun之外，还有很多公司和组织都开发了自己的JDK，例如，IBM公司开发的JDK，BEA公司的Jrocket，还有GNU组织开发的JDK参考资料：百度百科-javac常见错误

字体里面GB和GBK有什么区别？

1、全称不一样。GB字体全称GB2312或GB2312-80，是一个简体中文字符集的中国国家标准，全称为《信息交换用汉字编码字符集--基本集》，由中国国家标准总局发布，1981年5月1日实施。GBK全名为汉字内码扩展规范，英文名Chinese Internal Code Specification。K 即是“扩展”所对应的汉语拼音（KuoZhan）中“扩”字的声母。2、收录的汉字规模不同。GB2312标准共收录6763个汉字， GB2312中对所收汉字进行了“分区”处理，每区含有94个汉字/符号。这种表示方式也称为区位码。GBK汉字国标扩展码，基本上采用了原来GB2312-80所有的汉字及码位，并涵盖了原Unicode中所有的汉字20902，总共收录了883个符号， 21003个汉字及提供了1894个造字码位。3、可输出格式不同。GB可以输出简体中文，GBK则可以输出简/繁体中文。如部分于GB2312-80推出后才简化的汉字（如“啰”），部分人名用字（如中国前总理朱镕基的“镕”字），台湾及香港使用的繁体字，日语及朝鲜语汉字等，GB字库并未有收录在内，而拓展后的GBK字库则可以输出。

有些中文字体名字后面带“-GBK”是什么意思？

GBK全称《汉字内码扩展规范》（GBK即“国标”、“扩展”汉语拼音的第一个字母，英文名称：Chinese Internal Code Specification），中华人民共和国全国信息技术标准化技术委员会1995年12月1日制订，国家技术监督局标准化司、电子工业部科技与质量监督司1995年12月15日联合以技监标函1995 229号文件的形式，将它确定为技术规范指导性文件。这一版的GBK规范为1.0版。

我们经常使用各种编码标准的汉字，编码到底是什么呢？所谓编码，是以固定的顺序排列字符，并以此做为记录、存贮、传递、交换的统一内部特征，这个字符排列顺序被称为“编码”。和中文字库有关的编码标准有：国标GB码、GBK码、港台BIG-5码等，不同编码的汉字字库都与汉字的应用有密切关系。
很多人在使用过程中，发现字不够用，因为目前大家使用的主要是GB编码字库，此编码标准只收录了6763个常用汉字，而GB字库以外大量汉字，只能通过方正女娲补字软件拼字或其它造字程序补字。尽管补出的汉字在字形上满足需要，但在字体风格、大小、结构方面难以协调统一，而采用手工贴图的方式补字，更不雅观。进而言之，如果用户建立信息系统，或需要查询新闻、出版内容时，靠补字是无法实现的。方正开发的GBK字库，将极大地缓解缺字现象。
从GB字库扩充到GBK字库，增加了1万4千多字。北大方正从1996年投入大量人力，开始做黑、宋、仿、楷GBK字库，并于1998年4月成为第一家通过国家权威部门组织的GBK字库鉴定的专业厂商。到现在为止，北大方正已将全部字体转换成GBK字库，共46款，其中18款字数达21003个，是拥有GBK字库款数最多的厂商。

GBK字库的相关概念

GBK 规范收录了 ISO 10646.1 中的全部 CJK 汉字和符号，并有所补充。具体包括：1. GB 2312 中的全部汉字、非汉字符号。2. GB 13000.1 中的其他 CJK 汉字。以上合计 20902 个 GB 化汉字。3. 《简化字总表》中未收入 GB 13000.1 的 52 个汉字。4. 《康熙字典》及《辞海》中未收入 GB 13000.1 的 28 个部首及重要构件。5. 13 个汉字结构符。6. BIG-5 中未被 GB 2312 收入、但存在于 GB 13000.1 中的 139 个图形符号。7. GB 12345 增补的 6 个拼音符号。8. 汉字“○”。9. GB 12345 增补的 19 个竖排标点符号（GB 12345 较 GB 2312 增补竖排标点符号 29 个，其中 10 个未被 GB 13000.1 收入，故 GBK 亦不收）。10. 从 GB 13000.1 的 CJK 兼容区挑选出的 21 个汉字。11. GB 13000.1 收入的 31 个 IBM OS/2 专用符号。12.未录入《新华字典》上的一些字，如“韡”的简体。 GBK 亦采用双字节表示，总体编码范围为 8140-FEFE，首字节在 81-FE 之间，尾字节在 40-FE 之间，剔除 xx7F 一条线。总计 23940 个码位，共收入 21886 个汉字和图形符号，其中汉字（包括部首和构件）21003 个，图形符号 883 个。全部编码分为三大部分：1. 汉字区。包括：a. GB 2312 汉字区。即 GBK/2: B0A1-F7FE。收录 GB 2312 汉字 6763 个，按原顺序排列。b. GB 13000.1 扩充汉字区。包括：(1) GBK/3: 8140-A0FE。收录 GB 13000.1 中的 CJK 汉字 6080 个。(2) GBK/4: AA40-FEA0。收录 CJK 汉字和增补的汉字 8160 个。CJK 汉字在前，按 UCS 代码大小排列；增补的汉字（包括部首和构件）在后，按《康熙字典》的页码/字位排列。2. 图形符号区。包括：a. GB 2312 非汉字符号区。即 GBK/1: A1A1-A9FE。其中除 GB 2312 的符号外，还有 10 个小写罗马数字和 GB 12345 增补的符号。计符号 717 个。b. GB 13000.1 扩充非汉字区。即 GBK/5: A840-A9A0。BIG-5 非汉字符号、结构符和“○”排列在此区。计符号 166 个。3. 用户自定义区：分为(1)(2)(3)三个小区。(1) AAA1-AFFE，码位 564 个。(2) F8A1-FEFE，码位 658 个。(3) A140-A7A0，码位 672 个。第(3)区尽管对用户开放，但限制使用，因为不排除未来在此区域增补新字符的可能性。 GBK 对字形作了如下的规定：1. 原则上与 GB 13000.1 G列（即源自中国大陆法定标准的汉字）下的字形/笔形保持一致。2. 在 CJK 汉字认同规则的总框架内，对所有的 GBK 编码汉字实施“无重码正形”（“GB 化”）；即在不造成重码的前提下，尽量采用中国新字形。3. 对于超出 CJK 汉字认同规则的、或认同规则尚未明确规定的汉字，在 GBK 码位上暂安放旧字形。这样，在许多情况下 GBK 收入了同一汉字的新旧两种字形。4. 非汉字符号的字形，凡 GB 2312 已经包括的，与 GB 2312 保持一致；超出 GB 2312 的部分，与 GB 13000.1 保持一致。5. 带声调的拼音字母取半角形式。

GBK字库的知识链接

我们经常使用各种编码标准的汉字，编码到底是什么呢？所谓编码，是以固定的顺序排列字符，并以此做为记录、存贮、传递、交换的统一内部特征，这个字符排列顺序被称为“编码”。和中文字库有关的编码标准有：国标GB码、GBK码、港台BIG-5码等，不同编码的汉字字库都与汉字的应用有密切关系。很多人在使用过程中，发现字不够用，因为目前大家使用的主要是GB编码字库，此编码标准只收录了6763个常用汉字，而GB字库以外大量汉字，只能通过方正女娲补字软件拼字或其它造字程序补字。尽管补出的汉字在字形上满足需要，但在字体风格、大小、结构方面难以协调统一，而采用手工贴图的方式补字，更不雅观。进而言之，如果用户建立信息系统，或需要查询新闻、出版内容时，靠补字是无法实现的。方正开发的GBK字库，将极大地缓解缺字现象。从GB字库扩充到GBK字库，增加了1万4千多字。北大方正从1996年投入大量人力，开始做黑、宋、仿、楷GBK字库，并于1998年4月成为第一家通过国家权威部门组织的GBK字库鉴定的专业厂商。到现在为止，北大方正已将全部字体转换成GBK字库，共46款，其中18款字数达21003个，是拥有GBK字库款数最多的厂商。ISO 10646 是一个包括世界上各种语言的书面形式以及附加符号的编码体系。其中的汉字部分称为“CJK 统一汉字”（C 指中国，J 指日本，K 指朝鲜）。而其中的中国部分，包括了源自中国大陆的 GB 2312、GB 12345、《现代汉语通用字表》等法定标准的汉字和符号，以及源自台湾的 CNS 11643 标准中第 1、2 字面（基本等同于 BIG-5 编码）、第 14 字面的汉字和符号。

上一篇：黎曼函数

下一篇：填土