非法字符： \65279 （utf-8 BOM标记）

Linux先使用grep -r $'\xEF\xBB\xBF' * |grep .php 查看文件编码，然后是用vi命令打开文件，然后在使用:set nobomb，文件编码修改完成。

以下附有BOM的简单介绍：
Unicode规范中有一个BOM的概念。BOM——Byte Order Mark，就是字节序标记。在这里找到一段关于BOM的说明：

在UCS 编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"的字符，它的编码是FEFF。而FFFE在UCS中是不存在的字符，所以不应该出现在实际传输中。UCS规范建议我们在传输字节流前，先传输字符"ZERO WIDTH NO-BREAK SPACE"。这样如果接收者收到FEFF，就表明这个字节流是Big-Endian的；如果收到FFFE，就表明这个字节流是Little-Endian的。因此字符"ZERO WIDTH NO-BREAK SPACE"又被称作BOM。

UTF-8不需要BOM来表明字节顺序，但可以用BOM来表明编码方式。字符"ZERO WIDTH NO-BREAK SPACE"的UTF-8编码是EF BB BF。所以如果接收者收到以EF BB BF开头的字节流，就知道这是UTF-8编码了。

Windows就是使用BOM来标记文本文件的编码方式的。

另外unicode网站的FAQ-BOM详细介绍了BOM。官方的自然权威，不过是英文的，看起来比较费劲。

UTF-8编码的文件中，BOM占三个字节。如果用记事本把一个文本文件另存为UTF-8编码方式的话，用UE打开这个文件，切换到十六进制编辑状态就可以看到开头的FFFE了。这是个标识UTF-8编码文件的好办法，软件通过BOM来识别这个文件是否是UTF-8编码，很多软件还要求读入的文件必须带BOM。可是，还是有很多软件不能识别BOM。我在研究Firefox的时候就知道，在Firefox早期的版本里，扩展是不能有BOM的，不过Firefox 1.5以后的版本已经开始支持BOM了。现在又发现，PHP也不支持BOM。

PHP在设计时就没有考虑BOM的问题，也就是说他不会忽略UTF-8编码的文件开头BOM的那三个字符。由于必须在<?或者<?php后面的代码才会作为PHP代码执行，所以这三个字符将会直接输出。如果遇到header(),session(),cookie()等问题，将会导致乱码或显示白屏等问题.

常见编码的BOM

UTF-8的BOM

UTF-8的BOM是三个字节：0xEF, 0xBB, 0xBF，这三个字节在UTF-8编码里是没有意义的。

UTF-8的BOM是不推荐使用的，但MS仍然在使用，因此导出UTF-8时，不加这三个字节，MS打开就会乱码。

UTF-16的BOM

UTF-16的Big endian的BOM是：0xFE, 0xFF。

UTF-16的Littal endian的BOM是： 0xFF, 0xFE。

GB18030的BOM

GB18030的BOM是：0x81，0x31，0x95，0x33。

如果你遇见过这样的问题：非法字符： \65279
今天可以帮你解决！
众所周知，在跨程序的工程中，统一编码是至关重要的，而目前最普遍的则是统一采用“utf8”编码方案。
但是在采用utf8方案的时候，请注意编辑器的自作聪明。
比如editplus。
原因就在于某些编辑器会往utf8文件中添加utf8标记（editplus称其为签名），它会在文件开始的地方插入三个不可见的字符（0xEF 0xBB 0xBF，即BOM），它的表示的是 Unicode 标记（BOM）。
因此要解决这个问题的关键就是把这个标记选项去掉。

首先用editplus打开这个文件，从Doucument菜单中选择Permanet Settings,有三个分类，分别是General, File, Tools.点击File,右边会有一项是 UTF-8 signature: 选择 always remove signature. 点击OK

中文版本的 editplus 下操作的菜单结构如下: 文档->参数设置->文件->UTF-8签名->总是移除签名->确定

这样就设置了UTF-8格式不需要在文件前面加标记。
最后把文件另存为utf-8格式就好了.

在程序中读取文件时做下判断，看是否需要去掉第一行的第一个char，代码如下：
     InputStreamReader FS = new InputStreamReader(in, "UTF-8");
     BufferedReader SR = new BufferedReader(FS); // 文件输入流为
     String strLine = SR.readLine();
     if (strLine.length()>1){
     if ((int)strLine.charAt(0)==65279){
       strLine=strLine.substring(1);
     }
   }

非法字符： \65279 （utf-八 BOM标记）

常见编码的BOM

UTF-8的BOM

UTF-16的BOM

GB18030的BOM

相关推荐