可能经常有些不是固定字符集的文本文件需要处理,或者接收一些不固定字符集的请求,可能是 GBK 也可能是 UTF8,这时候就可能需要实时判断一下文本的字符集了。
精简后的代码如下:
public static String getCharset(byte[] bytes) {
if(bytes == null || bytes.length < 2) return "GBK";
if(bytes[0] == (byte)0xFF && bytes[1] == (byte)0xFE) {
return "UTF-16LE";
} else if (bytes[0] == (byte)0xFE && bytes[1] == (byte)0xFF) {
return "UTF-16BE";
} else if (bytes[0] == (byte)0xEF && bytes[1] == (byte)0xBB && bytes[2] == (byte)0xBF) {
return "UTF-8";
}
for(int i = 0, b = bytes[i] & 0xff; i < bytes.length; i ++) {
b = bytes[i] & 0xff;
if(b >= 0xF0) return "GBK";
if(0x80 <= b && b <=0xBF) return "GBK";//单独出现BF以下的,也算是GBK
if(0xC0 <= b && b <= 0xDF) {
i ++; b = bytes[i] & 0xff;
if(0x80 <= b && b <= 0xBF) {
continue;//双字节 (0xC0 - 0xDF) (0x80- 0xBF),也可能在GBK编码内
} else {
return "GBK";
}
} else if (0xE0 <= b && b <= 0xEF) {// 也有可能出错,但是几率较小
i ++; b = bytes[i] & 0xff;
if(0x80 <= b && b <= 0xBF) {
i ++; b = bytes[i] & 0xff;
if(0x80 <= b && b <= 0xBF) {
return "UTF-8";
}
}
return "GBK";
}
}
return "GBK";
}