JAVA 实时检测二进制流字符集

可能经常有些不是固定字符集的文本文件需要处理,或者接收一些不固定字符集的请求,可能是 GBK 也可能是 UTF8,这时候就可能需要实时判断一下文本的字符集了。

精简后的代码如下:

public static String getCharset(byte[] bytes) {

    if(bytes == null || bytes.length < 2) return "GBK";
    if(bytes[0] == (byte)0xFF && bytes[1] == (byte)0xFE) {
        return "UTF-16LE";
    } else if (bytes[0] == (byte)0xFE && bytes[1] == (byte)0xFF) {
        return "UTF-16BE";
    } else if (bytes[0] == (byte)0xEF && bytes[1] == (byte)0xBB && bytes[2] == (byte)0xBF) {
        return "UTF-8";
    }

    for(int i = 0, b = bytes[i] & 0xff; i < bytes.length; i ++) {

        b = bytes[i] & 0xff;
        if(b >= 0xF0) return "GBK";
        if(0x80 <= b && b <=0xBF) return "GBK";//单独出现BF以下的,也算是GBK
        if(0xC0 <= b && b <= 0xDF) {
            i ++; b = bytes[i] & 0xff;
            if(0x80 <= b && b <= 0xBF) {
                continue;//双字节 (0xC0 - 0xDF) (0x80- 0xBF),也可能在GBK编码内
            } else {
                return "GBK";
            }
        } else if (0xE0 <= b && b <= 0xEF) {// 也有可能出错,但是几率较小
            i ++; b = bytes[i] & 0xff;
            if(0x80 <= b && b <= 0xBF) {
                i ++; b = bytes[i] & 0xff;
                if(0x80 <= b && b <= 0xBF) {
                    return "UTF-8";
                }
            }
            return "GBK";
        }
    }
    return "GBK";
}

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注