分类: Java工具开发

JAVA 实时检测二进制流字符集

可能经常有些不是固定字符集的文本文件需要处理,或者接收一些不固定字符集的请求,可能是 GBK 也可能是 UTF8,这时候就可能需要实时判断一下文本的字符集了。

精简后的代码如下:

public static String getCharset(byte[] bytes) {

    if(bytes == null || bytes.length < 2) return "GBK";
    if(bytes[0] == (byte)0xFF && bytes[1] == (byte)0xFE) {
        return "UTF-16LE";
    } else if (bytes[0] == (byte)0xFE && bytes[1] == (byte)0xFF) {
        return "UTF-16BE";
    } else if (bytes[0] == (byte)0xEF && bytes[1] == (byte)0xBB && bytes[2] == (byte)0xBF) {
        return "UTF-8";
    }

    for(int i = 0, b = bytes[i] & 0xff; i < bytes.length; i ++) {

        b = bytes[i] & 0xff;
        if(b >= 0xF0) return "GBK";
        if(0x80 <= b && b <=0xBF) return "GBK";//单独出现BF以下的,也算是GBK
        if(0xC0 <= b && b <= 0xDF) {
            i ++; b = bytes[i] & 0xff;
            if(0x80 <= b && b <= 0xBF) {
                continue;//双字节 (0xC0 - 0xDF) (0x80- 0xBF),也可能在GBK编码内
            } else {
                return "GBK";
            }
        } else if (0xE0 <= b && b <= 0xEF) {// 也有可能出错,但是几率较小
            i ++; b = bytes[i] & 0xff;
            if(0x80 <= b && b <= 0xBF) {
                i ++; b = bytes[i] & 0xff;
                if(0x80 <= b && b <= 0xBF) {
                    return "UTF-8";
                }
            }
            return "GBK";
        }
    }
    return "GBK";
}

Recent Posts

Docker 容器非 root 用户监听 80 端口

起因是基于 CentOS 的 …

2 年 之前

基于 Docker 定时打印文件

先说背景,喷墨打印机有个很大的…

3 年 之前

Java 运行时反射获取来自继承的泛型

背景 正常情况下 Java 的…

3 年 之前

Java 基于 ByteBuddy 重写系统当前时间

背景 一般单元测试时总会有些代…

3 年 之前

华硕 B450F-Gaming 主板 I211-AT 网卡驱动安装

事情起因是买了块华硕的 ROG…

3 年 之前

PHP 安装 Memcached 扩展

登录服务器挨步执行: # su…

4 年 之前