-
java如何获取一个文本文件的编码(格式)信息呢?
转自:http://www.java265.com/JavaJingYan/202110/16350332691561.html
文本文件是我们在windows平台下常用的一种文件格式,
这种格式会随着操作系统的语言不同,而出现其默认的编码不同
那么如何使用程序获取“文本文件”的编码方式呢?
文件编码的格式决定了文件可存储的字符类型,所以得到文件的类型至关重要
下文笔者讲述获取一个文本文件的格式信息的方法分享,如下所示:
实现思路:
通过获取文件流的前3个字节
判断其值的方式,即可获取文本文件的编码方式
例:
package com.java265.other; import java.io.File; import java.io.FileInputStream; import java.io.InputStream; public class Test { /* * java265.com 获取文本文件的编码方式 * **/ public static void main(String[] args) { File file = new File("E://person/java265.com/java.txt"); System.out.println(GetEncoding(file)); } public static String GetEncoding(File file) { String charset = "GBK"; byte[] first3Bytes = new byte[3]; try { boolean checked = false; InputStream is = new FileInputStream(file); int read = is.read(first3Bytes, 0, 3); if (read == -1) return charset; if (first3Bytes[0] == (byte) 0xFF && first3Bytes[1] == (byte) 0xFE) { charset = "UTF-16LE"; checked = true; } else if (first3Bytes[0] == (byte) 0xFE && first3Bytes[1] == (byte) 0xFF) { charset = "UTF-16BE"; checked = true; } else if (first3Bytes[0] == (byte) 0xEF && first3Bytes[1] == (byte) 0xBB && first3Bytes[2] == (byte) 0xBF) { charset = "UTF-8"; checked = true; }else if (first3Bytes[0] == (byte) 0xA && first3Bytes[1] == (byte) 0x5B && first3Bytes[2] == (byte) 0x30) { charset = "UTF-8"; checked = true; }else if (first3Bytes[0] == (byte) 0xD && first3Bytes[1] == (byte) 0xA && first3Bytes[2] == (byte) 0x5B) { charset = "GBK"; checked = true; }else if (first3Bytes[0] == (byte) 0x5B && first3Bytes[1] == (byte) 0x54 && first3Bytes[2] == (byte) 0x49) { charset = "windows-1251"; checked = true; } //bis.reset(); InputStream istmp = new FileInputStream(file); if (!checked) { int loc = 0; while ((read = istmp.read()) != -1) { loc++; if (read >= 0xF0) break; if (0x80 <= read && read <= 0xBF) break; if (0xC0 <= read && read <= 0xDF) { read = istmp.read(); if (0x80 <= read && read <= 0xBF) continue; else break; } else if (0xE0 <= read && read <= 0xEF) { read = istmp.read(); if (0x80 <= read && read <= 0xBF) { read = istmp.read(); if (0x80 <= read && read <= 0xBF) { charset = "UTF-8"; break; } else break; } else break; } } } is.close(); istmp.close(); } catch (Exception e) { e.printStackTrace(); } return charset; } }
最新更新
带有参数的装饰器
类装饰器
django中的auth模块与admin后台管理
python的日期处理
字符串常用方法
基本数据类型概述
python-map()函数基本用法
python带你实现任意下载AcFun视频数据~
bbs项目之注册功能
变量的定义和使用
三大常用数据库事务详解之三:事务运行
三大常用关系型数据库事务详解之二:基
三大关系型数据库事务详解之一:基本概
MongoDB常用命令(2)
MongoDB基本介绍与安装(1)
SQLServer触发器调用JavaWeb接口
SQL Server索引的原理深入解析
SqlServer2016模糊匹配的三种方式及效率问题
SQL中Truncate的用法
sqlserver 多表关联时在where语句中慎用tri
VB.NET中如何快速访问注册表
ASP.NET中图象处理过程详解
Vue(1)Vue安装与使用
JavaScript 语言入门
js将一段字符串的首字母转成大写
纯原生html编写的h5视频播放器
H5仿原生app短信验证码vue2.0组件附源码地
TypeScript(4)接口
TypeScript(3)基础类型
TypeScript(2)WebStorm自动编译TypeScript配置