VB.net 2010 视频教程 VB.net 2010 视频教程 python基础视频教程
SQL Server 2008 视频教程 c#入门经典教程 Visual Basic从门到精通视频教程
当前位置:
首页 > Python基础教程 >
  • C#教程之如何检测或判断一个文件或字节流(无

前言:

昨天,在文章:终于等到你:CYQ.Data V5系列 (ORM数据层,支持.NET Core)最新版本开源了 中,

不小心看到一条留言:

然后就去该地址看了一下,这一看,顺带折腾了一天。

今天,就和大伙分享下折腾的感觉。

在该开源地址中,代码有C++和C#两个版本,编码的整体风格倾向与于C++。

主要的时间,花了在对于检测无BOM的部分,顺带重温了各种编码的基础。

建议在看此文之前,先了解下编码、和BOM的概念。

有BOM的编码检测

对于一个文件,或者字节流,就是一堆二进制:

如果传输的过程,有指定BOM,就是前面两三个字节是固定的255,254之类的,那么解码起来就很简单了。

像之前IOHelper内部读文件的代码是这么写的:

复制代码
 /// <summary>
        /// 先自动识别UTF8,否则归到Default编码读取
        /// </summary>
        /// <returns></returns>
        public static string ReadAllText(string fileName)
        {
            return ReadAllText(fileName, DefaultEncoding);
        }
        public static string ReadAllText(string fileName, Encoding encoding)
        {
            try
            {
                if (!File.Exists(fileName))
                {
                    return string.Empty;
                }
                Byte[] buff = null;
                lock (GetLockObj(fileName.Length))
                {
                    if (!File.Exists(fileName))//多线程情况处理
                    {
                        return string.Empty;
                    }
                    buff = File.ReadAllBytes(fileName);
                }
                if (buff.Length == 0) { return ""; }
                if (buff[0] == 239 && buff[1] == 187 && buff[2] == 191)
                {
                    return Encoding.UTF8.GetString(buff, 3, buff.Length - 3);
                }
                else if (buff[0] == 255 && buff[1] == 254)
                {
                    return Encoding.Unicode.GetString(buff, 2, buff.Length - 2);
                }
                else if (buff[0] == 254 && buff[1] == 255)
                {
                    if (buff.Length > 3 && buff[2] == 0 && buff[3] == 0)
                    {
                        return Encoding.UTF32.GetString(buff, 4, buff.Length - 4);
                    }
                    return Encoding.BigEndianUnicode.GetString(buff, 2, buff.Length - 2);
                }
                return encoding.GetString(buff);
            }
            catch (Exception err)
            {
                Log.WriteLogToTxt(err);
            }
            return string.Empty;
        }
复制代码

代码说白了,就是检测BOM头,然后识别编码,用对应的编码解码。

测试的结果:

中文都能正确显示。

windows下文本的另存为只有:ANSI、UTF8、Unicode(UTF16LE)、BigEndianUnicode(UTF16BE)。

这四种有BOM的都是轻松检测了。

 那如果文件或字节没有BOM头呢?如果用默认的编码,由有一定概率会乱码。

无BOM的编码检测

如果一堆字节流,没有指定BOM,就要分析出编码类型,还是挺有难度的。

这需要对各种编码的规则有一定的熟悉度。

先看看网友给出的Github上的 原始源码:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
public Encoding DetectEncoding(byte[] buffer, int size)
        {
            // First check if we have a BOM and return that if so
            Encoding encoding = CheckBom(buffer, size);
            if (encoding != Encoding.None)
            {
                return encoding;
            }
 
            // Now check for valid UTF8
            encoding = CheckUtf8(buffer, size);
            if (encoding != Encoding.None)
            {
                return encoding;
            }
 
            // Now try UTF16
            encoding = CheckUtf16NewlineChars(buffer, size);
            if (encoding != Encoding.None)
            {
                return encoding;
            }
 
            encoding = CheckUtf16Ascii(buffer, size);
            if (encoding != Encoding.None)
            {
                return encoding;
            }
 
            // ANSI or None (binary) then
            if (!DoesContainNulls(buffer, size))
            {
                return Encoding.Ansi;
            }
 
            // Found a null, return based on the preference in null_suggests_binary_
            return _nullSuggestsBinary ? Encoding.None : Encoding.Ansi;
        }