前言：

昨天，在文章：终于等到你：CYQ.Data V5系列（ORM数据层，支持.NET Core）最新版本开源了中，

不小心看到一条留言：

然后就去该地址看了一下，这一看，顺带折腾了一天。

今天，就和大伙分享下折腾的感觉。

在该开源地址中，代码有C++和C#两个版本，编码的整体风格倾向与于C++。

主要的时间，花了在对于检测无BOM的部分，顺带重温了各种编码的基础。

建议在看此文之前，先了解下编码、和BOM的概念。

有BOM的编码检测

对于一个文件，或者字节流，就是一堆二进制：

如果传输的过程，有指定BOM，就是前面两三个字节是固定的255,254之类的，那么解码起来就很简单了。

像之前IOHelper内部读文件的代码是这么写的：

 /// <summary>
        /// 先自动识别UTF8，否则归到Default编码读取
        /// </summary>
        /// <returns></returns>
        public static string ReadAllText(string fileName)
        {
            return ReadAllText(fileName, DefaultEncoding);
        }
        public static string ReadAllText(string fileName, Encoding encoding)
        {
            try
            {
                if (!File.Exists(fileName))
                {
                    return string.Empty;
                }
                Byte[] buff = null;
                lock (GetLockObj(fileName.Length))
                {
                    if (!File.Exists(fileName))//多线程情况处理
                    {
                        return string.Empty;
                    }
                    buff = File.ReadAllBytes(fileName);
                }
                if (buff.Length == 0) { return ""; }
                if (buff[0] == 239 && buff[1] == 187 && buff[2] == 191)
                {
                    return Encoding.UTF8.GetString(buff, 3, buff.Length - 3);
                }
                else if (buff[0] == 255 && buff[1] == 254)
                {
                    return Encoding.Unicode.GetString(buff, 2, buff.Length - 2);
                }
                else if (buff[0] == 254 && buff[1] == 255)
                {
                    if (buff.Length > 3 && buff[2] == 0 && buff[3] == 0)
                    {
                        return Encoding.UTF32.GetString(buff, 4, buff.Length - 4);
                    }
                    return Encoding.BigEndianUnicode.GetString(buff, 2, buff.Length - 2);
                }
                return encoding.GetString(buff);
            }
            catch (Exception err)
            {
                Log.WriteLogToTxt(err);
            }
            return string.Empty;
        }

代码说白了，就是检测BOM头，然后识别编码，用对应的编码解码。

测试的结果：

中文都能正确显示。

windows下文本的另存为只有：ANSI、UTF8､Unicode(UTF16LE)、BigEndianUnicode（UTF16BE）。

这四种有BOM的都是轻松检测了。

那如果文件或字节没有BOM头呢？如果用默认的编码，由有一定概率会乱码。

无BOM的编码检测

如果一堆字节流，没有指定BOM，就要分析出编码类型，还是挺有难度的。

这需要对各种编码的规则有一定的熟悉度。

先看看网友给出的Github上的原始源码：

			
									public Encoding DetectEncoding(byte[] buffer, int size)

									        {

									            // First check if we have a BOM and return that if so

									            Encoding encoding = CheckBom(buffer, size);

									            if (encoding != Encoding.None)

									            {

									                return encoding;

									            }

									            // Now check for valid UTF8

									            encoding = CheckUtf8(buffer, size);

									            if (encoding != Encoding.None)

									            {

									                return encoding;

									            }

									            // Now try UTF16

									            encoding = CheckUtf16NewlineChars(buffer, size);

									            if (encoding != Encoding.None)

									            {

									                return encoding;

									            }

									            encoding = CheckUtf16Ascii(buffer, size);

									            if (encoding != Encoding.None)

									            {

									                return encoding;

									            }

									            // ANSI or None (binary) then

									            if (!DoesContainNulls(buffer, size))

									            {

									                return Encoding.Ansi;

									            }

									            // Found a null, return based on the preference in null_suggests_binary_

									            return _nullSuggestsBinary ? Encoding.None : Encoding.Ansi;

									        }

栏目列表

首页 > Python基础教程 >

C#教程之如何检测或判断一个文件或字节流（无

前言：

有BOM的编码检测

测试的结果：

无BOM的编码检测