【前言】
Python的编码格式对于初学者来说是很头疼的一件事,不过如果接触的多了,就会发现,只要在恰当的时候使用了恰好的编码,就不会出现太多的问题。
【编码介绍】
python 的编码格式2.x 和3.x是不一样的
2.x采用的默认编码格式是:ascii
3.x采用的默认编码格式是:utf-8
【编码使用说明】
我们在新建一个python文件的时候,我们会在第一行声明文件采用的编码格式,我们会添加utf-8的编码格式:
# -*- coding: UTF-8 -*-
或者
# coding:utf-8
上述两种方式是等价的。
在Python2.x中,处理中文转码时候,我们需要将默认编码格式设置成utf-8,python3.x是不需要设置的,因为系统默认编码格式已经是utf-8了
import sys reload(sys) sys.setdefaultencoding('utf-8')
Python中的转码使用encode()和decode()两个方法:
如果要将一个utf-8或者是gbk的字符串解码成unicode对象,我们需要使用decode():
str = '人生苦短,我用python' 这是一个utf-8格式的中文字符串
unicode_str = str.decode('utf-8') 这样就解码成了一个unicode的字符串
gbk_str = unicode_str.encode('gbk') 这样,将unicode编码的字符串转化成gbk格式