字符串(str、bytes)

当前位置:

首页 > temp > python入门教程 >

字符串(str、bytes)

4.3 字符串(str、bytes)

4.3.1 字符串前置知识

4.3.1.1 字符串的概念

字符串由一系列字符组成，字符(Character)是各种文字和符号的总称，包括各国家文字、标点符号、图形符号、数字等。字符串是编程语言中表示文本的数据类型。
字符串就是由一个个元素(字符)组成的。像这种由一个个元素按照顺序组成的数据，在Python语言里面，把这种特性的数据称之为 sequence，翻译成中文就是序列。关于序列，我们将在后续内容中详细介绍。

4.3.1.2 字符集

字符集是多个字符的集合，字符集种类较多，每个字符集包含的字符个数不同，常见字符集有：ASCII字符集、GB2312字符集、BIG5字符集、 GB18030字符集、Unicode字符集等。
字符集简单来说，就是一张表格，是字符和id的对应表。

4.3.1.3 字符编码、解码

因为计算机只能处理数字，如果要处理文本，就必须先把文本转换为数字才能处理。最早的计算机在设计时采用8个比特（bit，也成为位）作为一个字节（byte），所以，一个字节能表示的最大的整数就是255（二进制11111111=十进制255），如果要表示更大的整数，就必须用更多的字节。比如两个字节可以表示的最大整数是65535，4个字节可以表示的最大整数是4294967295。
计算机中储存的信息都是用二进制数表示的，而我们在屏幕上看到的英文、汉字等字符是二进制数转换之后的结果。
通俗的说，按照某种规则将字符存储在计算机中，如a用什么表示，称为编码；反之，将存储在计算机中的二进制数解析成字符显示出来，称为解码，如同密码学中的加密和解密。
在解码过程中，如果使用了错误的解码规则，则会导致目标字符被解析成其它字符或者乱码。

4.3.1.3.1 编码发展史

美国人发明了计算机，用八位0和1的组合，一一对应英文中的字符，整出了一个表格，ASCII表。也就是大名鼎鼎的ASCII字符集。
ASCII字符集主要包括控制字符(回车键、退格、换行键等)；可显示字符(英文大小写字符、阿拉伯数字和西文符号)。
计算机传入中国，中国地大物博，繁体字和简体字多，8位字节最多表示256个字符，满足不了人们的日常工作需要，于是对ASCII扩展，新字符集叫GB2312。后来发现GB2312还不够用，扩充之后形成GB18030。
每个国家都像中国一样，把自己的语言编码，于是出现了各种各样的编码，如果你不安装相应的编码，就无法正确解码查看到正确的内容。
由于各个国家的编码无法进行国际交流。一个国际组织一起创造了一种编码 UNICODE(Universal Multiple-Octet Coded Character Set)规定所有字符用两个字节表示，就是固定的，所有的字符就两个字节，计算机容易识别。
UNICODE虽然解决了各自为战的问题，但是美国人不愿意了，因为美国原来的ASCII只需要一个字节就可以了。UNICODE编码却让他们的语言多了一个字节，白白浪费一个字节的存储空间。经过协商，出现了一种新的转换格式，被称为通用转换格式，也就是UTF(unicode transformation format)。常见的有UTF-8、UTF-16。UTF-8规定，美国字符一个字节，欧洲两个字符，东南亚三个字符。

4.3.1.3.2 ASCII编码

ASCII(American Standard Code for Information Interchange，美国信息交换标准代码)是基于拉丁字母的一套电脑编码系统。它主要用于显示现代英语，而其扩展版本EASCII则可以显示其他西欧语言。它是现今最通用的单字节编码系统。
ASCII编码将ASCII字符集转换为计算机系统可以存储的数字的编码规则。使用7位(bits)表示一个字符，共128字符；但是7位编码的字符集只能支持128个字符，为了表示更多的欧洲常用字符对ASCII进行了扩展，ASCII扩展字符集使用8位(bits)表示一个字符，共256字符。

4.3.1.3.3 GBXXXX字符集和编码

GB2312标准共收录6763个汉字，GB2312对任意字符都采用双字节表示。
GBK共收入21886个汉字和图形符号，GBK对任意字符都采用双字节表示。
GB18030共收录汉字70244个，GB18030编码是一二四字节变长编码。其单字节，与 ASCII 编码兼容。
注：GBK兼容GB2312，GB18030兼容GBK。

4.3.1.3.4 Unicode字符集和编码

Unicode是国际组织制定的可以容纳世界上所有文字和符号的字符编码方案，记录着世界上所有字符对应的一个数字。
Unicode只是一个字符集，并不是一个编码方式。有2种，一种是UCS-2字符集，利用2个字节表示字符，一共可以表示65535个字符。另一种是UCS-4字符集，利用4个字节表示字符，一共可以表示近43亿个字符。每一个码位可以代表一个字符，可以不通过编码就直接显示出来。

4.3.1.3.5 UTF-8编码

UTF-8 是目前互联网上使用最广泛的一种 Unicode 编码方式，它的最大特点就是可变长。它可以使用 1 - 4 个字节表示一个字符，根据字符的不同变换长度。
UTF-8以字节为单位对Unicode进行编码。UTF-8的特点是对不同范围的字符使用不同长度的编码。对于0x00—0x7F之间的字符，UTF-8编码与 ASCII 编码完全相同。
对于需要使用 N 个字节来表示的字符(N > 1)，第一个字节的前 N 位都设为 1，第 N + 1 位设为0，剩余的 N - 1 个字节的前两位都设位 10，剩下的二进制位则使用这个字符的 Unicode 码点来填充。

4.3.1.3.6 ANSI编码

ANSI编码就是当地系统默认编码，在中国，ANSI编码默认为GBK。

4.3.1.4 Python中的编码、解码

Python3的字符串在Python内部的表示是unicode编码，因此在做编码转换时，通常需要以unicode作为中间编码，即先将其他编码的字符串解码(decode)成unicode，再从unicode编码(encode)成另一种编码。
encode的作用是将unicode编码转换成其他编码的字符串，如str.encode(gbk)，表示将unicode编码的字符串str转换成gbk编码。

	`string = '离离原上草，一岁一枯荣'.encode('gbk')`
	`print(type(string))`
	`print(string)`

<class 'bytes'> b'\xc0\xeb\xc0\xeb\xd4\xad\xc9\xcf\xb2\xdd\xa3\xac\xd2\xbb\xcb\xea\xd2\xbb\xbf\xdd\xc8\xd9'

通过chardet.detect可以对编码进行检测 >>> print(chardet.detect(string))

{'encoding': 'GB2312', 'confidence': 0.7407407407407407, 'language': 'Chinese'}

decode的作用是将其他编码的字符串转换成unicode编码，如str.decode(gbk)，表示将gbk编码的字符串str转换成unicode编码。

	`string = '离离原上草，一岁一枯荣'.encode('gbk')`
	`print(string)`
	`print(string.decode('gbk'))`

b'\xc0\xeb\xc0\xeb\xd4\xad\xc9\xcf\xb2\xdd\xa3\xac\xd2\xbb\xcb\xea\xd2\xbb\xbf\xdd\xc8\xd9' 离离原上草，一岁一枯荣

总结：想要将其他的编码转换成UTF-8必须先将其解码成unicode然后重新编码成UTF-8，它是以unicode为转换媒介的。如：s='中文' 如果是在utf8的文件中，该字符串就是utf8编码，如果是在gb2312的文件中，则其编码为gb2312。这种情况下，要进行编码转换，都需要先用 decode方法将其转换成unicode编码，再使用encode方法将其转换成其他编码。通常，在没有指定特定的编码方式时，都是使用系统默认编码创建的代码文件。

PS：为了方便理解和记忆，可以粗略的将编码理解为加密，解码理解为解密。编码(加密)之前的文本是能看懂的明文，但是编码(加密)之后就成了看不懂的密文(bytes类型)，不同的加密方式就对应不同的编码方式。只有通过对应的解码(解密)方式才能正确解密。

4.3.2 字符串的创建

4.3.2.1 通过字符串标识符创建

在Python中可以使用单引号（''）或双引号（""）来表示字符串，多行字符串可以使用三重引号 ''' 或 """ 来表示。

	`'hello，world'`
	`"祝你好运~"`
	`"""`
	`多行内容：`
	`离离原上草，一岁一枯荣。`
	`野火烧不尽，春风吹又生。`
	`远芳侵古道，晴翠接荒城。`
	`又送王孙去，萋萋满别情。`
	`"""`

注意： 1、在Python中，没有单个字符，只有字符串。单独的一个字符也是字符串。 2、Python中单引号和双引号单独使用完全相同。

4.3.2.2 字符串的拼接和重复

参见可迭代对象章节中的序列的拼接和重复

4.3.2.3 字符转义

如果我们需要定义的字符串中有引号，直接定义会报错： >>> string = 'Let's go'

Traceback (most recent call last): File "C:\Program Files\Python3102\lib\code.py", line 63, in runsource code = self.compile(source, filename, symbol) File "C:\Program Files\Python3102\lib\codeop.py", line 185, in call return _maybe_compile(self.compiler, source, filename, symbol) File "C:\Program Files\Python3102\lib\codeop.py", line 102, in _maybe_compile raise err1 File "C:\Program Files\Python3102\lib\codeop.py", line 91, in _maybe_compile code1 = compiler(source + "\n", filename, symbol) File "C:\Program Files\Python3102\lib\codeop.py", line 150, in call codeob = compile(source, filename, symbol, self.flags, True) File "", line 1 string = 'Let's go' ^ SyntaxError: unterminated string literal (detected at line 1)

这是因为定义字符串时，引号要两两配对，而在上面的字符串中出现了3个单引号，无法进行配对。这个时候我们可以用双引号进行定义字符串： >>> string = "Let's go" 在定义字符串时，单引号和双引号都可以。字符串中有单独的双引号也同理。一般的，我们在用双引号定义字符串时，字符串本身的内容中就不能包含双引号，而在用单引号定义字符串时，字符串本身的内容中就不能包含单引号。但是，如果需要定义的字符串内容中既有单引号又有双引号该怎么办呢？有2种方法可以处理这种情况： 1、采用三引号定义，三单引号或双引号都行 2、采用字符转义

4.3.2.3.2 字符转义

字符转义就是用一个特定的符号对某个字符进行转义，让这个字符代表其它的意思。在Python中用\对符号进行转义。常见转义字符如下：

转义字符	描述	显示效果
\	反斜杠符号	\
'	单引号	'
"	双引号	"
\b	退格
\n	换行
\t	制表符

如果使用转义，则上面的示例可以用'Let's go'来表示。虽然单引号包裹的内容中含有单引号。但是也不会报错，因为字符串中的单引号用\进行转义了。

4.3.2.4 字符串前缀

在Python3中，字符串的类型只有2种，分别是：str、bytes。在字符串前面可以加上前缀，产生不同的效果，比较常用的前缀有：r、u、b。 r：表示之后的字符串中的内容不进行转义，保持原样 u：表示之后的字符串为Unicode，在Python3中默认所有的字符串为此种类型。 b：表示之后的字符串为bytes类型 windows系统绝对路径会包含\符号，如果在Python中要表示windows系统的路径经常会报错，因为会将路径中的\及后面的字符当成转义符进行转义，对于日常使用非常不方便。这个时候就可以用到r前缀： >>> print('C:\new\name') # 这里的\n代表换行，与预期不符

C:\new ame

>>> print(r'C:\new\name') # 字符串中的内容原样显示

C:\some\name

这样，上面的字符串中的\n才不会当成换行符显示。而是保持原样。

4.3.3 字符串的访问

4.3.3.1 字符串索引

参见可迭代对象章节中的序列的索引

4.3.3.2 字符串切片

参见可迭代对象章节中的序列的切片

4.3.3.3 遍历字符串

参见可迭代对象章节中的可迭代对象的遍历

4.3.3.4 成员资格检查

参见可迭代对象章节中的成员资格检查

4.3.4 字符串的修改

Python 字符串不能修改，是可哈希的。因此，为字符串中某个索引位置赋值会报错： >>> string = 'Python' >>> string[0] = 'J'

Traceback (most recent call last): File "C:\Program Files\Python3102\lib\code.py", line 90, in runcode exec(code, self.locals) File "", line 1, in TypeError: 'str' object does not support item assignment

要生成不同的字符串，应新建一个字符串： >>> string = 'Python' >>> 'J' + string[1:] >>> string[:2] + 'py'

'Jython' 'Pypy'

4.3.5 字符串的删除

由于字符串是可哈希的，因此无法删除字符串中的某个元素(字符)。要删除其中的某个元素(字符)也只能通过新建字符串的方式完成。 >>> string = 'Python' >>> str2 = string[:2] + string[3:] >>> str2

'Pyhon'

4.3.6 字符串格式化

如果对字符串的输出的格式有要求，需要用到字符串的格式化。比如，在群发短信时，每次的名称不一样，但是内容是一样的，这个时候就需要用到字符串的格式化。

xx您好！这里是山东小红花集团...

4.3.6.1 `%`格式化

Python可以通过使用%占位符的方式来格式化字符串。例如： >>> 'Hello, %s' % 'world' >>> 'Hi, %s, you are %d years old.' % ('Yagami', 16)

'Hello, world' 'Hi, Yagami, you are 16 years old.'

	`stars = ("黎明", "华仔", "郭富城", "张学友")`
	`print("四大天王：%s, %s, %s, %s" % stars)`

四大天王：黎明, 华仔, 郭富城, 张学友

在字符串内部，%s表示用字符串替换，%d表示用整数替换，有几个%?占位符，后面就跟几个变量或者值，顺序要对应好。如果只有一个%?，后面变量的括号可以省略。 %格式化中常见的占位符：

占位符	替换内容
%d	整数
%f	浮点数
%s	字符串
%x	十六进制整数

其中，格式化整数和浮点数还可以指定是否补0和整数与小数的位数：

	`print('%9d-%09d' % (3, 1))`
	`print('%.6f' % 3.1415926)`

3-000000001

3.141593

如果你不太确定应该用什么，%s永远起作用，它会把任何数据类型转换为字符串： >>> 'Age: %s. Gender: %s' % (25, True)

'Age: 25. Gender: True'

关于自定义格式，将会在后面的自定义格式章节进行详细介绍。 使用%转义百分号 >>> 'growth rate: %d %%' % 7

'growth rate: 7 %'

4.3.6.2 format

format是Python2.6开始新增的一种格式化字符串的函数，它会用传入的参数依次替换字符串内的占位符{0}、{1}…… 使用方法：通过format函数中的参数来代替字符串中的{}内容。 指定位置 >>> "{} {}".format("hello", "world") # 不设置指定位置，按默认顺序 >>> "{1} {0} {1}".format("hello", "world") # 设置指定位置

'hello world' 'world hello world'

设置参数 >>> "网站名：{name}, 地址：{url}".format(name="本", url="www.ben.com")

'网站名：本, 地址：www.ben.com'

通过字典设置参数 >>> site = {"name": "本", "url": "www.ben.com"} >>> "网站名：{name}, 地址 {url}".format(**site)

'网站名：本, 地址：www.ben.com'

通过列表索引设置参数 >>> my_list = ['本', 'www.ben.com'] >>> "网站名：{0[0]}, 地址 {0[1]}".format(my_list) # "0" 是必须的

'网站名：本, 地址：www.ben.com'

使用{}转义大括号 >>> "{} 对应的位置是 {{10}}".format("ben")

ben对应的位置是 {10}

你还可以指定要转换的值是哪种类型，更准确地说，是要将其视为哪种类型。例如，你可能提供一个整数，但将其作为小数进行处理。为此可在格式说明(即冒号后面)使用字符f(表示定点数)。 >>> "π is {:.2f}".format(3.1415926)

'π is 3.14'

关于自定义格式，将会在后面的自定义格式章节进行详细介绍。

4.3.6.1 f-string

f-string，亦称为格式化字符串常量(formatted string literals)，是Python3.6新引入的一种字符串格式化方法，该方法源于PEP 498 – Literal String Interpolation，主要目的是使格式化字符串的操作更加简便。f-string在形式上是以 f 或 F 修饰符引领的字符串(f'xxx' 或 F'xxx')，以大括号 {} 标明被替换的字段；f-string在本质上并不是字符串常量，而是一个在运行时运算求值的表达式。 f-string在功能方面不逊于传统的%-formatting语句和str.format()函数，同时性能又优于二者，且使用起来也更加简洁明了，因此对于Python3.6及以后的版本，推荐使用f-string进行字符串格式化。 简单使用 f-string用大括号 {} 表示被替换字段，其中直接填入替换内容： >>> name = 'Eric' >>> f'Hello, my name is {name}'

'Hello, my name is Eric'

>>> number = 7 >>> f'My lucky number is {number}'

'My lucky number is 7'

>>> price = 19.99 >>> f'The price of this book is {price}'

'The price of this book is 19.99'

表达式求值与函数调用 f-string的大括号 {} 可以填入表达式或调用函数，Python会求出其结果并填入返回的字符串内：

>>> f'A total number of {24 * 8 + 4}'

'A total number of 196'

>>> f'Complex number {(2 + 2j) /(2 - 3j)}'

'Complex number(-0.15384615384615388+0.7692307692307692j)'

>>> name = 'ERIC' >>> f'My name is {name.lower()}'

'My name is eric'

>>> import math >>> f'The answer is {math.log(math.pi)}'

'The answer is 1.1447298858494002'

引号、大括号与反斜杠 f-string大括号内所用的引号不能和大括号外的引号定界符冲突，可根据情况灵活切换 ' 和 "：

>>> f'I am {"Eric"}'

'I am Eric'

>>> f'I am {'Eric'}'

File "<stdin>", line 1

f'I am {'Eric'}'

^

SyntaxError: invalid syntax

若 ' 和 " 不足以满足要求，还可以使用 ''' 和 """。大括号外的引号还可以使用 \ 转义，但大括号内不能使用 \ 转义：

>>> f'''He'll say {"I'm Eric"}'''

"He'll say I'm Eric"

>>> f'''He'll say {"I'm Eric"}'''

File "<stdin>", line 1

SyntaxError: f-string expression part cannot include a backslash

f-string大括号外如果需要显示大括号，则应输入连续两个大括号 {{ 和 }}： >>> f'5 {"{stars}"}' >>> f'{{5}} {"stars"}'

'5 {stars}' '{5} stars'

上面提到，f-string大括号内不能使用 \ 转义，事实上不仅如此，f-string大括号内根本就不允许出现 \。如果确实需要 \，则应首先将包含 \ 的内容用一个变量表示，再在f-string大括号内填入变量名。

4.3.6.2 自定义格式

通过对上述3种格式化字符串的方法的学习，我们可以大致的了解在格式化字符串中用到的自定义格式。这3种格式化字符串的方法中都可以用到自定义格式，方法也大同小异。下面就详细的来介绍下如何自定义格式。主要包括：对齐、宽度、符号、补零、精度、进制等

4.3.6.2.1 对齐相关

< 左对齐(字符串默认对齐方式)，&格式化使用-

右对齐(数值默认对齐方式) ，&格式化使用+ ^ 居中，适用于f-string和format

	`var1 = 'python'`
	`var2 = -3.1415`
	`print(f'\|{var1:>10}\|')`
	`print('\|{:^10}\|'.format(var2))`
	`print('\|%+10s\|' % var1)`
	`print('\|%-10s\|' % var2)`

| python| | -3.1415 | | python| |-3.1415 |

4.3.6.2.2 数字符号相关格式描述符

负数前加负号(-)，正数前加正号(+)

负数前加负号(-)，正数前不加任何符号(默认)

空格负数前加负号(-)，正数前加一个空格

注：仅适用于数值类型。

	`var1 = 3.14`
	`var2 = -4.13`
	`print(f'\|{var1:+}\|')`
	`print('\|{:-}\|'.format(var2))`
	`print('\|{: }\|'.format(var1))`
	`print('\|%+s\|' % var1)`

|+3.14| |-4.13| | 3.14| |3.14|

4.3.6.2.3 宽度与精度相关格式描述符

width 整数 width 指定宽度 0width 整数 width 指定宽度，开头的 0 指定高位用 0 补足宽度 width.precision 整数 width 指定宽度，整数 precision 指定显示精度

注意： 1、0width 不可用于复数类型和非数值类型，width.precision 不可用于整数类型。 2、width.precision 用于不同格式类型的浮点数、复数时的含义也不同：用于 f、F、e、E 和 % 时 precision 指定的是小数点后的位数，用于 g 和 G 时 precision 指定的是有效数字位数(小数点前位数+小数点后位数)。 3、width.precision 除浮点数、复数外还可用于字符串，此时 precision 含义是只使用字符串中前 precision 位字符。

	`var1 = 3.1415`
	`print(f'\|{var1:8}\|')`
	`print('\|{:8.3}\|'.format(var1))`
	`print('\|{:.4}\|'.format(var1))`
	`print('\|%10.5s\|' % var1)`

| 3.1415| | 3.14| |3.142| | 3.141|

4.3.6.2.4 千位分隔符相关格式描述符

, 使用,作为千位分隔符 _ 使用_作为千位分隔符注意： 1、若不指定 , 或 ，则f-string不使用任何千位分隔符，此为默认设置。 2、仅适用于浮点数、复数与十进制整数：对于浮点数和复数，, 只分隔小数点前的数位。 3、 适用于浮点数、复数与二、八、十、十六进制整数：对于浮点数和复数，_ 只分隔小数点前的数位；对于二、八、十六进制整数，固定从低位到高位每隔四位插入一个 _(十进制整数是每隔三位插入一个 _)。

	`var1 = 31415`
	`print(f'\|{var1:_}\|')`
	`print('\|{:,}\|'.format(var1))`
	`print('\|%,s\|' % var1) # 不适用`

|31_415| |31,415| Traceback (most recent call last): File "E:\studypy\tmp.py", line 4, in print('|%s|' % var1) ValueError: unsupported format character '' (0x5f) at index 2

4.3.6.2.5 格式类型相关格式描述符

格式描述符含义与作用适用变量类型 s 普通字符串格式字符串 b 二进制整数格式整数 c 字符格式，按unicode编码将整数转换为对应字符整数 d 十进制整数格式整数 o 八进制整数格式整数 x 十六进制整数格式(小写字母) 整数 X 十六进制整数格式(大写字母) 整数 e 科学计数格式，以 e 表示 ×10^ 浮点数、复数、整数(自动转换为浮点数) E 与 e 等价，但以 E 表示 ×10^ 浮点数、复数、整数(自动转换为浮点数) f 定点数格式，默认精度(precision)是6 浮点数、复数、整数(自动转换为浮点数) F 与 f 等价，但将 nan 和 inf 换成 NAN 和 INF 浮点数、复数、整数(自动转换为浮点数) g 通用格式，小数用 f，大数用 e 浮点数、复数、整数(自动转换为浮点数) G 与 G 等价，但小数用 F，大数用 E 浮点数、复数、整数(自动转换为浮点数) % 百分比格式，数字自动乘上100后按 f 格式排版，并加 % 后缀浮点数、整数(自动转换为浮点数)

4.3.7 字符串的方法

4.3.7.1 编码解码类

4.3.7.1.1 encode(encoding='UTF-8',errors='strict')

描述对指定的字符串进行编码。编码后的返回结果是bytes类型。 errors参数用来设置不同错误的处理方案。默认为 'strict',意为编码错误引起一个UnicodeError。其他可能得值有 'ignore', 'replace', 'xmlcharrefreplace', 'backslashreplace' 示例

	`s1 = 'ab甲乙'`
	`s2 = s1.encode(encoding='utf-8')`
	`print(s2)`

b'ab\xe7\x94\xb2\xe4\xb9\x99'

4.3.7.1.2 decode(encoding="utf-8", errors="strict")

描述对bytes对象的进行解码。解码后的返回结果为str类型。 errors参数用来设置不同错误的处理方案。默认为 'strict',意为编码错误引起一个UnicodeError。其他可能得值有 'ignore', 'replace', 'xmlcharrefreplace', 'backslashreplace' 示例

	`s1 = 'ab甲乙'`
	`s2 = s1.encode(encoding='utf-8')`
	`print(s2)`
	`s3 = s2.decode(encoding='utf-8')`
	`print(s3)`

b'ab\xe7\x94\xb2\xe4\xb9\x99' ab甲乙

4.3.7.2 查找统计类

4.3.7.2.1 count

参见可迭代对象章节中序列小节中的序列count方法

4.3.7.2.2 find(str, beg=0, end=len(string))、rfind

描述返回str在string里面出现的索引。未找到则返回-1。rfind表示从右边开始查找。 beg参数和end参数代表查找的范围，默认在整个str中查找。示例

	`s = ' Python tian \t mao \n taobao '`
	`print(s.find('o'))`
	`print(s.find('ao'))`
	`print(s.find('io'))`

5 16 -1

4.3.7.2.3 index、rindex

可参见可迭代对象章节中序列小节中的序列index方法

4.3.7.3 格式化类

4.3.7.3.1 center(width, fillchar)

描述返回一个指定的宽度width居中的字符串，fillchar为填充的字符，默认为空格。示例

	`s = ' Python tian \t mao taobao '`
	`print(f"\|{s.center(30)}\|")`
	`print(f"\|{s.center(30, '*')}\|")`

| Python tian mao taobao | |** Python tian mao taobao **|

4.3.7.3.2 ljust(width[, fillchar])、rjust

描述返回一个原字符串左(右)对齐，并使用fillchar填充至长度width的新字符串，fillchar默认为空格。示例

	`s = ' Python tian \t mao taobao '`
	`print(f"\|{s.ljust(30)}\|")`
	`print(f"\|{s.ljust(30, '*')}\|")`

| Python tian mao taobao | | Python tian mao taobao ****|

4.3.7.3.3 zfill(width)

描述返回长度为width的字符串，原字符串右对齐，前面填充0 示例

	`s = ' Python tian \t mao taobao '`
	`print(f"\|{s.zfill(30)}\|")`

|0000 Python tian mao taobao |

4.3.7.4 合并截取类

4.3.7.4.1 join(seq)

描述以指定字符串作为分隔符，将seq中所有的元素(的字符串表示)合并为一个新的字符串。示例

	`seq = ['a', 'b', 'c']`
	`s = '*'.join(seq)`
	`print(s)`

abc

4.3.7.4.2 lstrip()、rstrip()

描述截掉字符串左边(右边)的空格或指定字符。示例

	`s = ' Python tian \t mao taobao '`
	`print(f"\|{s.lstrip()}\|")`
	`print(f"\|{s.rstrip()}\|")`
	`print(f"\|{s.rstrip('ao ')}\|")`

|Python tian mao taobao | | Python tian mao taobao| | Python tian mao taob|

4.3.7.4.3 split(str="", num=string.count(str))

描述以str为分隔符截取字符串。默认为空格、换行、制表符等。如果 num 有指定值，则仅截取 num+1 个子字符串示例

	`s = ' Python tian \t mao \n taobao '`
	`print(f"\|{s.split()}\|")`
	`print(f"\|{s.split('o')}\|")`

|['Python', 'tian', 'mao', 'taobao']| |[' Pyth', 'n tian \t ma', ' \n ta', 'ba', ' ']|

4.3.7.4.4 splitlines([keepends])

描述按照行('\r','\r\n',\n')分隔，返回一个包含各行作为元素的列表，如果参数keepends为False，不包含换行符，如果为True，则保留换行符。示例

	`s = ' Python tian \t mao \n taobao '`
	`print(f"\|{s.splitlines()}\|")`
	`print(f"\|{s.splitlines(True)}\|")`

|[' Python tian \t mao ', ' taobao ']| |[' Python tian \t mao \n', ' taobao ']|

4.3.7.4.5 strip([chars])

描述在字符串上同时执行lstrip()和rstrip() 示例

	`s = ' Python tian \t mao taobao '`
	`print(f"\|{s.strip()}\|")`
	`print(f"\|{s.strip('ao ')}\|")`

|Python tian mao taobao| |Python tian mao taob|

4.3.7.5 判断类

4.3.7.5.1 startswith(substr, beg=0,end=len(string))、endswith

描述检查字符串是否是以指定子字符串substr开头，是则返回True，否则返回False。如果beg 和 end 指定值，则在指定范围内检查。示例

	`s = ' Python tian \t mao taobao '`
	`print(f"\|{s.startswith(' ')}\|")`
	`print(f"\|{s.endswith('a')}\|")`

|True| |False|

4.3.7.5.2 islower()、isupper()

描述如果字符串中有可以区分大小写的字符，并且都是小写(大写)，则返回True，否则返回False 示例

	`s = ' python tian \t mao 赛车12 '`
	`print(f"\|{s.islower()}\|")`
	`print(f"\|{s.isupper()}\|")`

|True| |False|

4.3.7.5.3 isalnum()

描述如果字符串仅包含字母和数字，则返回True，否则返回False。示例

	`s1 = 'python 赛车12'`
	`print(f"\|{s1.isalnum()}\|")`
	`s2 = 'python 12'`
	`print(f"\|{s2.isalnum()}\|")`
	`s3 = 'python12'`
	`print(f"\|{s3.isalnum()}\|")`

|False| |False| |True|

4.3.7.5.4 isalpha()

描述如果字符串仅包含字母和文字(中文、日文等)，则返回True，否则返回False。示例

	`s1 = 'python 赛车12'`
	`print(f"\|{s1.isalpha()}\|")`
	`s2 = 'python 12'`
	`print(f"\|{s2.isalpha()}\|")`
	`s3 = 'python12'`
	`print(f"\|{s3.isalpha()}\|")`
	`s4 = 'python赛车'`
	`print(f"\|{s4.isalpha()}\|")`
	`s5 = 'こんにちは'`
	`print(f"\|{s5.isalpha()}\|")`

|False| |False| |False| |True| |False|

4.3.7.5.5 isdecimal()

描述检查字符串是否只包含十进制字符，如果是返回true，否则返回false。示例

	`s = 'python 赛车12'`
	`print(f"\|{s.isdecimal()}\|")`
	`s = 'p12'`
	`print(f"\|{s.isdecimal()}\|")`
	`s = '12'`
	`print(f"\|{s.isdecimal()}\|")`
	`s = '0x12'`
	`print(f"\|{s.isdecimal()}\|")`

|False| |False| |True| |False|

4.3.7.5.6 isdigit()、isnumeric()

描述如果字符串中仅包含数字，则返回True，否则返回False。

4.3.7.5.7 isspace()

描述如果字符串中仅包含空格，则返回True，否则返回False。

4.3.7.5.8 istitle()

描述如果字符串中的单词全都是title格式(首字母大写)，则返回True，否则返回False。

4.3.7.6 转换类

4.3.7.6.1 capitalize()

描述仅将字符串的第一个字符转换为大写。如果第一个不是字母，则不做操作。示例

	`s = ' python Tian 赛车12 '`
	`print(f"\|{s.capitalize()}\|")`
	`s = 'python Tian 赛车12 '`
	`print(f"\|{s.capitalize()}\|")`

| python tian 赛车12 | |Python tian 赛车12 |

4.3.7.6.2 lower()、upper()

描述将字符串中的小写(大写)字母全部转换成大写(小写)字母示例

	`s = ' pyTHon Tian 赛车12 '`
	`print(f"\|{s.lower()}\|")`
	`s = 'python Tian 赛车12 '`
	`print(f"\|{s.upper()}\|")`

| python tian 赛车12 | |PYTHON TIAN 赛车12 |

4.3.7.6.3 replace(old, new [, max])

描述把将字符串中的old替换成new,如果max指定，则替换不超过max次。示例

	`s = ' pyTHon Tian 赛车12 '`
	`print(f"\|{s.replace('T','*')}\|")`
	`print(f"\|{s.replace('T','*', 1)}\|")`
	`print(f"\|{s.replace('Ti','/', 1)}\|")`

| py*Hon ian 赛车12 | | pyHon Tian 赛车12 | | pyTHon /an 赛车12 |

4.3.7.6.4 title()

描述返回标题化的字符串,就是说所有单词都是以大写开始，其余字母均为小写。

4.3.7.6.5 expandtabs(tabsize)

描述把字符串string中的tab符号转为空格，tab符号默认的空格数是8。示例

	`s = '\tTian 赛车12 '`
	`print(f"\|{s}\|")`
	`print(f"\|{s.expandtabs()}\|")`
	`print(f"\|{s.expandtabs(2)}\|")`

| Tian 赛车12 | | Tian 赛车12 | | Tian 赛车12 |

4.3.7.6.6 swapcase()

描述将字符串中大写转换为小写，小写转换为大写。

4.3.7.6.7 maketrans()、translate(table, deletechars="")

描述 maketrans用于创建字符映射的转换表，对于接受两个参数的最简单的调用方式，第一个参数是字符串，表示需要转换的字符，第二个参数也是字符串表示转换的目标。 translate则根据table给出的表(包含256个字符)转换string的字符。这两个方法组合可以方便快速的对字符串多个字符进行替换。示例

	`s = ' python Tian 赛车12 '`
	`x = "yo"`
	`y = "ab"`
	`z = "车" # 设置删除的字符`
	`mytable = s.maketrans(x, y, z)`
	`print(mytable)`
	`print(s.translate(mytable))`

{121: 97, 111: 98, 36710: None} pathbn Tian 赛12

栏目列表

	`var1 = 'python'`
	`var2 = -3.1415`
	`print(f'\|{var1:>10}\|')`
	`print('\|{:^10}\|'.format(var2))`
	`print('\|%+10s\|' % var1)`
	`print('\|%-10s\|' % var2)`

	`var1 = 3.14`
	`var2 = -4.13`
	`print(f'\|{var1:+}\|')`
	`print('\|{:-}\|'.format(var2))`
	`print('\|{: }\|'.format(var1))`
	`print('\|%+s\|' % var1)`

	`var1 = 3.1415`
	`print(f'\|{var1:8}\|')`
	`print('\|{:8.3}\|'.format(var1))`
	`print('\|{:.4}\|'.format(var1))`
	`print('\|%10.5s\|' % var1)`

	`var1 = 31415`
	`print(f'\|{var1:_}\|')`
	`print('\|{:,}\|'.format(var1))`
	`print('\|%,s\|' % var1) # 不适用`

	`s = ' Python tian \t mao taobao '`
	`print(f"\|{s.lstrip()}\|")`
	`print(f"\|{s.rstrip()}\|")`
	`print(f"\|{s.rstrip('ao ')}\|")`

首页 > temp > python入门教程 >