首页 > Python基础教程 >
-
从零开始学python·其一
之前有一段时间有接触过python,但是没有去总结,所以现在就基本上把python给忘光了,所以打算再按照自己的思路再次去学习python,一边学习一边总结,也希望各路大神能给点学习上的意见,当然python的学习方向很广,其涵盖的行业、技术也分很多种,我就主要学习python在数据分析的应用,之前很多时间都放在R的学习上,现在就可以挑战一下,两手准备,左手python,右手R。
要学习python数据处理分析方面的应用,首先得有数据在python中,所以我会首先了解如何在python中创建数据,python中常见的数据类型有哪些,如何在外部导入数据和导出数据等等。我们一步步来:
一、python创建数据及类型
我学习python使用的软件是pycharm,主要是用习惯了图形界面的语言编译环境,python shell 有点受不了。言归主题,我们在python中创建数据的方法其实与R语言是基本一致的,不用额外地声明变量类型,比如:
a=1 #创建数组型变量
b = "hello python" #创建字符型变量
在python中数据类型主要是分为8类:
1、number 数值型(整数、浮点数、复数)
2、string 字符串
3、boolean 布尔值(True False)
4、none 空值
5、list 列表
6、tuple 元组
7、dict 字典
8、set 集合
其实8种类型的数据,列表、元组、字典和集合我们可能听的比较懵逼,其他应该都很容易理解,下面我们就简单学习一下这几种形式的数据:
·list 列表
list列表型数据是以"[]"括着我们的数据,括号中的每个数据以逗号相隔,且列表中的元素可以是任意类型,甚至是列表类型,也就是说列表可以嵌套。例如:
a = [1,2,"hello python",True,[3,4,6]]
我们发现python中的列表数据与R语言中的向量的类型有点相识,不同点在于列表类型数据可以是不同类型的数据,其次是列表元素的或取,如果我们要获取列表中的第一个元素,python默认第一个元素的位置是0,所以第一个元素应该为a[0],依次类推。
·tuple 元组
Python的元组与列表类似,不同之处在于元组的元素不能修改,元组使用小括号,列表使用方括号,且元组创建很简单,只需要在括号中添加元素,并使用逗号隔开即可,另外元组元素的提取也是与列表一致。与列表相比,元组操作速度要更快,且其不可修改性提高了数据的安全性。
tp1 = (1,2,"python")
·dict 字典
字典就是一个关联数组,包括键值key和value,就像属性和属性下的取值一样,一个字典内可以包含多个key和value,且以key:value的形式组合,每个键值组合之间以逗号相隔。整个字典包括在花括号{}中 ,格式如下所示:
dict = {'color': 'red', 'length': '12', 'width': '8'}
字典是无序的,如果我们需要访问字典,则需按照"字典名[key]"的形式。字典的key是不能变的,所以list不能作为key,但字符串、元祖、整数等都是可以。
·set 集合
集合是一个无序的不重复元素序列,可以看做是一组key的集合,但不存储value。使用大括号{ }或者set()函数创建集合,如果创建一个空集合就必须用set()而不是{ },因为{ }是用来创建一个空字典。如果使用set创建集合,则需要以列表形式输入数据。
basket = {'apple', 'orange', 'apple', 'pear', 'orange', 'banana'}
#使用set创建集合
basket = set(['apple', 'orange', 'apple', 'pear', 'orange', 'banana'])
上面就简单介绍一下python中各种数据类型,只是给各种类型的数据留个初步的认识,后面的学习会涉及到更多方法的运用。
二、python导入数据和导出数据
1、导入数据
外部导入数据的问题首先涉及数据的类型,常见的数据类型一般有txt、csv、xlsx、sav或者数据库等等,那么我们从经常打交道的txt和excel入手,看看如何将数据导入python。网上有介绍很多中导入数据的方法,我就选择一些最方便最易理解的来说吧,如果是从读写模式介绍估计会有点懵,所以导入数据我们就先使用python的pandas库和xlrd库。我们使用import导入pandas库之后,直接使用read_table()这个方法就可以实现对txt数据的读取。
#导入txt文件,sep是分隔符参数
import pandas as pd
x = pd.read_table('C:\\Users\\Administrator\\Desktop\\test.txt', sep=',')
同样地对csv文件我们也可以采用同样的方法进行读取:
# 读取csv文件
x = pd.read_csv("C:\\Users\\Administrator\\Desktop\\test.csv")
对于读取xlsx文件,我们则需要另外一个库的帮忙,xlrd库。
# 读取xlsx文件
x = xlrd.open_workbook("C:\\Users\\Administrator\\Desktop\\test.xlsx")
如果我们不想每次导入数据都要写文件完整的路径,我们可以通过设置工作目录的方法,这样我们导入数据的时候就只需要输入文件名及其后缀名,例如:
# 加载os库
import os
os.chdir('C:\\Users\\Administrator\\Desktop')
x = xlrd.open_workbook("test.xlsx")
上面用到导入函数其实只是介绍了最简单的导入功能,其中还有很多细节的设置,比如修改列名,是否输出行序号等等,大家之后可以在网上阅读更为详细的用法介绍。
2、导出数据
导出数据需要是DataFrame对象,这个东西是不是有点眼熟,跟R中的数据框有点相似?同样地我们需要导入pandas库:
#导出csv文件
import pandas as pd
data = [{"a":i,"b":2*i} for i in range(3)]
data1 = pd.DataFrame(data)
data1.to_csv('C:\\Users\\Administrator\\Desktop\\test2.csv')
# 导出xlsx文件
import openpyxl
data1.to_excel('C:\\Users\\Administrator\\Desktop\\test2.xlsx')
简单地介绍完导出数据的方法,可能大家会觉得有点乱,又是import,又是库,dataFrame等等一堆新名词,不过没有关系,我们想掌握使用的方法,具体要如何理解,我们通过逐步的学习日后就能慢慢体会,毕竟面对python,我只是小白一枚,还是得多多学习ヽ(ー_ー)ノ。
上面可能会有人会问库大概是什么东西,其实python的库与R语言的拓展包有点相同,用之前要先下载安装,用的时候要加载只是python需要import而R语言需要libaray。