Python是数据挖掘常使用的语言,也是比较适合数据挖掘的语言。
1. Python语法
Python语法以简洁著称,Python和R一样,是弱类型语言,所以在使用变量之前不需要声明他们。Python通过缩进来控制结构,所以没有一堆乱七八糟的大括号,四个空格或者一个tab用来代替大括号的作用。
2. Python数据结构
Python的数据结构是比较有特色的,活用字典,列表两种数据结构有出人意料的威力。
字典可以理解成封装好的hash表,可以非常方便的处理树形结构,
3. Python包的安装
Python包,最方便的安装方法是通过easy_install 和 pip 来一键安装,不过这两个是需要手动安装的。
4. 一些数据挖掘的包
(1)Python标准库。这里主要是体现了Python处理字符串的优势,由于Python多功能的属性和对于正则表达式的良好支持,用于处理text是在合适不过的了。
(2)Numpy与Scipy。这两个包是Python之所以能在数据分析占有一席之地的重要原因。其中Numpy封装了基础的矩阵和向量的操作,而Scipy则在Numpy的基础上提供了更丰富的功能,比如各种统计常用的分布和算法都能迅速的在Scipy中找到。
(3)Matplotlib。这个Package主要是用来提供数据可视化的,其功能强大,生成的图标可以达到印刷品质,在各种学术会议里面出镜率不低。依托于Python,可定制性相对于其他的图形库更高。还有一个优点是提供互动化的数据分析,可以动态的缩放图表,用做adhoc analysis非常合适。
(4)Scikit Learn。非常好用的Machine Learning库,适合于用于快速定制原型。封装几乎所有的经典算法,易用性极高。