横向对比分析Python解析XML的4种方式(2)

当前位置:

首页 > Python基础教程 >

横向对比分析Python解析XML的4种方式(2)

程序运行结果：

**************************************************

程序处理启动。

输入目录为：/tmcdata/mro2csv/input31/。

输出目录为：/tmcdata/mro2csv/output31/。

输入目录下.gz文件个数为：12，本次处理其中的12个。

**************************************************

文件计数：1/12.

已读入：/tmcdata/mro2csv/input31/TD-LTE_MRO_NSN_OMC_234598_20160224060000.xml.gz.

解析中：

文件计数：2/12.

已读入：/tmcdata/mro2csv/input31/TD-LTE_MRO_NSN_OMC_233798_20160224060000.xml.gz.

解析中：

文件计数：3/12.

已读入：/tmcdata/mro2csv/input31/TD-LTE_MRO_NSN_OMC_123798_20160224060000.xml.gz.

解析中：

………………………………………

文件计数：12/12.

已读入：/tmcdata/mro2csv/input31/TD-LTE_MRO_NSN_OMC_235598_20160224060000.xml.gz.

解析中：

VS行计数：177849，运行时间：107.077867，每秒处理行数：1660。

已写入：/tmcdata/mro2csv/output31/mro_0001.csv。

**************************************************

程序处理结束。

由于DOM解析需要将整个文件读入内存，并建立树结构，其内存消耗和时间消耗都比较高，但其优点在于逻辑简单，不需要定义回调函数，便于实现。

2、SAX解析

函数定义代码：

						def sax_parser(gz):

						  import os,gzip,cStringIO

						  from xml.parsers.expat import ParserCreate

						  #变量声明

						  d_eNB = {}

						  d_obj = {}

						  s = ''

						  global flag 

						  flag = False

						  file_io = cStringIO.StringIO()

						  #Sax解析类

						  class DefaultSaxHandler(object):

						    #处理开始标签

						    def start_element(self, name, attrs):

						      global d_eNB

						      global d_obj

						      global vs_cnt

						      if name == 'eNB':

						        d_eNB = attrs

						      elif name == 'object':

						        d_obj = attrs

						      elif name == 'v':

						        file_io.write(d_eNB['id']+' '+ d_obj['id']+' '+d_obj['MmeUeS1apId']+' '+d_obj['MmeGroupId']+' '+d_obj['MmeCode']+' '+d_obj['TimeStamp']+' ')

						        vs_cnt += 1

						      else:

						        pass

						    #处理中间文本

						    def char_data(self, text):

						      global d_eNB

						      global d_obj

						      global flag

						      if text[0:1].isnumeric():

						        file_io.write(text)

						      elif text[0:17] == 'MR.LteScPlrULQci1':

						        flag = True

						        #print(text,flag)

						      else:

						        pass

						    #处理结束标签

						    def end_element(self, name):

						      global d_eNB

						      global d_obj

						      if name == 'v':

						        file_io.write('\n')

						      else:

						        pass

						  #Sax解析调用

						  handler = DefaultSaxHandler()

						  parser = ParserCreate()

						  parser.StartElementHandler = handler.start_element

						  parser.EndElementHandler = handler.end_element

						  parser.CharacterDataHandler = handler.char_data

						  vs_cnt = 0

						  str_s = ''

						  xm = gzip.open(gz,'rb')

						  print("已读入：%s.\n解析中：" % (os.path.abspath(gz)))

						  for line in xm.readlines():

						    parser.Parse(line) #解析xml文件内容

						    if flag:

						      break

						  str_s = file_io.getvalue().replace(' \n','\r\n').replace(' ',',').replace('T',' ').replace('NIL','')  #写入解析后内容

						  xm.close()

						  file_io.close()

						  return (str_s,vs_cnt)

栏目列表