-
PHP如何切割excel大文件(附完整代码)
本篇文章主要讲述的是利用phpspreadsheet切割excel大文件,具有一定的参考价值,感兴趣的朋友可以了解一下,希望对你有所启发。
利用phpspreadsheet可以轻松的解析excel文件,但是phpspreadsheet的内存消耗也是比较大的,我试过解析将近5M的纯文字excel内存使用量就会超过php默认的最大内存128M。
当然这可以用调节内存大小的方法来解决,但是在并发量大的时候就比较危险了。所以今天介绍下一种方法,利用phpspreadsheet对excel文件进行切割,这是个拿时间换空间的方法所以一般对时效性要求低的需求可以使用。
方法:先放个phpspreadsheet官网提供的一个功能readCell,我们就可以利用这个功能来进行切割。
首先对excel文件进行预读,主要是获取所有的工作表以及工作表下面的数据行数,这个阶段readCell方法一直返回的都是false,我们只需要记录readCell进来的工作表及数据行数。
然后就是对获取到的记录进行分析,确定每部分数据需要装多少行原始excel的数据,需要注意的是为了避免内容混淆,不要讲两个工作表的内容切到一起。
最后就是循环分析的数据和再次利用readCell获取每部分数据,注意每次读取文件后都要利用disconnectWorksheets方法清理phpspreadsheet的内存。
经过我自己的测试发现,利用该方法解析5M的excel文件,平均只需要21M的内存就可以搞定!
代码:
- <?php
- namespace CutExcel;
- require_once 'PhpSpreadsheet/autoload.php';
- /**
- * 预读过滤类
- * @author wangyelou
- * @date 2018-07-30
- */
- class MyAheadreadFilter implements \PhpOffice\PhpSpreadsheet\Reader\IReadFilter
- {
- public $record = array();
- private $lastRow = '';
- public function readCell($column, $row, $worksheetName = '')
- {
- if (isset($this->record[$worksheetName]) ) {
- if ($this->lastRow != $row) {
- $this->record[$worksheetName] ++;
- $this->lastRow = $row;
- }
- } else {
- $this->record[$worksheetName] = 1;
- $this->lastRow = $row;
- }
- return false;
- }
- }
- /**
- * 解析过滤类
- * @author wangyelou
- * @date 2018-07-30
- */
- class MyreadFilter implements \PhpOffice\PhpSpreadsheet\Reader\IReadFilter
- {
- public $startRow;
- public $endRow;
- public $worksheetName;
- public function readCell($column, $row, $worksheetName = '')
- {
- if ($worksheetName == $this->worksheetName && $row >= ($this->startRow+1) && $row <= ($this->endRow+1)) {
- return true;
- }
- return false;
- }
- }
- /**
- * 切割类
- * @author wangyelou
- * @date 2018-07-30
- */
- class excelCut
- {
- public $cutNum = 5;
- public $returnType = 'Csv';
- public $fileDir = '/tmp/';
- public $log;
- /**
- * 切割字符串
- * @param $str
- * @return array|bool
- */
- public function cutFromStr($str)
- {
- try {
- $filePath = '/tmp/' . time() . mt_rand(1000, 9000) . $this->returnType;
- file_put_contents($filePath, $str);
- if (file_exists($filePath)) {
- $result = $this->cutFromFile($filePath);
- unlink($filePath);
- return $result;
- } else {
- throw new Exception('文件写入错误');
- }
- } catch (Exception $e) {
- $this->log = $e->getMessage();
- return false;
- }
- }
- /**
- * 切割文件
- * @param $file
- * @return array|bool
- */
- public function cutFromFile($file)
- {
- try {
- $cutRules = $this->readaheadFromFile($file);
- $dir = $this->getFileDir($file);
- $returnType = $this->returnType ? $this->returnType : 'Csv';
- $results = array();
- //初始化读
- $myFilter = new MyreadFilter();
- $inputFileType = \PhpOffice\PhpSpreadsheet\IOFactory::identify($file);
- $reader = \PhpOffice\PhpSpreadsheet\IOFactory::createReader($inputFileType);
- $reader->setReadDataOnly(true);
- $reader->setReadFilter($myFilter);
- foreach ($cutRules as $sheetName => $rowIndexRange) {
- //读
- list($myFilter->startRow, $myFilter->endRow, $myFilter->worksheetName) = $rowIndexRange;
- $spreadsheetReader = $reader->load($file);
- $sheetData = $spreadsheetReader->setActiveSheetIndexByName($myFilter->worksheetName)->toArray(null, false, false, false);
- $realDatas = array_splice($sheetData, $myFilter->startRow, ($myFilter->endRow - $myFilter->startRow + 1));
- $spreadsheetReader->disconnectWorksheets();
- unset($sheetData);
- unset($spreadsheetReader);
- //写
- $saveFile = $dir . $sheetName . '.' . $returnType;
- $spreadsheetWriter = new \PhpOffice\PhpSpreadsheet\Spreadsheet();
- foreach ($realDatas as $rowIndex => $row) {
- foreach ($row as $colIndex => $col) {
- $spreadsheetWriter->getActiveSheet()->setCellValueByColumnAndRow($colIndex+1, $rowIndex+1, $col);
- }
- }
- $writer = \PhpOffice\PhpSpreadsheet\IOFactory::createWriter($spreadsheetWriter, $returnType);
- $writer->save($saveFile);
- $spreadsheetWriter->disconnectWorksheets();
- unset($spreadsheetWriter);
- $results[] = $saveFile;
- }
- return $results;
- } catch (Exception $e) {
- $this->log = $e->getMessage();
- return false;
- }
- }
- /**
- * 预读文件
- */
- public function readaheadFromFile($file)
- {
- if (file_exists($file)) {
- //获取统计数据
- $myFilter = new MyAheadreadFilter();
- $inputFileType = \PhpOffice\PhpSpreadsheet\IOFactory::identify($file);
- $reader = \PhpOffice\PhpSpreadsheet\IOFactory::createReader($inputFileType);
- $reader->setReadDataOnly(true); //只读数据
- $reader->setReadFilter($myFilter);
- $spreadsheet = $reader->load($file);
- //$sheetData = $spreadsheet->getActiveSheet()->toArray(null, false, false, false);
- list($fileName,) = explode('.', basename($file));
- $datas = array();
- $averageNum = ceil(array_sum($myFilter->record) / $this->cutNum);
- foreach ($myFilter->record as $sheetName => $count) {
- for ($i=0; $i<ceil($count/$averageNum); $i++) {
- $datas[$fileName . '_' . $sheetName . '_' . $i] = array($i*$averageNum, ($i+1)*$averageNum-1, $sheetName);
- }
- }
- return $datas;
- } else {
- throw new Exception($file . ' not exists');
- }
- }
- /**
- * 创建目录
- * @param $file
- * @return bool|string
- */
- protected function getFileDir($file)
- {
- $baseName = basename($file);
- list($name) = explode('.', $baseName);
- $fullName = $name .'_'. time() . '_' . mt_rand(1000, 9999);
- $path = $this->fileDir . $fullName . '/';
- mkdir($path, 0777);
- chmod($path, 0777);
- if (is_dir($path)) {
- return $path;
- } else {
- $this->log = "mkdir {$path} failed";
- return false;
- }
- }
- }
出处:http://www.phpfensi.com/php/20200406/12923.html
栏目列表
最新更新
nodejs爬虫
Python正则表达式完全指南
爬取豆瓣Top250图书数据
shp 地图文件批量添加字段
爬虫小试牛刀(爬取学校通知公告)
【python基础】函数-初识函数
【python基础】函数-返回值
HTTP请求:requests模块基础使用必知必会
Python初学者友好丨详解参数传递类型
如何有效管理爬虫流量?
SQL SERVER中递归
2个场景实例讲解GaussDB(DWS)基表统计信息估
常用的 SQL Server 关键字及其含义
动手分析SQL Server中的事务中使用的锁
openGauss内核分析:SQL by pass & 经典执行
一招教你如何高效批量导入与更新数据
天天写SQL,这些神奇的特性你知道吗?
openGauss内核分析:执行计划生成
[IM002]Navicat ODBC驱动器管理器 未发现数据
初入Sql Server 之 存储过程的简单使用
这是目前我见过最好的跨域解决方案!
减少回流与重绘
减少回流与重绘
如何使用KrpanoToolJS在浏览器切图
performance.now() 与 Date.now() 对比
一款纯 JS 实现的轻量化图片编辑器
关于开发 VS Code 插件遇到的 workbench.scm.
前端设计模式——观察者模式
前端设计模式——中介者模式
创建型-原型模式