码迷,mamicode.com
首页 > 编程语言 > 详细

3分钟学会,学会用Python正确读取大文件

时间:2019-10-25 23:35:22      阅读:125      评论:0      收藏:0      [点我收藏+]

标签:try   并且   使用   因此   pre   封装   比较   readlines   支持   

技术图片

文件读写属于一种常见的IO操作,由于操作系统将底层操作磁盘的接口向上封装为一种通用接口,因此Python中读写文件的基本方法和JAVA、PHP等高级编程语言一样,先请求操作系统打开一个文件描述符,通过操作系统提供的接口从这个文件对象中读取数据,或者把数据写入这个文件中,最后当文件读写操作完成后关闭文件。

需要注意的是文件读写完成后必须及时关闭文件,一方面打开的文件会占用操作系统的资源,并且操作系统同一时间能打开的文件数量也是有限制的,比如Linux操作系统中我们可以使用ulimit -n命令查看最多可打开文件的数量。另一方面在写文件时,操作系统是把数据放到内存缓冲区异步写入磁盘中,并不会立刻把数据全部写入磁盘,而调用close()方法可以使操作系统把没有写入磁盘的数据全部写入磁盘中,防止数据丢失的情况。接下来我们先看下正确的文件打开方式。

文件打开的几种方式

Python内置了open()方法打开了一个文件,如下所示。文件打开模式有‘r‘、‘w‘、‘a‘、‘r+‘、‘w+‘、‘a+‘、‘b‘等,‘r‘只读模式打开文件,并将文件指针指向文件头,如果文件不存在会报错;‘w‘只写模式打开文件,并将文件指针指向文件头,如果文件存在则将其内容清空,不存在则创建;‘a‘以只追加可写模式打开文件,并将文件指针指向文件尾部,如果文件不存在则创建。对应于open()方法打开文件需要有close()方法关闭文件。

f = open(‘/mnt/media/log.txt‘, ‘r‘)
f.read()
f.close()

由于读写文件时都有可能产生IOError,比如文件不存在的情况,此时open()方法会抛出一个IOError的异常,那么后面的f.close()就不会被调用。为了保证无论是否出错都能正确地关闭文件,我们可以使用try ... finally来实现。

try:
 f = open(‘/mnt/media/log.txt‘, ‘r‘)
 f.read()
finally:
 if f:
 f.close()

由于try ... finally方式实现较为繁琐,Python引入了with语句会自动调用f.close()方法,使得代码更简洁。

with open(‘/mnt/media/log.txt‘, ‘r‘) as f:
 f.read()

大文件读取几种方式

对文件的读取操作是将文件中的数据加载到内存中,那么对于大文件的读取,如果一次把文件中全部的内容全部加载到内存中显然会耗尽系统的内容。我们看下Python中读取文件常用的方法read()、readline()、readlines()对于大文件读取的支持情况:read(size)方法是从文件当前位置起读取size个字节,若无参数size,则表示读取至文件结束为止,如果文件比较小,用read()一次读取文件较为方便,但如果不能确定文件大小,反复调用read(size)比较保险;readline()方法每次读出一行内容,所以读取时占用内存小,比较适合大文件。readlines()方法读取整个文件所有行,保存在一个列表list变量中,每行作为一个元素,读取大文件时比较占内存。

说到大文件的读取,有个linecache模块,这里要说明下的是这个模块的优势是通过缓存文件内容的方式来加快下次读取文件的速度,所以需要耗费更多的内存,那么以下是我在Linux发行版LEDE+MT7688的环境下对readlines、linecache.getlines以及遍历文件这三种方式在内存的使用情况下的对比:

在学习过程中有什么不懂得可以加我的
python学习交流扣扣qun,784-758-214
群里有不错的学习视频教程、开发工具与电子书籍。
与你分享python企业当下人才需求及怎么从零基础学习好python,和学习什么内容
count = len(open(filepath, ‘r‘).readlines())
_________________________________________________________
count = = len(linecache.getline(filepath) )
_________________________________________________________
count = 0
for count, line in enumerate(open(filepath,‘r‘)):
 pass
count += 1
________________________________________________
count = len([ "" for line in open("filename","r")])
不打开文件:Mem: 37648K used, 88184K free, 116K shrd, 0K buff, 12540K cached 
readlines读取文件:Mem: 69560K used, 56272K free, 124K shrd, 0K buff, 27004K cached 
linecache.getlines读取文件:Mem: 70396K used, 55436K free, 116K shrd, 0K buff, 26996K cached
遍历方式读取文件:Mem: 53032K used, 72800K free, 116K shrd, 0K buff, 27668K cached 

但是linecache.getlines在读取文件的速度上是有绝对优势的,因为文件内容已经缓存在内存中了,下次读取可以直接从内存中获取,可以使用linecache.checkcache检测文件在磁盘上是否发生了变化,如果变化了需要使用linecache.updatecache更新缓存。不过首次读取文件需要打开文件,对于一个15M左右20000行的日志文件三种方式差不多需要8、9秒的时间,但第二次读取文件linecache.getlines方式是微秒级的。

readlines读取文件:

time count 215794 type1 is 9.58759188652

time count 215794 type1 is 1.70862102509

time count 215794 type1 is 2.05462002754

time count 215794 type1 is 1.69754505157

time count 215813 type1 is 2.1633579731

time count 215813 type1 is 1.61879992485

遍历方式读取文件:

time count 215508 type2 is 8.8404238224

time count 215508 type3 is 2.22844409943

time count 215508 type2 is 2.19772100449

time count 215508 type3 is 2.57516384125

time count 215586 type2 is 2.12095785141

time count 215586 type3 is 2.55960321426

time count 215586 type2 is 2.1704659462

time count 215586 type3 is 2.11596107483

linecache.getlines读取文件:

time count 214811 type4 is 8.19337201118

time count 214811 type4 is 6.50882720947e-05

time count 214811 type4 is 9.41753387451e-05

time count 214811 type4 is 6.69956207275e-05

time count 214811 type4 is 9.41753387451e-05

time count 214811 type4 is 6.89029693604e-05

觉得文章还可以的话不妨收藏起来慢慢看,有任何意见或者看法欢迎大家评论!

3分钟学会,学会用Python正确读取大文件

标签:try   并且   使用   因此   pre   封装   比较   readlines   支持   

原文地址:https://blog.51cto.com/14568144/2445569

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!