pandas read_csv读取大文件的Memory error问题

时间：2018-11-19 17:21:29 阅读：694 评论：0 收藏：0 [点我收藏+]

标签：head 元素 oop `` [] ice 文件 file update

今天在读取一个超大csv文件的时候,遇到困难:首先使用office打不开然后在python中使用基本的pandas.read_csv打开文件时:MemoryError

最后查阅read_csv文档发现可以分块读取。

read_csv中有个参数chunksize,通过指定一个chunksize分块大小来读取文件

1.分块计算数量

from collections import Counter

import pandas as pd

size = 2 ** 10
counter = Counter()
for chunk in pd.read_csv(‘file.csv‘, header=None, chunksize=size):
counter.update([i[0] for i in chunk.values])

print(counter)

```
---
大概输出如下：
```
Counter({100: 41,
101: 40,
102: 40,
...
150: 35})
```

2.分块读取合并为一个list，list元素是dataframe，最后concat为完整dataframe

    data = pd.read_csv(path+"dika_num_trainall.csv", sep=‘,‘, engine=‘python‘, iterator=True)
    loop = True
    chunkSize = 100000
    chunks = []
    while loop:
        try:
            chunk = data.get_chunk(chunkSize)
            chunks.append(chunk)
        except StopIteration:
            loop = False
            print("Iteration is stopped.")
    print(‘开始合并‘)
    df_train = pd.concat(chunks, ignore_index=True)

pandas read_csv读取大文件的Memory error问题

标签：head 元素 oop `` [] ice 文件 file update

原文地址：https://www.cnblogs.com/34fj/p/9983762.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行