Pandas处理超大规模数据

时间：2019-06-23 14:16:12 阅读：104 评论：0 收藏：0 [点我收藏+]

标签：opp ret iter logs 读取操作 iterator log except

对于超大规模的csv文件，我们无法一下将其读入内存当中，只能分块一部分一部分的进行读取；

首先进行如下操作：

import pandas as pd
reader = pd.read_csv(‘data/servicelogs‘, iterator=True)

分块，每一块是一个chunk，之后将chunk进行拼接；

loop = True
chunkSize = 100000
chunks = []
while loop:
    try:
        chunk = reader.get_chunk(chunkSize)
        chunks.append(chunk)
    except StopIteration:
        loop = False
        print "Iteration is stopped."
df = pd.concat(chunks, ignore_index=True)

Pandas处理超大规模数据

标签：opp ret iter logs 读取操作 iterator log except

原文地址：https://www.cnblogs.com/geeksongs/p/11072442.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行