蜡炬教育：如何处理机器学习中大型数据的加载问题？

时间：2019-05-29 13:06:13 阅读：120 评论：0 收藏：0 [点我收藏+]

原标题:蜡炬教育：如何处理机器学习中大型数据的加载问题？

蜡炬教育老师表示，在处理机器学习算法时，经常会因为数据库太大而导致无法放入内存中，而遇到这样几个问题：当运行数据集算法而导致崩溃时如何解决？当需要处理大容量数据文件时该如何加载？如何方便快捷的解决内存不足的问题？

针对以上问题，蜡炬教育老师给出7个建议：

技术图片
1.分配更多内存
某些ML工具或数据库默认内存配置不合理，可以看看是否可以手动分配。

2.使用较小样本
确认是否需要处理所有数据？在对最终数据拟合前，使用随机抽取数据样本这个示例即可。

3.使用内存更大的设备
可以租用大内存的服务器，这样可以在物理手段上获取更大的计算能力。

4.更改数据格式
可以通过更改数据格式来加快数据加载并降低内存使用率，比如二进制格式。

5.流数据或使用渐进加载
可以将数据逐步加载到内存中进行使用。

6.使用关联数据库
从内部来看，存储在磁盘上的数据可以逐步加载，并可以使用标准语言（SQL）来进行查询。

7.使用大型数据平台
比如用Mahout机器学习库的Hadoop以及用MLLib库的Spark，它们是为处理非常大的数据集专门设计的平台。

蜡炬教育老师说到，如果遇到数据库太大无法放入内训的相关问题，可以从如上7个方法中寻找解决办法。

原文地址：https://blog.51cto.com/14355900/2401928

踩

(0)

评论一句话评论（0）

分享档案

更多>

周排行