Blobstore API允许你的应用程序使用(serve)叫做Blobs的数据对象。这种数据对象比Datastore服务所允许的对象的尺寸大得多。Blobs能有效地为大文件比如视频、图片提供服务,允许用户上传大数据文件。通过HTTP请求上传一个文件来创建Blobs。通常,你的应用程序通过向用户.....
分类:
编程语言 时间:
2015-06-14 21:26:47
阅读次数:
281
给大数据文件的每一行产生唯一的id
4个主要思路:
1 单线程处理
2 普通多线程
3 hive
4 Hadoop
搜到一些参考资料
《Hadoop实战》的笔记-2、Hadoop输入与输出
https://book.douban.com/annotation/17068812/
TextInputFormat:文件偏移量:整行数据
但是这个偏移量,貌似...
分类:
其他好文 时间:
2015-06-09 20:04:02
阅读次数:
135
解决的办法:1. 不要使用自动收缩, 自动收缩会定期收容数据文件的空闲空间,则处理需要的时候却要扩大数据文件,这两者相反的处理,是冲突的设置方法:ALTER DATABASE MyDataBase SET AUTO_SHRINK OFF2. 如果你不进行事务日志备份, 也不需要利用事务日志做处理,则...
分类:
数据库 时间:
2015-04-16 01:20:16
阅读次数:
181
在phpmyadmin的使用中,经常需要进行导入导出数据库的操作。但是在导入导出大型数据库文件的时候经常会只是部分导出或者部分导入。或者是导入导出不成功。原因就是服务器和php、mysql限制了导出导入数据库文件的大小。而改相应的配置又十分繁琐,所以这里提供一个绕过导出导入有大小限制的办法。这个思路...
分类:
Web程序 时间:
2015-03-01 18:29:03
阅读次数:
154
每个磁盘都有默认的数据块大小,这是磁盘进行数据读写的最小单位。构建于单个磁盘上的文件系统通过磁盘块来管理该文件系统中的块,该文件系统块的大小可以是磁盘块的数倍。文件系统一般为几千字节,而磁盘块一般为512字节。
HDFS同样也有块的概念,但是它大得多,默认为64MB。与单一磁盘上的文件系统相似,HDFS的文件也被划分为块大小的多个分块(chunk),作为独立的存储单元。但是HDFS...
分类:
其他好文 时间:
2015-03-01 13:15:58
阅读次数:
161
最近买了一本《Python宝典》在看,此书所讲Python知识的广度明显,但是深度略显不足,所以比较适合入门及提高级的读者来看。其中对于Python大数据处理一章的内容比较有兴趣,看明白了以后,我根据书上提供的案例对源代码进行了修改,也实现了模拟MapReduce的过程。
目标:从Apache的用户访问日志access.log中统计出页面资源的访问量。我们假设这个文件体积十分巨大。
acc...
分类:
编程语言 时间:
2014-12-19 12:13:28
阅读次数:
235
PHP开发者初学者往往忽略了命令行的作用,的确,在数据库管理工具和集成开发环境中,命令行操作越来越不被重视。但,当开发大型项目或运行较大的文件及大数据文件时,也许命令行操作才更合适。 设置PHP路径 这里有...
分类:
数据库 时间:
2014-12-17 13:10:20
阅读次数:
219
在处理大数据文件时,利用"生产者-消费者"线程模型进行处理,代码实现如下:/** * 文件处理类 * */public class FileProcessor { /**读取文件的路径*/ private String path = ""; /**指定默认工作队列的大小*/ public sta.....
分类:
其他好文 时间:
2014-12-06 00:03:30
阅读次数:
252
sqlcmd导入大数据文件SQLCMD 允许在Windows命令窗中通过命令行提示符运行脚本.语法如下:sqlcmd[{ { -U [ -P ] } | -E }][-S [ \ ] ] [ -H ] [ -d ][ -l ] [ -t ] [ -h ][ -s ] [ -w ]...
分类:
数据库 时间:
2014-11-24 22:26:05
阅读次数:
346