码迷,mamicode.com
首页 > 2014年08月24日 > 全部分享
Hadoop学习笔记之一:Hadoop介绍
在学习Hadoop之前,先了解一下大数据相关的知识:1.大数据背景大数据的产生:众所周知,随着信息社会的快速发展,信息量以爆发式的速度增长,这些信息包括来自互联网的大数据、大量传感器的机器数据、行业的内容数据。这些数据的特征表现为数据量大,一般为TB级或PB级甚至更大..
分类:其他好文   时间:2014-08-24 19:31:13    阅读次数:203
Hadoop的word co-occurrence实现
WordCo-occurrence一直不知道该怎么正确翻译,单词相似度?还是共生单词?还是单词的共生矩阵?这在统计里面是很常用的文本处理算法,用来度量一组文档集中所有出现频率最接近的词组.嗯,其实是上下文词组,不是单词.算是一个比较常用的算法,可以衍生出其他的统计算法.能用来做推荐,因..
分类:其他好文   时间:2014-08-24 19:31:03    阅读次数:205
看看我们能做点什么
当前,各种互联网思维扑面而来,一时间各色公司,或高或低的管理层,嘴里要没几句互联网词汇,开发方向要跟互联网不沾边,都不好意思跟人打招呼。仿佛互联网一来,就可以拯救公司现状于水火,从此走上快速发展的康庄大道。今天先随便写点,也不知道该写点什么了。
分类:其他好文   时间:2014-08-24 19:30:53    阅读次数:203
VMM2008R2管理工具安装
1、安装数据库2、创建VMM服务器启动账号,并且加入到管理员组。3、在2008R2中安装VMM管理工具3.1)选择安装简易版的sql2005企业版3.2)创建共享库3.3)端口和账户设定,将vmmserver账户添加到本地管理员组中4、安装VMM管理员控制台,按照提示一路默认下一步即可完成菜鸟实验笔..
分类:其他好文   时间:2014-08-24 19:30:43    阅读次数:291
配置VMM2008R2管理工具中安装共享的ISO文件
1、VMM服务器的启动账户,在安装VMM工具时就要输入2、库服务器共享文件夹,赋予用户读写权限和NTFS读写权限以及VMM服务启动账户和虚拟服务器读取权限3、在Hyper-V服务器委派库服务器4、重启Hyper-V服务器就可以完成委派任务菜鸟实验笔记,不足之处还请大神指正
分类:其他好文   时间:2014-08-24 19:30:33    阅读次数:268
Azure虚拟机负载平衡
Azure负载平衡负载平衡概述:MicrosoftAzure为在其中托管的虚拟机(IaaS)和云服务(PaaS)提供负载平衡服务。负载平衡支持应用程序伸缩,并且提供应用程序故障恢复以及其他优势。可以通过以下方式访问负载平衡服务:通过MicrosoftAzure门户或应用程序的服务模型指定服务上的输入端..
分类:其他好文   时间:2014-08-24 19:30:24    阅读次数:238
Hadoop学习笔记之二:Hadoop体系架构
HDFS简介HDFS有着高容错性(fault-tolerant)的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高吞吐量(highthroughput)来访问应用程序的数据,适合那些有着超大数据集(largedataset)的应用程序。1.HDFS有以下几个主要特点:处理超大文件:存储的一个超大..
分类:其他好文   时间:2014-08-24 19:30:13    阅读次数:275
rsync的简单应用及配置
rsync是类unix系统下的数据镜像备份工具——remotesync。一款快速增量备份工具RemoteSync,远程同步支持本地复制,或者与其他SSH、rsync主机同步。rsync具有可以将镜像保存整个目录树或文件系统;较高的数据传输效率;可以借助于ssh实现安全数据传输;支持匿名传输的特点。rsyn..
分类:其他好文   时间:2014-08-24 19:30:03    阅读次数:217
rsync的应用
rsync是一个远程同步工具,可以在本主机,或者在远程主机上完成数据远程同步,基于rsync算法,检测本主机,或者远程主机源目标之间的数据是否相同,来完成数据同步.特点:1、可以镜像保存整个目录树或文件系统;2、较高的数据传输效率;3、可以借助于ssh实现安全数据传输;4、支持匿..
分类:其他好文   时间:2014-08-24 19:29:43    阅读次数:314
awk小技巧和深度应用
awk简介awk是一种编程语言,由AT&T贝尔实验室的AlfredAho,PeterWeinberger和BrianKernighan开发一种对文件进行指定规则浏览和抽取信息的工具。当然,有awk必然还要说sed,这俩都是上古神器,功能十分强大,sed和awk各有各的有点,awk在速度上要慢于sed。awk基本语法awk[op..
分类:其他好文   时间:2014-08-24 19:29:33    阅读次数:349
mysql索引规则
mysql建索引最好在整数字段上,效果较明显===>1.select*fromgoodswhereis_delete=0andstatus=1and(namelike‘%%‘orintrolike‘%%‘)2.如果在is_delete和status上建索引,速度差距至少有几十倍3.索引建在整数上比charvarchar上快4.关联查询时,最好关联的字段类型都是一样,最好..
分类:数据库   时间:2014-08-24 19:29:23    阅读次数:216
mysql源码---核心类 (1)线程类
线程是mysql一个很重要的概念。线程用来处理来自客户端的连接,线程和连接是1:1的关。线程和THD对象也是1:1对应的关系,有些线程会被设置为优先,而有些线程没有优先级,而线程的优先级设置在sql/mysql_priv.h#defineINTERRUPT_PRIOR-2#defineCONNECT_PRIOR -1#defineWAIT_PRIO..
分类:数据库   时间:2014-08-24 19:29:13    阅读次数:307
Rsync + Inotify
Rsync一、基础知识1、rsync:是传输输工具,类似于scpScp的用法要知道远程主机的密码和账号文件在本地上传到远程Scp[option]sourcefile[[user@]host1:]destions/file文件在远程下载到本地Scp[option][[user@]host1:]destions/filesource/filersync?.afast,versatile,remote(and..
分类:其他好文   时间:2014-08-24 19:29:03    阅读次数:320
CentOS 7 DNS部署
CentOS7DNS服务器架设项目背景和要求要保证即能够解析内网域名bigcloud.local的解析,又能解析互联网的域名。主DNS服务器:ZZYH1.BIGCLOUD.LOCAL辅助DNS服务器:ZZYH2.BIGCLOUD.LOCAL包含以下域的信息:1、bigcloud.local域的信息:FQDNIP地址备注zzyh1.bigcloud.local192.168...
分类:其他好文   时间:2014-08-24 19:28:53    阅读次数:247
lVM逻辑卷管理相关总结
创建、管理LVM:创建分区Disk/dev/xvdc:2147MB,2147483648bytes 255heads,63sectors/track,261cylinders Units=cylindersof16065*512=8225280bytes Sectorsize(logical/physical):512bytes/512bytes I/Osize(minimum/optimal):512bytes/512bytes Diskidentifier:0xd199e24a De..
分类:其他好文   时间:2014-08-24 19:28:44    阅读次数:387
inotify+rsync
一、rsync介绍:rsync是类unix系统下的数据镜像备份工具,从软件的命名上就可以看出来--remotesync。特性:l可以镜像保存整个目录树和文件系统。l可以很容易做到保持原来文件的权限、时间、软硬链接等等。l无须特殊权限即可安装。l快速:第一次同步时rsync会复制全部内容,但在..
分类:其他好文   时间:2014-08-24 19:28:33    阅读次数:297
Ubuntu 12.04安装基于fcitx的sogou输入法,可用
如果你的fcitx不能使用,或者出现“搜狗面板程序加载失败,请重启以使用输入法”,都请先卸载fcitx。卸载方法可以使用sudo apt-get autoremove fcitx,或者直接在software center搜索fcitx并卸载。 我的电脑环境: 1. System version - Ubuntu 12.04.*; 2. Connected to internet....
分类:其他好文   时间:2014-08-24 19:27:23    阅读次数:215
1216条   上一页 1 ... 21 22 23 24 25 26 27 ... 72 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!