标签:hadoop pca knn 人脸识别 大数据 人工智能
留学本来想继续在研究生这条路上一直走到黑的,奈何时间不够,口袋里面的银子总是不够用, 研究的东西也是浅尝辄止,没办法匆匆写了篇论文交了就毕业了,一声长叹,想想求学二十余载,总是感觉什么都不够用,尤其是脑子,有时甚至忘了带上 研究室生活也是张弛无度 决定出去工作了,但是在此之前简单的把研究的内容整理下, 权当是抛砖引玉,忘别见此笑话, 以后的内容会偏及数据防护DLP领域<-本人从事的工作 下面开始回归正题: 大数据这个领域绝对是大势所趋,尤其是图像识别/语音识别这两个领域,这绝对是是人工智能领域必须要解决的两大难题,当然像谷歌微软苹果这些巨型企业每年也投入了相当多的闪闪金子到此领域,至此已初见成效. 话说像大数据集群的终极目标被很多人误解了,很多人觉得可以通过Hadoop组建廉价集群很High,有点变废为宝的觉悟 >.< 谷歌还缺钱么。。。。。真是, 人工智能目前为止不要独立的强健大脑(有更好),而是需要一个强健的集群和一个强覆盖面通信网络
这两个领域国内起步晚,研究少,进度慢,觉悟还惊人的低,各个方面不得不步人后尘. 这次的内容是如何在Hadoop平台通过人脸识别技术给大批量图片进行分类. Tagging and Classifying Facial Images in Cloud Environments Based on KNN using MapReduce
内容就简单写写,不复杂,希望对于入门的同学有所帮助 这里有多个关键词: Hadoop/Mapreduce,人脸图像识别,分类算法 先来张图熟悉熟悉
随着图片指数级急增,别说社交网站之类的,就全球各地每天收集到的CCTV图像就够喝一壶的,存储技术也是几十年原地踏步,这是后话,以后会慢慢涉及这一方面, 相应的图片处理技术还停留在五六十年代,数百亿张图片如何一次性处理这是个非常大的难题, 所以呢这里假设一个情景:如何通过实时分析全国各地CCTV/SNS网站图片中出现的人脸图像追踪罪犯 Hadoop让集群处理图片成为可能,图像识别技术却没跟的上时代, 炉灶换成了电饭煲,伙夫却还是原来的伙夫,是煮不出满汉全席的 但是不影响我们练练手 这里用最原始最基本最简单的图片特性提取算法 : PCA 主成分分析,(ICA, LDA 这些代码写了,没敢试) 分类算法也用最原始最简单最粗暴的分类算法 : KNN 讲到PCA降维算法,我想起来个多维空间问题和矩阵降维问题, 在我看来多维空间是三维空间的重叠的集合,比如,两个三维空间的两维重合后就是4维空间,两个4维空间的三维重合后就是5维空间,以此类推... 矩阵降维: 现有矩阵维数都是比较低了,如果是 10000*10000的矩阵呢, 如何降维,这个稍微研究过,以后会单独开一篇讨论下. PCA/KNN相关算法的解释可以单独开个好几篇写,以后看有空的,网上资料也不少
如这张图中,先通过图片学习提取特征因子,然后再映射到一定维度的空间,最后利用KNN算法找出最相近的值(人脸)
整个构造图放到Hadoop中后流程图将如下
啥,你问我效果
结论:实用性很强,但是算法方面有待提高,奈于时间有限,没有使用更高级的算法,算练手吧。 抛砖引玉
|
标签:hadoop pca knn 人脸识别 大数据 人工智能
原文地址:http://blog.csdn.net/sktechcom/article/details/45252185