背景:分析用户在世界杯期间讨论最多的话题。
思路:把用户关于世界杯的帖子拉下来,然后做中文分词+词频统计,最后将统计结果简单做个标签云,效果如下
后续:中文分词是中文信息处理的基础,分词之后,其实还有特别多有趣的文本挖掘工作可以做,也是个知识发现的过程,以后有机会再学习下。...
分类:
其他好文 时间:
2014-07-13 18:53:55
阅读次数:
367
垂直搜索引擎大体上需要以下技术
1.Spider
2.网页结构化信息抽取技术或元数据采集技术
3.分词、索引
4.其他信息处理技术
垂直搜索引擎的技术评估应从以下几点来判断
1.全面性
2.更新性
3.准确性
4.功能性
垂直搜索的进入门槛很低,但是竞争的门槛很高。没有专注的精神和精湛的技术是不行的。行业门户网站具备行业优势但他们又是没有...
分类:
其他好文 时间:
2014-07-04 08:45:56
阅读次数:
295
中文分词是做好中文内容检索、文本分析的基础,主要应用于搜索引擎与数据挖掘领域。中文是以词为基本语素单位,而词与词之间并不像英语一样有空格来分隔,因而中文分词的难点在于如何准确而又快速地进行分词以下介绍4款开源中文分词系统。1、ICTCLAS – 全球最受欢迎的汉语分词系统 中文词法分析是中文信息处理...
分类:
其他好文 时间:
2014-06-26 22:35:29
阅读次数:
298
概述:
springmvc 框架围绕DispatcherServlet这个核心展开,DispatcherServlet是Spring MVC的总控制,它负责截获请求并将其分派给相应的处理器处理。SpringMVC框架包括注解驱动控制器、请求及响应的信息处理、视图解析、本地化解析、上传文件解析、异常处理以及表单标签绑定等内容。
SpringMVC是主要基于MODEL2实现的技术框架,Model2...
分类:
编程语言 时间:
2014-06-26 10:29:39
阅读次数:
433
神经网络是由大量处理单元(神经元)互相连接而成的网络,实际上ANN并不完全模拟了生物的神经系统,而是一种抽象、简化和模拟。神经网络的信息处理通过神经元的相互作用来实现,知识与信息的存贮表现在网络元件互连的分布式结构与联系,神经网络的学习和识别各神经元连接权系数的动态演化过程。实践中常用的基本神经.....
分类:
其他好文 时间:
2014-06-24 11:42:59
阅读次数:
417
配置系统是复杂软件必不可少的一部分,org.apache.hadoop.conf.Configuration在Hadooop各个子项目中发挥着重要作用。 windows系统广泛使用一种特殊批的ASCII文件.ini作为其主要配置文件标准,被称为(Initialization File)或概要文...
分类:
其他好文 时间:
2014-06-24 09:11:43
阅读次数:
248
TF-IDF算法全称为termfrequency–inversedocumentfrequency。TF就是termfrequency的缩写,意为词频。IDF则是inversedocumentfrequency的缩写,意为逆文档频率。该算法在信息处理中通常用来抽取关键词。比如,对一个文章提取关键词作为搜索词,就可以采用TF-IDF算法。要找出一?.
分类:
其他好文 时间:
2014-06-10 22:27:19
阅读次数:
395
在经过10余的职业生涯中,经历过数次创业投资,又经历过数次失败,和经历数次再打工,再职业化,再认知,再深化。逐渐让我的多年想法越来越有点深度广度和有点自信,也就是人们所希望的那样,有点靠谱了。
我的想法是,构建一个生态群化的超级大财团。
1》 总论:
1.1> 我的立足点是什么?
广义来讲,就是信息智慧化科技。
狭义来讲,就是高度集中...
分类:
其他好文 时间:
2014-06-10 15:51:44
阅读次数:
175