通用爬虫和聚焦爬虫 根据使用场景,网络爬虫可分为 通用爬虫 和 聚焦爬虫 两种. 通用爬虫 通用网络爬虫 是 捜索引擎抓取系统(Baidu、Google、Yahoo等)的重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。 通用搜索引擎(Search Engine)工作 ...
分类:
其他好文 时间:
2018-10-13 10:23:53
阅读次数:
229
Python机器学习基础教程-[德] 安德里亚斯·穆勒(Andreas C.Müller)[美]莎拉·吉多(Sarah Guido) 著,张亮(hysic) 译 Python机器学习基础教程-[德] 安德里亚斯·穆勒(Andreas C.Müller)[美]莎拉·吉多(Sarah Guido) 著, ...
分类:
编程语言 时间:
2018-10-13 02:41:12
阅读次数:
1115
分为四类 (1)实意动词(National Verb)(2)系动词(Link Verb)(3)助动词 (Auxiliary Verb)(4)情态动词(model Verb) (1)动词有数量和时态的变化,时态通常有三大时态: 现在,过去,和将来时 (2)根据动作进行的状态可分为: 一般时,进行时,和 ...
分类:
其他好文 时间:
2018-10-13 02:30:03
阅读次数:
215
1.训练词向量代码如下:#训练词语为向量表示def w2v_train(self): ques = self.cu.execute('select question from activity')#将所有问题内容作为预料训练一个w2v模型 da_all = [] for d in ques: da_ ...
分类:
其他好文 时间:
2018-10-10 21:52:36
阅读次数:
177
lucene全文检索 2、Lucene实现全文检索的流程a) 创建索引b) 查询索引3、配置开发环境4、创建索引库5、查询索引库6、分析器的分析过程a) 测试分析器的分词效果b) 第三方中文分析器7、索引库的维护a) 添加文档b) 删除文档c) 修改文档8、Lucene的高级查询Lucene的查询a ...
分类:
Web程序 时间:
2018-10-10 14:09:49
阅读次数:
182
今天更新了代码,发现竟然找不到货物列表了,查看历史,同事加了搜索优化 Elasticsearch 应该和以前学的luncence(也忘了)分词查询差不多吧 具体配置 也就是 导包 引入客户端, 启动Elsticsearch服务器 具体代码官网有 下载 E和Kibana(可视化工具) 启动bat 利用 ...
分类:
其他好文 时间:
2018-10-06 20:31:23
阅读次数:
307
英文文本词与词之间以空格分隔,方便计算机识别,但是中文以字为单位,句子所有字连起来才能表达一个完整的意思。如英文“I am writing a blog”,英文词与词之间有空格进行隔开,而对应的中文“我在写博客”,所有的词连在一起,计算机能很容易的识别“blog”是一个单词,而很难知道“博”、“客” ...
分类:
编程语言 时间:
2018-10-06 18:33:10
阅读次数:
187
elasticsearch 自定义分词器 安装拼音分词器、ik分词器 拼音分词器: https://github.com/medcl/elasticsearch-analysis-pinyin/releases ik分词器:https://github.com/medcl/elasticsearch ...
分类:
编程语言 时间:
2018-10-04 17:24:58
阅读次数:
399
NLP自然语言:指一种随着社会发展而自然演化的语言,即人们日常交流所使用的语言;自然语言处理:通过技术手段,使用计算机对自然语言进行各种操作的一个学科;NLP研究的内容词意消歧;指代理解;自动生成语言;机器翻译;人机对话系统;文本含义识别;NLP处理语料读入网络本地分词```python#!/usr/bin/envpython--coding:utf-8--@Time:2018-9-2822:21
分类:
编程语言 时间:
2018-10-02 17:19:28
阅读次数:
195
Python:电商产品评论数据情感分析,jieba分词,LDA模型 ...
分类:
编程语言 时间:
2018-10-02 13:57:14
阅读次数:
529