一.term与match 1.区别 2.查找多个精确值 二.修改器 1.词条建议器 两种顺序都可以得到结果 2.词组建议器 三.建议器(前缀提示) 1.基本使用 2.权重 3. size参数(返回数据量,默认是5) 4.skip_duplicates(过滤重复) 四.解决 size 最大10000的 ...
分类:
其他好文 时间:
2019-05-24 22:21:21
阅读次数:
134
在大多数人眼里,理财是被等同做投资的,说的是理财,但是表达的意思其实是指投资。但是理财就只是投资吗?理财到底包含哪些意思呢?我到底要不要理财呢? 从字面意思理解 理财 : 财 很好理解,就是财富,就是你的资产; 理 就是整理、理清、理顺,根据百度百科词条基本字义的解释,这里按第四条理解。 所以 理财 ...
分类:
其他好文 时间:
2019-04-14 19:30:35
阅读次数:
253
cookie cookie: 获取百度翻译某个词条的结果 一定要对start_requests方法进行重写。 两种解决方案: 1. Request()方法中给method属性赋值成post2. FormRequest()进行post请求的发送 爬虫相关操作 配置 代理: 下载中间件作用:拦截请求,可 ...
分类:
其他好文 时间:
2019-04-12 17:47:12
阅读次数:
161
今天在调试iReview项目的接口时,发现新增词条和新增库的时候,某些字段即使留空POST到后台时也能当做不为空。 经过排查,发现后台是使用 String 变量名 == null 这样的语句去判断变量是否为空,这样就产生了bug,因为即使接收到不带值的空字段, spring也会生成String对象, ...
分类:
编程语言 时间:
2019-04-10 22:04:03
阅读次数:
212
[TOC] 02. 爬取get请求的页面数据 一.urllib库 urllib是Python自带的一个用于爬虫的库,其主要作用就是可以通过代码模拟浏览器发送请求。其常被用到的子模块在Python3中的为urllib.request和urllib.parse,在Python2中是urllib和urll ...
分类:
其他好文 时间:
2019-04-07 22:02:23
阅读次数:
196
from selenium import webdriver # chrome驱动放在当前文件夹 myweb = webdriver.Chrome(executable_path="./chromedriver") url = "https://www.baidu.com" # 打开百度 myweb... ...
分类:
其他好文 时间:
2019-04-07 13:00:49
阅读次数:
198
字符集 编辑 本词条由“科普中国”百科科学词条编写与应用工作项目 审核 。 字符(Character)是各种文字和符号的总称,包括各国家文字、标点符号、图形符号、数字等。字符集(Character set)是多个字符的集合,字符集种类较多,每个字符集包含的字符个数不同,常见字符集名称:ASCII字符 ...
分类:
其他好文 时间:
2019-04-06 12:20:24
阅读次数:
111
TF-IDF是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。**字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。**即一个词语在一篇文章中出现次数越多, 同时在所 ...
分类:
其他好文 时间:
2019-04-05 18:21:33
阅读次数:
212
int b[10]={0,1,2,3,4,5,6,7,8,9}; int index=0; index=0; int c=b[++index]+b[++index]+b[++index]; 本条代码相当于 c=b[index]+b[index]+b[index]; index++;index++;i ...
分类:
其他好文 时间:
2019-03-29 09:15:04
阅读次数:
149
因为相关专业的缘故,之前得以听说过python编程语言,但也仅仅停留在百度搜索词条爬取的印象上面。而在当时c语言学的又比较吃力,于是对python莫名就产生某种敬而远之的奇怪情绪。就在好奇心战胜距离感的驱动下,我还是选修了这门程序设计,想看看它朦胧的面纱之下究竟是个什么模样。在这两周零星接触下来,我 ...
分类:
编程语言 时间:
2019-03-13 21:48:42
阅读次数:
201