环境描述 Windows 2012 R2,SharePoint 2013(没有sp1补丁),sql server 2012错误描述 搜索服务正常,但是爬网一直在Crawling Full,但是爬不到任何东西,而且不会停止,爬了一宿什么都没有爬到: 爬网不止,爬了一宿什么都没有爬到,错误如下: 去15/logs里面找日志;Non-OAuth request. IsAuthenticated...
分类:
其他好文 时间:
2014-12-12 19:15:10
阅读次数:
218
最近对Python是异常喜爱,看完了Vamei大神的python快速教程(看到标准库不想看了),做了一些leetCode题目熟悉了一下基本语法,然后准备用Scarpy爬网页,然后用collaborate filler算法做一个电影推荐系统。昨天学了一天Scarpy,今天本来准备继续学,发现一门U.....
分类:
编程语言 时间:
2014-12-10 19:39:11
阅读次数:
315
一、XML基本语法: 如果我们用爬网页的方式获取数据,必然要解析网页。网页中存储数据的部分一般用XML语法,所以这里介绍一下R解析XML的方法。其实这部分内容挺简单的,没有高深的技巧,很容易搞明白。 首先要知道XML的基本要素:元素、属性、文本数据,我们可以看如下xml文件: Harry P...
分类:
其他好文 时间:
2014-11-19 08:36:41
阅读次数:
179
就像百度google一样,SharePoint Search需要先爬网,才能提供搜索结果。那么如何指定SharePoint Search爬哪些内容呢?就要在Content Source里设定了。
这里介绍一下SharePoint Search的Content Source。...
分类:
其他好文 时间:
2014-11-09 01:05:07
阅读次数:
165
SharePoint 2013 search service 爬网错误诊断三则...
分类:
其他好文 时间:
2014-09-13 21:34:35
阅读次数:
218
importurllib2,urllib,os,redefZZ(url):pathw=os.getcwd()#图片和标题目录imagetitleregion=r'\r\n'imagetitleRe=re.compile(imagetitleregion)#提取文件downregion=u'免费下载'...
分类:
编程语言 时间:
2014-09-13 17:15:55
阅读次数:
139
因工作需要,日常工作中有不少时间是用在了反复登陆内网。故详细研究测试了BeautifulSoup的用法,总结下来备用爬网页之需。首先是导入模块并初始化了:from bs4 import BeautifulSoupsoup=BeautifulSoup(opener)#1、tag标签法如果一层层的标签包...
分类:
编程语言 时间:
2014-08-11 09:55:51
阅读次数:
373
上一篇文章中已经介绍了简单的python爬网页下载文档,但下载后的文档多为doc或pdf,对于数据处理仍然有很多限制,所以将doc/pdf转换成txt显得尤为重要。查找了很多资料,在linux下要将doc转换成txt确实有难度,所以考虑先将pdf转换成txt。 师兄推荐使用PDFMiner来处...
分类:
编程语言 时间:
2014-07-14 10:10:14
阅读次数:
249
Sharepoint搜索引擎主要由6种组件构成,他们分别是爬网组件,内容处理组件,分析处理组件,索引组件,查询处理组件,搜索管理组件。可以将这6种组件分别部署到Sharepoint场内的多个服务器上,组成适合需求的Sharepoint搜索场,搜索场的体系结构设计主要参考量是爬网内容量,微软根据爬.....
分类:
其他好文 时间:
2014-07-06 21:24:43
阅读次数:
226
第一步,进入管理中心,点击管理应用程序,点击search service 应用程序进入到搜索管理配置页面,选择内容源第二步,点击新建内容源,给内容源命名,在爬网内容类型中选网站,在爬网设置中选中仅对每个开始地址的第一个页面进行爬网,在这一步需要注意爬网设置的选择,如果选择自定义,服务器越距配置过大可...
分类:
其他好文 时间:
2014-07-06 20:58:23
阅读次数:
208