码迷,mamicode.com
首页 >  
搜索关键字:爬网    ( 106个结果
SharePoint 2013 搜索报错"Unable to retrieve topology component health. This may be because the admin com
环境描述  Windows 2012 R2,SharePoint 2013(没有sp1补丁),sql server 2012错误描述  搜索服务正常,但是爬网一直在Crawling Full,但是爬不到任何东西,而且不会停止,爬了一宿什么都没有爬到:  爬网不止,爬了一宿什么都没有爬到,错误如下:   去15/logs里面找日志;Non-OAuth request. IsAuthenticated...
分类:其他好文   时间:2014-12-12 19:15:10    阅读次数:218
pythonbrew安装及配置/macosx
最近对Python是异常喜爱,看完了Vamei大神的python快速教程(看到标准库不想看了),做了一些leetCode题目熟悉了一下基本语法,然后准备用Scarpy爬网页,然后用collaborate filler算法做一个电影推荐系统。昨天学了一天Scarpy,今天本来准备继续学,发现一门U.....
分类:编程语言   时间:2014-12-10 19:39:11    阅读次数:315
用R解析XML
一、XML基本语法: 如果我们用爬网页的方式获取数据,必然要解析网页。网页中存储数据的部分一般用XML语法,所以这里介绍一下R解析XML的方法。其实这部分内容挺简单的,没有高深的技巧,很容易搞明白。 首先要知道XML的基本要素:元素、属性、文本数据,我们可以看如下xml文件: Harry P...
分类:其他好文   时间:2014-11-19 08:36:41    阅读次数:179
SharePoint Search之(三)新建内容源(Content Source)
就像百度google一样,SharePoint Search需要先爬网,才能提供搜索结果。那么如何指定SharePoint Search爬哪些内容呢?就要在Content Source里设定了。 这里介绍一下SharePoint Search的Content Source。...
分类:其他好文   时间:2014-11-09 01:05:07    阅读次数:165
SharePoint 2013 search service 爬网错误诊断三则
SharePoint 2013 search service 爬网错误诊断三则...
分类:其他好文   时间:2014-09-13 21:34:35    阅读次数:218
python爬爬(网友提供学习)
importurllib2,urllib,os,redefZZ(url):pathw=os.getcwd()#图片和标题目录imagetitleregion=r'\r\n'imagetitleRe=re.compile(imagetitleregion)#提取文件downregion=u'免费下载'...
分类:编程语言   时间:2014-09-13 17:15:55    阅读次数:139
Python之BeautifulSoup常用详细使用
因工作需要,日常工作中有不少时间是用在了反复登陆内网。故详细研究测试了BeautifulSoup的用法,总结下来备用爬网页之需。首先是导入模块并初始化了:from bs4 import BeautifulSoupsoup=BeautifulSoup(opener)#1、tag标签法如果一层层的标签包...
分类:编程语言   时间:2014-08-11 09:55:51    阅读次数:373
Python 将pdf转换成txt(不处理图片)
上一篇文章中已经介绍了简单的python爬网页下载文档,但下载后的文档多为doc或pdf,对于数据处理仍然有很多限制,所以将doc/pdf转换成txt显得尤为重要。查找了很多资料,在linux下要将doc转换成txt确实有难度,所以考虑先将pdf转换成txt。 师兄推荐使用PDFMiner来处...
分类:编程语言   时间:2014-07-14 10:10:14    阅读次数:249
Sharepoint2013搜索学习笔记之搜索构架简单概述(一)
Sharepoint搜索引擎主要由6种组件构成,他们分别是爬网组件,内容处理组件,分析处理组件,索引组件,查询处理组件,搜索管理组件。可以将这6种组件分别部署到Sharepoint场内的多个服务器上,组成适合需求的Sharepoint搜索场,搜索场的体系结构设计主要参考量是爬网内容量,微软根据爬.....
分类:其他好文   时间:2014-07-06 21:24:43    阅读次数:226
Sharepoint2013搜索学习笔记之设置外网内容源(四)
第一步,进入管理中心,点击管理应用程序,点击search service 应用程序进入到搜索管理配置页面,选择内容源第二步,点击新建内容源,给内容源命名,在爬网内容类型中选网站,在爬网设置中选中仅对每个开始地址的第一个页面进行爬网,在这一步需要注意爬网设置的选择,如果选择自定义,服务器越距配置过大可...
分类:其他好文   时间:2014-07-06 20:58:23    阅读次数:208
106条   上一页 1 ... 8 9 10 11 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!