最近在政府部门介绍SharePoint 2013 新功能,我也准备了很多,比如SharePoint 2013的Search。以后有机会谈谈Office Web App,Workflow等。SharePoint 2013的搜索功能很强大,特别是在社交领域的搜索让我耳目一新(如发掘知识,发现人际关系等)...
分类:
其他好文 时间:
2015-12-13 13:55:34
阅读次数:
373
2015年3月23日(星期一)晴、南风 今天数据组开会说爬虫已经开发完毕,在尝试爬网站。由于我们采集的网站,网址都是固定的,并且爬虫网页深度为3。不需要像heritrix这些通用爬虫那么强大的功能。爬虫主要采用了httpclient和htmlparse两个Java库,爬虫的架构思路借鉴了下面的思路....
分类:
其他好文 时间:
2015-12-01 01:42:45
阅读次数:
186
代码:# _*_ coding:utf-8 _*_import urllib2import reimport sys#reload(sys)#sys.setdefaultencoding('utf-8') class Tool: removeImg = re.compile(r'') ...
分类:
编程语言 时间:
2015-11-28 21:37:59
阅读次数:
334
刚好把Python基础篇看完了,发现还是有很多没看懂滴!就想试试写第一个非常简单的爬虫来感受一下爬虫也就是爬网页的意思,其实就是根据Url来获取它的网页信息,虽然在我们的浏览器看着是排版非常优美、明确、简单的画面,但其实是由伟大的浏览器解释才呈现出来滴,实际上它是一段HTML代码和Java Scri...
分类:
其他好文 时间:
2015-09-08 21:42:00
阅读次数:
193
早上刷空间发现最近好多人过生日诶~仔细想想,好像4月份的时候也是特别多人过生日【比如我那么每个人生日的月份有什么分布规律呢。。。突然想写个小程序统计一下最简单易得的生日数据库大概就是新浪微博了:但是电脑版的新浪微博显然是动态网页。。。如果想爬这个应该要解析JS脚本【就像上次爬网易云音乐。。然而并不会...
分类:
编程语言 时间:
2015-09-05 12:31:09
阅读次数:
341
什么是HtmlUnit HtmlUnit是一个开源的浏览器模拟工具,可以方便我们模拟浏览器的行为,例如打开网页,提交表单等,这样我们可以用他来爬网页 官网下载:http://htmlunit.sourceforge.net/? java API:http://ht...
分类:
Web程序 时间:
2015-08-31 12:00:15
阅读次数:
1064
比如爬baidu.com, 在python 3.4 中应该这么写 import urllib.request
def getHtml(url):
page = urllib.request.urlopen(url)
html = page.read()
return html
html = getHtml("http://baidu.com")
print (html...
分类:
编程语言 时间:
2015-08-27 15:14:06
阅读次数:
141
本文将使用Python3.4爬网页、爬图片、自动登录。并对HTTP协议做了一个简单的介绍。在进行爬虫之前,先简单来进行一个HTTP协议的讲解,这样下面再来进行爬虫就是理解更加清楚。...
分类:
编程语言 时间:
2015-07-12 15:47:26
阅读次数:
159
1、简介 Skipfish是一个积极的Web应用程序的安全性侦察工具。 它准备了一个互动为目标的网站的站点地图进行一个递归爬网和基于字典的探头。 然后,将得到的地图是带注释的与许多活性(但希望非破坏性的)安全检查...
分类:
Web程序 时间:
2015-06-17 07:11:34
阅读次数:
176
这里有一条解决在SharePoint 2010搜索爬网时遇到的“拒绝访问错误”的小技巧。首先要检查默认内容访问帐户是否具有相应的访问权限,或者添加一条相应的爬网规则。如果目标资源库是一个SharePoint库,验证一下该帐号是否具有对该SharePoint web应用程序具有至少“完全读取”的权限。...
分类:
其他好文 时间:
2015-05-28 23:12:22
阅读次数:
178