码迷,mamicode.com
首页 >  
搜索关键字:抓取    ( 5747个结果
Java写的抓取任意网页中email地址的小程序
Java写的抓取任意网页中email地址的小程序...
分类:编程语言   时间:2014-05-10 09:58:23    阅读次数:319
抓取网页时,乱码问题
1 def get_content(): 2 user_agent="Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/34.0.1847.131 Safari/537.36"...
分类:Web程序   时间:2014-05-09 13:23:23    阅读次数:469
htmlunit教程
最近写爬虫的时候,利用httpclient抓取一些网页出现一些问题,就是抓取回来的内容都含有大量的加密文本(通过javascript脚本),无法获得真实的内容(也就是用浏览器打开网页呈现的内容)。所以,一般需要配合js引擎来解决这个问题,搜索了下,发现htmlunit这个工具就可以帮忙。了解和使.....
分类:Web程序   时间:2014-05-08 22:54:09    阅读次数:1123
【网页抓取】判断URL是否有效并可提供下载
问题的产生: 今天在提供API接口给客户的时候,客户提出了一个要求,有一个接口返回的语音文件的URL地址需要做有效性验证,这里所指的有效是指请求这个URL后能直接下载语音文件,反之则视为无效。 先来看看两个请求语音文件的URL地址: 有效的:http://xxx.xxx.xxx.xxx:60...
分类:Web程序   时间:2014-05-08 06:19:12    阅读次数:463
python初体验之小小爬虫
小月月是个懒家伙,博客更新好慢...前几天拿到某公司的面试题,要求在Linux/Ubuntu/Debian/Suse/Centos下用python2.7开发一个爬虫,抓取百度新闻搜索结果的前三页标题+url。这可把对python一窍不通的小月月难住了,肿么办呢...哦,最简单有效直接的方法就是网上查...
分类:编程语言   时间:2014-05-07 17:11:38    阅读次数:457
搜索帮助的建立一(基于维护视图或者参考表)
搜索帮组的的实质是从物理表中获取需要输入的数据,数据的查找方式有两种,第一种直接从物理表或试图中获取,第二种可以通过ABAP程序从数据表中抓取。本节介绍第一种。示例:交货单相关信息。1、建立帮组视图(专门为维护搜索帮助设立)该视图仅仅提供表的关联信息不会在数据库服务器上占实际空间2、创建搜索帮组:注...
分类:其他好文   时间:2014-05-07 13:46:25    阅读次数:296
新浪热门微博、热门话题抓取
A.为什么要做这个功能? 最近微博和微信开放平台的二次开发整的貌似蛮火,但做过微博开放平台的二次开发的人都会知道,新浪提供的微博访问接口并不是那么完美,有众多限制(调用频率限制、接口级别限制),对于没有经过审核通过高级接口的用户而言,要想通过API来实现这个功能,我只能说一句呵呵。B.实现方式与步....
分类:其他好文   时间:2014-05-07 09:51:10    阅读次数:557
jsoup: Java HTML 解析器
jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。 请参考:jsoup.org 例如: 抓取CSDN极客头条内容  soup.bsh // package org.jsoup.examples; import org.jsoup.Jsoup; import org.jsoup.helper.Validate; import org.jsoup.no...
分类:编程语言   时间:2014-05-07 07:29:59    阅读次数:363
Nginx 进程间通信
Linux下的IPC很多,nginx的进程都是有亲缘关系的进程,对于他们的通信我们选择TCP socket进行通信。 TCP socket 用来做进程通信的好处有, 1.socket是文件描述符,操作简单。 2.双向流动。3.另外还有一个重要好处:可记录可重现,我们可以用tcpdump抓取信息,方便调试。 当然对于进程间大量数据的共享 自然而然的我们采用共享内存。...
分类:其他好文   时间:2014-05-07 03:26:25    阅读次数:421
python网络爬虫(一):网络爬虫科普与URL含义
1. 科普 通用搜索引擎处理的对象是互联网的网页,目前网页的数量数以亿计,所以搜索引擎面临的第一个问题是如何设计出高效的下载系统,已将海量的网页下载到本地,在本地形成互联网网页的镜像。网络爬虫就是担当此大任的。 抓取网页的过程其实和读者平时使用IE浏览器浏览网页的道理是一样的。比如说你在浏...
分类:编程语言   时间:2014-05-07 02:41:56    阅读次数:368
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!