搜索关键字：抓取，搜索到5747个结果！码迷,mamicode.com！

Java写的抓取任意网页中email地址的小程序...

分类：编程语言时间：2014-05-10 09:58:23 阅读次数：319

1 def get_content(): 2 user_agent="Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/34.0.1847.131 Safari/537.36"...

分类：Web程序时间：2014-05-09 13:23:23 阅读次数：469

htmlunit教程

最近写爬虫的时候，利用httpclient抓取一些网页出现一些问题，就是抓取回来的内容都含有大量的加密文本（通过javascript脚本），无法获得真实的内容（也就是用浏览器打开网页呈现的内容）。所以，一般需要配合js引擎来解决这个问题，搜索了下，发现htmlunit这个工具就可以帮忙。了解和使.....

分类：Web程序时间：2014-05-08 22:54:09 阅读次数：1123

【网页抓取】判断URL是否有效并可提供下载

问题的产生：今天在提供API接口给客户的时候，客户提出了一个要求，有一个接口返回的语音文件的URL地址需要做有效性验证，这里所指的有效是指请求这个URL后能直接下载语音文件，反之则视为无效。先来看看两个请求语音文件的URL地址: 有效的：http://xxx.xxx.xxx.xxx:60...

分类：Web程序时间：2014-05-08 06:19:12 阅读次数：463

python初体验之小小爬虫

小月月是个懒家伙，博客更新好慢...前几天拿到某公司的面试题，要求在Linux/Ubuntu/Debian/Suse/Centos下用python2.7开发一个爬虫，抓取百度新闻搜索结果的前三页标题+url。这可把对python一窍不通的小月月难住了，肿么办呢...哦，最简单有效直接的方法就是网上查...

分类：编程语言时间：2014-05-07 17:11:38 阅读次数：457

搜索帮助的建立一（基于维护视图或者参考表）

搜索帮组的的实质是从物理表中获取需要输入的数据，数据的查找方式有两种，第一种直接从物理表或试图中获取，第二种可以通过ABAP程序从数据表中抓取。本节介绍第一种。示例：交货单相关信息。1、建立帮组视图（专门为维护搜索帮助设立）该视图仅仅提供表的关联信息不会在数据库服务器上占实际空间2、创建搜索帮组：注...

分类：其他好文时间：2014-05-07 13:46:25 阅读次数：296

新浪热门微博、热门话题抓取

A.为什么要做这个功能？最近微博和微信开放平台的二次开发整的貌似蛮火，但做过微博开放平台的二次开发的人都会知道，新浪提供的微博访问接口并不是那么完美，有众多限制（调用频率限制、接口级别限制），对于没有经过审核通过高级接口的用户而言，要想通过API来实现这个功能，我只能说一句呵呵。B.实现方式与步....

分类：其他好文时间：2014-05-07 09:51:10 阅读次数：557

jsoup: Java HTML 解析器

jsoup 是一款Java 的HTML解析器，可直接解析某个URL地址、HTML文本内容。请参考：jsoup.org 例如: 抓取CSDN极客头条内容 soup.bsh // package org.jsoup.examples; import org.jsoup.Jsoup; import org.jsoup.helper.Validate; import org.jsoup.no...

分类：编程语言时间：2014-05-07 07:29:59 阅读次数：363

Nginx 进程间通信

Linux下的IPC很多，nginx的进程都是有亲缘关系的进程，对于他们的通信我们选择TCP socket进行通信。 TCP socket 用来做进程通信的好处有， 1.socket是文件描述符，操作简单。 2.双向流动。3.另外还有一个重要好处：可记录可重现，我们可以用tcpdump抓取信息，方便调试。当然对于进程间大量数据的共享自然而然的我们采用共享内存。...

分类：其他好文时间：2014-05-07 03:26:25 阅读次数：421

python网络爬虫（一）：网络爬虫科普与URL含义

1. 科普通用搜索引擎处理的对象是互联网的网页，目前网页的数量数以亿计，所以搜索引擎面临的第一个问题是如何设计出高效的下载系统，已将海量的网页下载到本地，在本地形成互联网网页的镜像。网络爬虫就是担当此大任的。抓取网页的过程其实和读者平时使用IE浏览器浏览网页的道理是一样的。比如说你在浏...

分类：编程语言时间：2014-05-07 02:41:56 阅读次数：368

共5747条上一页 1 ... 570 571 572 573 574 575 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)