码迷,mamicode.com
首页 >  
搜索关键字:网页爬虫    ( 149个结果
Jsoup 爬取页面的数据和 理解HTTP消息头
推荐一本书:黑客攻防技术宝典.Web实战篇 ; 顺便留下一个疑问:是否能通过jsoup大量并发访问web或者小型域名服务器,使其瘫痪?其实用jsoup熟悉的朋友可以用它解析url来干一件很无耻的事(源码保密)。呵呵,接下来简单的介绍下JSOUP。 jsoup 是一款基于Java 的HTML解析器,可直接解析某个URL地址、HTML文本字符串、HTML文件。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。 官网下载地址:h...
分类:Web程序   时间:2014-10-22 11:06:52    阅读次数:277
网页爬虫WebCrawler(1)-Http网页内容抓取
在windows下的C++通过Http协议实现对网页的内容抓取:     首先介绍下两个重要的包(一般是在linux下的开源数据包,在windows下则调用其动态链接库dll):curl包和pthreads_dll,其中curl包解释为命令行浏览器,通过调用内置的curl_easy_setopt等函数即可实现特定的网页内容获取(正确的编译导入的curl链接库,还需要另外一个包C-ares)。pt...
分类:Web程序   时间:2014-10-21 15:34:13    阅读次数:273
多线程网页爬虫 python 实现(二)
#!/usr/bin/env python#coding=utf-8import threadingimport urllibimport reimport timecur=0last=0totalcount=0depth=0t_mutex=threading.Condition() class M...
分类:编程语言   时间:2014-10-15 00:21:09    阅读次数:297
多线程网页爬虫 python 实现
采用了多线程和锁机制,实现了广度优先算法的网页爬虫。对于一个网络爬虫,如果要按广度遍历的方式下载,它就是这样干活的: 1.从给定的入口网址把第一个网页下载下来 2.从第一个网页中提取出所有新的网页地址,放入下载列表中 3.按下载列表中的地址,下载所有新的网页 4.从所有新的网页中找出没有下载过的网页...
分类:编程语言   时间:2014-10-13 22:44:27    阅读次数:248
python实现的一个简单的网页爬虫
学习了下python,看了一个简单的网页爬虫:http://www.cnblogs.com/fnng/p/3576154.html自己实现了一个简单的网页爬虫,获取豆瓣的最新电影信息。爬虫主要是获取页面,然后对页面进行解析,解析出自己所需要的信息进行进一步分析和挖掘。首先需要学习python的正则表...
分类:编程语言   时间:2014-10-11 20:13:06    阅读次数:260
Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱
本文转自:http://www.52nlp.cn/python-%E7%BD%91%E9%A1%B5%E7%88%AC%E8%99%AB-%E6%96%87%E6%9C%AC%E5%A4%84%E7%90%86-%E7%A7%91%E5%AD%A6%E8%AE%A1%E7%AE%97-%E6%9C%...
分类:编程语言   时间:2014-10-07 19:07:03    阅读次数:331
网页爬虫及其用到的算法和数据结构
网络爬虫程序的优劣,很大程度上反映了一个搜索引擎的好差。不信,你可以随便拿一个网站去查询一下各家搜索对它的网页收录情况,爬虫强大程度跟搜索引擎好坏基本成正比。 1.世界上最简单的爬虫——三行情诗 我们先...
分类:Web程序   时间:2014-09-30 19:37:00    阅读次数:306
网页爬虫及其用到的算法和数据结构
网络爬虫,是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。网络爬虫是搜索引擎系统中十分重要的组成部分,它负责从互 联网中搜集网页,采集信息,这些网页信息用于建立索引从而为搜索 引擎提供支持,它决定着整个引擎系统的内容是否丰富,信息是否即 时,因此其性能的优劣直接影响着搜索引擎的效果。网络爬...
分类:Web程序   时间:2014-09-29 13:30:00    阅读次数:281
[Python学习] 专题一.函数的基础知识
最近才开始学习Python语言,??在学习视频中发现讲述的函数知识觉得非常不错,所以就写了第一篇Python学习的文章分享给大家.主要内容:1.Python安装与基本输入输出,print()函数和raw_input()函数简单用法.2.讲解函数的基本知识:(1).系统提供内部函数(2).第三方提供函数库:讲解如何安装httplib2第三方函数库,再做了个简单的网页爬虫例子(3).用户自定义函数.希望文章对大家有所帮助,才开始学习python知识,如果文章中有错误或不足之处,还请海涵,也希望大家提出意见与君共...
分类:编程语言   时间:2014-09-08 05:23:46    阅读次数:537
Java中正则表达式、模式匹配与信息抽取
引言记得几年前在做网页爬虫后的信息抽取时,针对网页源码中隐藏的要提取的信息,比如评论、用户信息等属性信息,直接利用HtmlParser得到。如此做倒是简单,不过利用的是网页的规范的tag标记。其实java中的正则表达式也可以用来实现这一功能。而且对于非tag的一些有规律的系列组合的字符串,正则表达式...
分类:编程语言   时间:2014-09-04 16:30:19    阅读次数:186
149条   上一页 1 ... 12 13 14 15 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!