搜索关键字：爬虫，搜索到10452个结果！码迷,mamicode.com！

网页爬虫WebCrawler（2）-Utilities

在网页爬虫的实现过程中还涉及了一些基本的功能函数，例如获取系统的当前时间函数，进程休眠和字符串替换函数等。我们将这些多次调用的与过程无关的函数写成一个类Utilities。 Code： /////Utilities.h //************************* //与操作系统相关的函数 //************************* #ifndef Uti...

分类：Web程序时间：2014-10-22 16:01:00 阅读次数：248

Jsoup 爬取页面的数据和理解HTTP消息头

推荐一本书：黑客攻防技术宝典.Web实战篇；顺便留下一个疑问：是否能通过jsoup大量并发访问web或者小型域名服务器，使其瘫痪？其实用jsoup熟悉的朋友可以用它解析url来干一件很无耻的事（源码保密）。呵呵，接下来简单的介绍下JSOUP。 jsoup 是一款基于Java 的HTML解析器，可直接解析某个URL地址、HTML文本字符串、HTML文件。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据。官网下载地址：h...

分类：Web程序时间：2014-10-22 11:06:52 阅读次数：277

实现html转Xml

最近在做一些网页信息采集的工作，说通俗点就是爬虫工具，要监控页面中某一部分内容是否发生变化。起初考虑用正则表达式去匹配网页源码，经过咨询有经验人士，推荐使用xpath去获取页面内容能获得更好的效率。但是对于html这种宽松语法要求的语言来说，不可能100%地完全符合xml标准，那么就没法使用xpat...

分类：Web程序时间：2014-10-22 10:46:33 阅读次数：175

blog_导航

blog导航在左下侧：随笔分类简要做个导航图放到这儿方便大家查阅直奔爬虫：点击-> 直奔oracle：点击->

分类：其他好文时间：2014-10-21 19:10:26 阅读次数：143

网页爬虫WebCrawler（1）-Http网页内容抓取

在windows下的C++通过Http协议实现对网页的内容抓取：首先介绍下两个重要的包（一般是在linux下的开源数据包，在windows下则调用其动态链接库dll）：curl包和pthreads_dll,其中curl包解释为命令行浏览器，通过调用内置的curl_easy_setopt等函数即可实现特定的网页内容获取（正确的编译导入的curl链接库，还需要另外一个包C-ares）。pt...

分类：Web程序时间：2014-10-21 15:34:13 阅读次数：273

8.1-8.31推荐文章汇总

8.1-8.31推荐文章汇总【移动开发】 Cocos2d-x Lua 读取Csv文件，更方便的使用数据笨木头 Android应用如何支持屏幕多尺寸多分辨率问题 xyz_lmn CSDN Android客户端开发(二):详解如何基于Java用Jsoup爬虫HTML数据 yanzi1225627 Android开发之WebVi...

分类：其他好文时间：2014-10-21 12:22:20 阅读次数：365

IT忍者神龟之Java网络爬虫回顾

网络爬虫的强大和伟大耸立在我们IT技术里面...

分类：编程语言时间：2014-10-21 10:23:03 阅读次数：279

布隆过滤器

通常，我们需要判断一个元素是否在一个集合中。比如在WPS字处理软件中，需要检查一个单词是否拼写正确；在FBI 中需要判断一个嫌疑犯的名字是否在嫌疑名单上；在网络爬虫里，判断一个网址是否被访问过。最简单的解决办法就是采用HashTable的方法来存储，它的好处是快速且精确，缺点是耗费大量内存空间。现在，来介绍一种数学工具，叫做布隆过滤器（Bloom Filter），是布隆在1970年...

分类：其他好文时间：2014-10-19 02:41:55 阅读次数：310

python 中文转码

最近在玩一些爬虫，python中文转码刚接触是一件麻烦的事（转换的原理省略）一般来说有encode(‘gbk‘),edcode(‘utf8‘),decode(‘gbk‘),decode(‘utf8‘)可以解决很大一部问题但是今天遇到了‘\\u6210\\u529f‘这种格式，上面的三板斧就搞不定了经过万能的度娘，发现了第一个贴子，叹为..

分类：编程语言时间：2014-10-17 07:05:36 阅读次数：254

java抓取动态生成的网页--吐槽

最近在做项目的时候有一个需求：从网页面抓取数据，要求是首先抓取整个网页的html源码（后期更新要使用到）。刚开始一看这个简单，然后就稀里哗啦的敲起了代码（在这之前使用过Hadoop平台的分布式爬虫框架Nutch，...

分类：编程语言时间：2014-10-17 02:11:54 阅读次数：306

共10452条上一页 1 ... 1011 1012 1013 1014 1015 ... 1046 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)