搜索关键字：生日爬虫，搜索到12567个结果！码迷,mamicode.com！

【Python】网络爬虫（一）：pyquery一瞥

1.pyquery简介 python中的pyquery模块语法与jquery相近，可用来解析HTML文件。官方文档地址：https://pythonhosted.org/pyquery/ 。通过HTML中的标签、id、给定的索引等来获取元素，使得解析HTML文件极为方便。 2.实例 2.1 爬取豆瓣电影页面中主演右键chrome中的审查元素，观察到主演的标...

分类：编程语言时间：2014-07-22 23:02:54 阅读次数：455

爬虫-微信公众平台消息获取

帮朋友抓取微信公众平台的用户评论信息。只说核心的部分，怎么解析评论信息。查看HTML代码，没有发现关于评论部分的标签。看了是用JS动态生成的，但是查找ajax请求也没有找到。最后搜索一下，原来是在这里： wx.cgiData = { total_count : 91, latest_msg_id : '200325222...

分类：微信时间：2014-07-22 22:59:35 阅读次数：4934

利用Python编写网络爬虫下载文章

今天来讲如何利用Python爬虫下载文章，拿韩寒的博客为例来一步一步进行详细探讨。。。韩寒的博客地址是：http://blog.sina.com.cn/s/articlelist_1191258123_0_1.html 可以看出左边是文章列表，而且不止一页，我们先从最简单的开始，先对一篇文章进行下载，再研究对一页所有的文章进行下载，最后再研究对所有的文章下载。...

分类：编程语言时间：2014-07-22 22:59:35 阅读次数：330

社会化海量数据采集爬虫框架搭建

如果你对项目管理、系统架构有兴趣，请加微信订阅号“softjg”，加入这个PM、架构师的大家庭随着BIG DATA大数据概念逐渐升温，如何搭建一个能够采集海量数据的架构体系摆在大家眼前。如何能够做到所见即所得的无阻拦式采集、如何快速把不规则页面结构化并存储、如何满足越来越多的数据采集还要在有限时间...

分类：其他好文时间：2014-05-12 17:06:14 阅读次数：396

Zb的生日

时间限制：3000ms | 内存限制：65535KB难度：2描述今天是阴历七月初五，acm队员zb的生日。zb正在和C小加、never在武汉集训。他想给这两位兄弟买点什么庆祝生日，经过调查，zb发现C小加和never都很喜欢吃西瓜，而且一吃就是一堆的那种，zb立刻下定决心买了一堆西瓜。当他准备把西瓜...

分类：其他好文时间：2014-05-09 12:44:29 阅读次数：260

《每日一博》——暂停一次

因为明日生日，所以，嗯。博客会暂停写一次，毕竟生活中的朋友还是很重要的呢！！

分类：其他好文时间：2014-05-06 00:09:03 阅读次数：205

Glusterfs目录ls性能优化方案分析

讨论了glusterfs对文件系统爬虫rsync／ls目录性能的现有优化措施和可能的进一步优化方案。优化思路是减少本地文件系统的元数据操作，减少fuse client的负载，减少req的网络轮询次数，减少一次网络通信时间，缓存预抓取，并发，异步，bulk 传输。...

分类：其他好文时间：2014-05-05 13:24:35 阅读次数：536

异步DNS解析的实现

在高性能爬虫为什么使用定制DNS客户端一文中阐述了DNS解析是网络爬虫的瓶颈。目前主要有两种方法来提高DNS解析效率：1. 基于多线程的DNS 解析2. 基于NIO的DNS解析dnsjava中使用的解析方式就是基于多线程的DNS解析class ResolveThread extends Thread...

分类：其他好文时间：2014-05-04 11:15:14 阅读次数：300

腾讯、网易、新浪新闻网站爬虫编写记录及评论格式分析

先说说看这篇博客你能知道什么：1 腾讯、网易、新浪不同新闻的地址格式以及评论内容的地址格式（返回数据为json的异步接口）；2 一些比较通用的设计方法，对软件设计的菜鸟可能有帮助；之前也说了要写这边博客，现在终于写出来了。我的毕业设计的指导老师说毕设论文的字数不够……所以我决定把这些本不应该出现在论文中的实现细节凑到论文中。至于下面说到的东西要解决什么问题，各位可以先看看这个网站（我毕设的初步结果，目前还在优化中，包括代码结构还有UI设计）：http://reetseenews.duapp.com/ 这个...

分类：Web程序时间：2014-05-02 06:50:01 阅读次数：436

高性能爬虫为什么使用定制DNS客户端？

DNS 解析是高性能网络爬虫的瓶颈，主要是因为：1. 由于域名服务的分布式的特性，DNS解析可能需要多次的请求转发，有时需要几秒甚至更长的时间来解析出相应的IP 地址。2. 现有的标准库对DNS解析的实现是同步的。JAVA中InetAddress.getByName是线程阻塞的。并且JAVA中实现的...

分类：其他好文时间：2014-05-02 00:20:56 阅读次数：349

共12567条上一页 1 ... 1253 1254 1255 1256 1257 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)