码迷,mamicode.com
首页 >  
搜索关键字:小爬虫    ( 153个结果
Python小爬虫实例
有几个注意点:# -*- coding: utf-8 -*- # func passport jw.qdu.edu.cnimport reimport urllibimport urllib.requestimport jsonfrom bs4 import BeautifulSoupclass t...
分类:编程语言   时间:2015-09-22 21:54:10    阅读次数:222
node.js抓取数据(fake小爬虫)
在node.js中,有了cheerio模块、request模块,抓取特定URL页面的数据已经非常方便。 一个简单的就如下var request = require('request');var cheerio = require('cheerio');request(url,function(...
分类:Web程序   时间:2015-09-16 15:38:03    阅读次数:264
PHP电影小爬虫(2)
学习了别人的爬虫后自己改的一个,算是又回顾了一下php的使用我们来利用simple_html_dom的采集数据实例,这是一个PHP的库,上手很容易。simple_html_dom 可以很好的帮助我们利用php解析html文档。通过这个php封装类可以很方便的解析html文档,对其中的html元素进行...
分类:Web程序   时间:2015-09-16 12:23:03    阅读次数:245
今天来做一个PHP电影小爬虫。
今天来做一个PHP电影小爬虫。我们来利用simple_html_dom的采集数据实例,这是一个PHP的库,上手很容易。simple_html_dom 可以很好的帮助我们利用php解析html文档。通过这个php封装类可以很方便的解析html文档,对其中的html元素进行操作 (PHP5+以上版本)下...
分类:Web程序   时间:2015-09-12 23:31:02    阅读次数:204
python学习笔记之爬虫之爬取百度贴吧某一帖子
从大神这儿静觅 » Python爬虫实战二之爬取百度贴吧帖子讲的很不错,按照步骤一步一步的做效果很明显。第一次真正做出一个小爬虫程序,所以在csdn写出来也是对自己的一种鞭策一种鼓励,不喜勿喷,还请大神不吝赐教。   因为大神博文讲的很详细(真心详细),所以步骤我就不一一细说了   先把自己的代码贴出来(大部分一样): #!/usr/bin/env python # coding=utf-8...
分类:编程语言   时间:2015-08-25 19:40:33    阅读次数:271
练习3
简单小爬虫#!/usr/bin/envpython#coding:utf-8importurllib2importbs4url=‘http://www.163.com‘content=urllib2.urlopen(url).read()content=content.decode(‘gbk‘)soup=bs4.BeautifulSoup(content)links=soup.select(‘lia[href]‘)result=[]forlinkinlinks:href=link.attrs[‘hr..
分类:其他好文   时间:2015-08-04 23:15:28    阅读次数:230
我是一只百度贴吧的小爬虫
总体功能:查看特定帖子楼主的发言(不包含图片)前段时间大概看了python的语法,但是确实第一次用python来写东西。很久之前就想学python,学爬虫了,现在终于开始了!谢了自己的第一个爬虫,很开心O(∩_∩)O 觉得学东西兴趣很重要,爬虫真的好玩!整个功能的实现含有两个类,一个是工具类Tool,另一个是百度贴吧的爬虫类BaiduTieba,提取网页的内容主要还是正则表达式。代码如下:# -*-...
分类:其他好文   时间:2015-08-01 19:04:56    阅读次数:251
一个轻量级家用爬虫
最近需要收集资料,在浏览器上用另存为的方式实在是很麻烦,而且不利于存储和检索。所以自己写了一个小爬虫,在网上爬东西,迄今为止,已经爬了近百 万张网页。 现在正在想办法着手处理这些数据。 爬虫的结构: ...
分类:其他好文   时间:2015-06-25 12:33:34    阅读次数:88
Asp.net mvc5开源项目"超级冷笑话"
业务时间做了个小网站,超级冷笑话,地址:http://www.superjokes.cn/开发技术:asp.net mvc5 +SQLServer2012ORM:NPoco用了简单的三层结构使用HtmlAgilityPack做了个小爬虫,目前可以爬取部分网站的笑话,哈哈,有点不地道。代码写的很简单,...
分类:Web程序   时间:2015-06-09 19:15:17    阅读次数:139
新浪股票网络接口ps:我写的第一个最简单的小爬虫o(^▽^)o
1 package com.down.edu; 2 3 import java.io.BufferedReader; 4 import java.io.InputStream; 5 import java.io.InputStreamReader; 6 import java.net.HttpU.....
分类:其他好文   时间:2015-05-22 18:58:55    阅读次数:189
153条   上一页 1 ... 11 12 13 14 15 16 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!