转知乎的文章都用 Python 来做什么啊

时间：2017-03-02 16:59:18 阅读：567 评论：0 收藏：0 [点我收藏+]

标签：wait idt xhtml 保护官方网站 class raw 成功 date

大家都用 Python 来做什么啊？ Tsing:谁说我是来看段子的。。。首先上一首Python之禅：

Python是一个非常好用的程序语言，开发的速度非常快。我用Python已经一年多了，从Python2.7到现在的Python3.4，也写了好多的小程序，其中大部分都是爬虫程序，下面简单列举几个，可怜了我科的各种系统。

技术分享

0. 制作引文分析利器HistCite的便捷使用版本

怎么又出现了一个序号为零的啊！没错，这个又是我后来加上的，嘻嘻~

对于整天和文献打交道的研究生来说，HistCite是一款不可多得的效率利器，它可以快速绘制出某个研究领域的发展脉络，快速锁定某个研究方向的重要文献和学术大牛，还可以找到某些具有开创性成果的无指定关键词的论文。但是原生的HistCite已经有4年没有更新了，现在使用会出现各种bug，于是我就用Python基于HistCite内核开发了一个方便使用的免安装版本。具体的使用方法和下载链接见我的第一篇知乎专栏文章：文献引文分析利器HistCite使用教程（附精简易用免安装Pro版本下载） - Tsing的文章 - 知乎专栏

1. 破解观看中科大网络课堂

中国科学技术大学网络课堂（http://wlkt.ustc.edu.cn/

）是一个非常好的平台，上面汇集了很多知名教授的授课视频，以及最新的讲座、报告、表演视频，内容还是相当丰富的。但是这些视频只面向校内IP开放。

所以想在校外看到这些视频必须破解视频地址，于是利用Python的requests库结合BeautifulSoup，用了不到10行代码就可以获取真实下载地址。

为了方便没有安装Python的电脑使用，简单写了一个GUI界面，给室友用，都说还是挺好的用的哈。

考虑到视频版权问题，代码和程序就不放出来了，请大家见谅。

2. 获取中科大研究生系统全部学生姓名、学号、选课信息

登录中国科学技术大学的研究生综合系统（中国科学技术大学研究生信息平台

），可以看到每一门课选课的学生姓名和学号，当时就想能不能做一个这样的系统，来输入任何姓名（或者学号）就可以看到他所有的选课信息呢？这是选课首页：

点击每门课的已选人数链接，可以看到所有的选课学生姓名和学号：

下面就利用requests的模拟登录功能，先获取全部课程的链接，并保存对于的课程信息，然后挨个获取了所有课程的选课信息。为了保护学生信息，对程序的关键部分进行了模糊处理，希望大家谅解。

这样就获取了一个巨大的json文件，里面全部是学生姓名学号选课信息：

有了这个json文件，我们可以写入数据库，也可以直接利用json文件来查询：

为了方便其他人使用，基于上面的数据我开发了一个线上版本：

技术分享

输入姓名或者学号都可以直接查询别人的选课信息：

技术分享

这个地址就不放出来了，如果您是科大的研究生，私信我，我把链接发给你。

3. 扫描中科大研究生系统上的弱密码用户

基于上面获得的选课学生学号，很容易利用Python依次模拟登录研究生，密码就用弱密码123456，然后可以获得身份证号码等重要信息。

这样就得到了使用123456作为密码的用户信息，所以在此提醒大家一定不要使用弱密码，希望下面的同学早日修改密码。

4. 模拟登录中科大图书馆并自动续借

最近，科大图书馆系统升级了，到处都加了验证码，所以下面这个方法直接使用肯定是不行了，不过曾经毕竟成功过哈。以前收到借阅图书到期通知短信，就会运行一下这个程序，自动续借了，然后就可以再看一个月了。

运行就是这样的，自动续借成功，看到的链接就是每本书的续借链接。

5. 网易云音乐批量下载

终于来一个正常一点的哈，那么我就直接放代码吧，可以下载网易云音乐各个榜单的全部歌曲，批量下载，速度挺快。请注意提前要创建一个名为 “网易云音乐” 的文件夹。

# 网易云音乐批量下载# By Tsing# Python3.4.4importrequestsimporturllib# 榜单歌曲批量下载# r = requests.get(‘http://music.163.com/api/playlist/detail?id=2884035‘)	# 网易原创歌曲榜# r = requests.get(‘http://music.163.com/api/playlist/detail?id=19723756‘)	# 云音乐飙升榜# r = requests.get(‘http://music.163.com/api/playlist/detail?id=3778678‘)	# 云音乐热歌榜r=requests.get(‘http://music.163.com/api/playlist/detail?id=3779629‘)# 云音乐新歌榜# 歌单歌曲批量下载# r = requests.get(‘http://music.163.com/api/playlist/detail?id=123415635‘)	# 云音乐歌单——【华语】中国风的韵律，中国人的印记# r = requests.get(‘http://music.163.com/api/playlist/detail?id=122732380‘)	# 云音乐歌单——那不是爱，只是寂寞说的谎arr=r.json()[‘result‘][‘tracks‘]# 共有100首歌foriinrange(10):# 输入要下载音乐的数量，1到100。name=str(i+1)+‘ ‘+arr[i][‘name‘]+‘.mp3‘link=arr[i][‘mp3Url‘]urllib.request.urlretrieve(link,‘网易云音乐\\‘+name)# 提前要创建文件夹print(name+‘ 下载完成‘)

于是就可以愉快的听歌了。

上面这些都是在Python3的环境下完成的，在此之前，用Python2还写了一些程序，下面也放几个吧。初期代码可能显得有些幼稚，请大神见谅。

6. 批量下载读者杂志某一期的全部文章

上次无意中发现读者杂志还有一个在线的版本，然后兴趣一来就用Python批量下载了上面的大量文章，保存为txt格式。

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# 保存读者杂志某一期的全部文章为TXT
# By Tsing
# Python 2.7.9

import urllib2
import os
from bs4 import BeautifulSoup

def urlBS(url):
    response = urllib2.urlopen(url)
    html = response.read()
    soup = BeautifulSoup(html)
    return soup

def main(url):
    soup = urlBS(url)
    link = soup.select(‘.booklist a‘)
    path = os.getcwd()+u‘/读者文章保存/‘
    if not os.path.isdir(path):
        os.mkdir(path)
    for item in link:
        newurl = baseurl + item[‘href‘]
        result = urlBS(newurl)
        title = result.find("h1").string
        writer = result.find(id="pub_date").string.strip()
        filename = path + title + ‘.txt‘
        print filename.encode("gbk")
        new=open(filename,"w")
        new.write("<<" + title.encode("gbk") + ">>\n\n")
        new.write(writer.encode("gbk")+"\n\n")
        text = result.select(‘.blkContainerSblkCon p‘)
        for p in text:
            context = p.text
            new.write(context.encode("gbk"))

        new.close()


if __name__ == ‘__main__‘:
    time = ‘2015_03‘
    baseurl = ‘http://www.52duzhe.com/‘ + time +‘/‘
    firsturl = baseurl + ‘index.html‘
    main(firsturl)

7. 获取城市PM2.5浓度和排名

最近环境问题很受关注，就用Python写了一个抓取PM2.5的程序玩玩，程序支持多线程，方便扩展。

#!/usr/bin/env python# -*- coding: utf-8 -*-# 获取城市PM2.5浓度和排名# By Tsing# Python 2.7.9importurllib2importthreadingfromtimeimportctimefrombs4importBeautifulSoupdefgetPM25(cityname):site=‘http://www.pm25.com/‘+cityname+‘.html‘html=urllib2.urlopen(site)soup=BeautifulSoup(html)city=soup.find(class_=‘bi_loaction_city‘)# 城市名称aqi=soup.find("a",{"class","bi_aqiarea_num"})# AQI指数quality=soup.select(".bi_aqiarea_right span")# 空气质量等级result=soup.find("div",class_=‘bi_aqiarea_bottom‘)# 空气质量描述printcity.text+u‘AQI指数：‘+aqi.text+u‘\n空气质量：‘+quality[0].text+result.textprint‘*‘*20+ctime()+‘*‘*20defone_thread():# 单线程print‘One_thread Start: ‘+ctime()+‘\n‘getPM25(‘hefei‘)getPM25(‘shanghai‘)deftwo_thread():# 多线程print‘Two_thread Start: ‘+ctime()+‘\n‘threads=[]t1=threading.Thread(target=getPM25,args=(‘hefei‘,))threads.append(t1)t2=threading.Thread(target=getPM25,args=(‘shanghai‘,))threads.append(t2)fortinthreads:# t.setDaemon(True)t.start()if__name__==‘__main__‘:one_thread()print‘\n‘*2two_thread()

8. 爬取易迅网商品价格信息

当时准备抓取淘宝价格的，发现有点难，后来就没有尝试，就把目标选在了易迅网。

#!/usr/bin/env python
#coding:utf-8
# 根据易迅网的商品ID，爬取商品价格信息。
# By Tsing
# Python 2.7.9

import urllib2
from bs4 import BeautifulSoup
def get_yixun(id):
    price_origin,price_sale = ‘0‘,‘0‘
    url = ‘http://item.yixun.com/item-‘ + id + ‘.html‘
    html = urllib2.urlopen(url).read().decode(‘utf-8‘)
    soup = BeautifulSoup(html)
    title = unicode(soup.title.text.strip().strip(u‘【价格_报价_图片_行情】-易迅网‘).replace(u‘】‘,‘‘)).encode(‘utf-8‘).decode(‘utf-8‘)
    print title
    try:
        soup_origin = soup.find("dl", { "class" : "xbase_item xprice xprice_origin" })
        price_origin = soup_origin.find("span", { "class" : "mod_price xprice_val" }).contents[1].text 
        print  u‘原价：‘ + price_origin
    except:
        pass
    try:
        soup_sale= soup.find(‘dl‘,{‘class‘:‘xbase_item xprice‘})
        price_sale = soup_sale.find("span", { "class" : "mod_price xprice_val" }).contents[1] 
        print  u‘现价：‘+ price_sale
    except:
        pass
    
    print url
    return None

if __name__ == ‘__main__‘:
    get_yixun(‘2189654‘)

9. 音悦台MV免积分下载

音悦台上有好多高质量的MV，想要下载却没有积分，于是就想到破解下载。当时受一个大神的代码的启发，就写出了下面的代码，虽然写的有点乱，但还是可以成功破解的哈。

#!/usr/bin/env python# -*- coding: utf-8 -*-# 音悦台MV免积分下载# By Tsing# Python 2.7.9importurllib2importurllibimportremv_id=‘2278607‘# 这里输入mv的id，即http://v.yinyuetai.com/video/2275893最后的数字url="http://www.yinyuetai.com/insite/get-video-info?flex=true&videoId="+mv_idtimeout=30headers={‘User-Agent‘:‘Mozilla/5.0 (Windows NT 6.3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36‘,‘Accept‘:‘text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8‘}req=urllib2.Request(url,None,headers)res=urllib2.urlopen(req,None,timeout)html=res.read()reg=r"http://\w*?\.yinyuetai\.com/uploads/videos/common/.*?(?=&br)"pattern=re.compile(reg)findList=re.findall(pattern,html)# 找到mv所有版本的下载链接iflen(findList)>=3:mvurl=findList[2]# 含有流畅、高清、超清三个版本时下载超清else:mvurl=findList[0]# 版本少时下载流畅视频local=‘MV.flv‘try:print‘downloading...please wait...‘urllib.urlretrieve(mvurl,local)print"[:)] Great! The mv has been downloaded.\n"except:print"[:(] Sorry! The action is failed.\n"

10. 其他请参考：能利用爬虫技术做到哪些很酷很有趣很有用的事情？ - Tsing 的回答

结语：Python是一个利器，而我用到的肯定也只是皮毛，写过的程序多多少少也有点相似，但是我对Python的爱却是越来越浓的。

补充：看到评论中有好多知友问哪里可以快速而全面地学习Python编程，我只给大家推荐一个博客，大家认真看就够了：Python教程 - 廖雪峰的官方网站

转知乎的文章都用 Python 来做什么啊

标签：wait idt xhtml 保护官方网站 class raw 成功 date

原文地址：http://www.cnblogs.com/kaywu/p/6490966.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行

转知乎的文章 都用 Python 来做什么啊

转知乎的文章都用 Python 来做什么啊