新浪明星日志推荐系统——爬虫爬取数据（1）

时间：2015-05-21 09:07:49 阅读：296 评论：0 收藏：0 [点我收藏+]

标签：爬虫推荐系统 python

今天有了一个想法，想自己用Python写一个新浪明星日志推荐系统
那么第一步要完成的工作就是获得新浪明星日志的数据，于是自己写了一个爬虫，实现的功能是爬取新浪明星日志的作者，推荐的文章链接，以及作者日志列表或者首页链接，具体程序如下：

# -*- coding: utf-8 -*-

"""

Created on Wed May 20 13:55:00 2015

@author: Administrator

"""

import urllib

import os,re

import sys

from bs4 import BeautifulSoup

reload(sys)

sys.setdefaultencoding("utf-8")

if "__main__"==__name__:

i = 1

for j in range(1,140):

url = "http://roll.ent.sina.com.cn/blog/star/index_" + str(i) +".shtml"

fp = file("EveryPageHref.txt","a")

fp.write(url)

fp.write("\n")

fp.close()

i+=1

page = urllib.urlopen(url).read()

soup = BeautifulSoup(page,from_encoding = "gb18030")

list_ul = soup.find_all("ul",class_="list_009")

list_li = list_ul[0].find_all("li")

for li in list_li:

list_a = li.find_all("a")

one_link = list_a[1].get("href") #获取连接

print list_a[0].get_text()

print one_link

if len(one_link)>10:

page = urllib.urlopen(one_link).read()

if len(page)!=0:

href=r‘<a class="on" href=.*?>‘

link = re.findall(href,page,re.M|re.S)

if link:

a_soup = BeautifulSoup(link[0],from_encoding= "gb18030")

a_href = a_soup.find_all(‘a‘)

href = a_href[0].get(‘href‘)

print a_href[0].get(‘href‘)

fp = file("title.txt","a")

fp.write(list_a[0].get_text())

fp.write("\n")

fp.write(one_link)

fp.write("\n")

fp.write(href)

fp.write("\n")

fp.close()

else:

pass

print "OK!"

新浪明星日志推荐系统——爬虫爬取数据（1）

标签：爬虫推荐系统 python

原文地址：http://blog.csdn.net/gamer_gyt/article/details/45886753

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行