码迷,mamicode.com
首页 > 其他好文 > 详细

爬虫爬取晋江文学网总分榜(失败)

时间:2020-05-04 00:20:43      阅读:215      评论:0      收藏:0      [点我收藏+]

标签:影响   tooltip   orm   内容   价值   fill   alt   ngx   网址   

一、目的 :

          爬取晋江文学网总分榜

二、python爬取数据

        网址:http://www.jjwxc.net/topten.php?orderstr=7&t=0

三、爬取

技术图片

 

 

在开始多出现了38号而且顺序内容不准确

 

代码:

import requests

from bs4 import BeautifulSoup

import bs4

url="http://www.jjwxc.net/topten.php?orderstr=7&t=0"

def getHtml(url):

    r=requests.get(url)

    r.raise_for_status()

    r.encoding=r.apparent_encoding

    return r.text[26000:100000]

def fillList(html):

    l1,l2 = [],[]

    soup = BeautifulSoup(html,"html.parser")   

    for i in soup.find_all(‘a‘,"tooltip"):

        l1.append(str(i.string))   

    for tag in soup.find_all(‘td‘,{"align":"center"}):

        s=str(tag.string)

        s.replace("                                                        ","  ")

        l2.append(s)

    return l1,l2

def printList(l1,l2):

    n1,n2 = len(l1),len(l2)

    n=max(n1,n2)

    for i in range(n):

        print("第{}名:《{}》".format(i+1,l1[i]))

        print("积分:{}".format(l2[i]))

        print("")

def main():

    html=getHtml(url)

    l1,l2=fillList(html)

printList(l1,l2)

main()

技术图片

 

 技术图片

 

 这几类数据我分不开,绝望

百度了一下就发现技术图片

 内容网址:https://www.cnblogs.com/wangyongfengxiaokeai/p/11869595.html

而且好像height=‘23’和alig前后位置不同对结果也有影响

技术图片

 

又换了试就发现是红框的问题,但是红框内换了几次代码还是都不能完全分开,最后只有l2中为作品字数时可以完全带进去,但是字数在这里没有什么实际价值。

爬虫爬取晋江文学网总分榜(失败)

标签:影响   tooltip   orm   内容   价值   fill   alt   ngx   网址   

原文地址:https://www.cnblogs.com/ZZRlomaz/p/12824598.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!