标签:时间 top nta 转换 news 查找 div adl XML
Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.
Beautiful Soup3 的文档,Beautiful Soup 3 目前已经停止开发,现在推荐在现在的项目中使用Beautiful Soup 4, 移植到BS4,现在python2 的版本逐渐会被python3 所代替,有兴趣的同学,可以学习3,不要在学习2了。
1 import bs4 2 3 from bs4 import BeautifulSoup as soup 4 5 from urllib.request import urlopen 6 7 def news(): 8 9 #my_url="https://news.google.com/news/rss" 10 11 my_url="https://news.google.com/news/rss?ned=in&hl=en-IN" 12 13 #To open the Given URL 14 15 Client=urlopen(my_url) 16 17 s_url ="https://news.google.com/news/headlines/section/topic/SPORTS.en_in/Sports?ned=in&hl=en-IN&gl=IN" 18 19 Client=urlopen(s_url) 20 21 22 23 xml_page=Client.read() 24 25 Client.close() 26 27 soup_page=soup(xml_page,"xml") 28 29 news_list=soup_page.findAll("item") 30 31 for news in news_list: 32 33 print(news.title.text) 34 35 print(news.link.text) 36 37 print(news.pubDate.text) 38 39 print("-"*150) 40 41 n=input() 42 43 44 45 news() 46 47
标签:时间 top nta 转换 news 查找 div adl XML
原文地址:http://www.cnblogs.com/onepiece-fly/p/7987749.html