码迷,mamicode.com
首页 > Web开发 > 详细

从PubMed的HTML页面提取标题和摘要文本

时间:2019-05-03 09:26:31      阅读:213      评论:0      收藏:0      [点我收藏+]

标签:for   regex   摘要   enc   文档   标题   and   ids   htm   

#Author:Alex.Zhang
import urllib.request
import re
pmids=[18235848,18235847,18235849]
count=0
for pmid in pmids:
    count+=1
    url=https://www.ncbi.nlm.nih.gov/pubmed/?term=%s%pmid
    handler=urllib.request.urlopen(url)
    html=handler.read()


    title_regexp=re.compile(<h1>.{5,400}</h1>)
    title_text=title_regexp.search(html.decode(utf-8))
    abstract_regexp=re.compile(<h3>Abstract</h3><div class\=""><p>.{20,3000}</p></div>)
    abstract_text=abstract_regexp.search(html.decode(utf-8))
    titlee=abstract+str(count)
    with open(titlee,w,encoding=utf-8) as en:
        en.write(tile)
        en.write(title_text.group())
        en.write(\n)
        en.write(abstract:)
        en.write(abstract_text.group())

    print(Title:,title_text.group())
    print(abstract:,abstract_text.group())

只需要把PMIDS的不同号输进去就会为你生成一系列的文档啦!

从PubMed的HTML页面提取标题和摘要文本

标签:for   regex   摘要   enc   文档   标题   and   ids   htm   

原文地址:https://www.cnblogs.com/klausage/p/10804249.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!