码迷,mamicode.com
首页 > 其他好文 > 详细

第九周进度

时间:2018-11-19 12:41:49      阅读:118      评论:0      收藏:0      [点我收藏+]

标签:其他   自己   关于   pre   简单   导致   爬取   根据   目的   

本周内容

1. 统一景点名称:尝试在爬取的时候将一些特定的景点进行替换,但是由于景点的名词没有统一的,需要自己定义
         困难:需要找需要替换的景点的词库,还有曾用名,暂时还没有找到,还没思路

2. 划分景点内容:目的是将游记根据景点进行划分,将关于每个景点的描述,对应到对应的景点。
        尝试的方法:
            1. 根据景点词频划分
            2. 根据行词频划分
            3. 根据句子的相似度划分
            4. 根据景点出现的行数,选取某两个行中间的所有行
        困难:
            1. 游记文章的格式太随意,没有一定的格式。
            2. 有的两行文字都是描述一个景点,但是上边那行出现景点,下边虽然也是描述同一个景点,但是没有出现这个名词,导致景点描述不全
            3. 如果只是简单地取两个取地点出现的段落,图片的链接会添加不上去

 3. 爬取的游记虽然都是关于杭州的,但是其中还是会夹杂着一些其他地方的游记,这个在提取的时候遇到的问题跟第二个差不多,还是在游记中切分的问题

第九周进度

标签:其他   自己   关于   pre   简单   导致   爬取   根据   目的   

原文地址:https://www.cnblogs.com/Zhanghaonihao/p/9982249.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!