标签:其他 自己 关于 pre 简单 导致 爬取 根据 目的
1. 统一景点名称:尝试在爬取的时候将一些特定的景点进行替换,但是由于景点的名词没有统一的,需要自己定义
困难:需要找需要替换的景点的词库,还有曾用名,暂时还没有找到,还没思路
2. 划分景点内容:目的是将游记根据景点进行划分,将关于每个景点的描述,对应到对应的景点。
尝试的方法:
1. 根据景点词频划分
2. 根据行词频划分
3. 根据句子的相似度划分
4. 根据景点出现的行数,选取某两个行中间的所有行
困难:
1. 游记文章的格式太随意,没有一定的格式。
2. 有的两行文字都是描述一个景点,但是上边那行出现景点,下边虽然也是描述同一个景点,但是没有出现这个名词,导致景点描述不全
3. 如果只是简单地取两个取地点出现的段落,图片的链接会添加不上去
3. 爬取的游记虽然都是关于杭州的,但是其中还是会夹杂着一些其他地方的游记,这个在提取的时候遇到的问题跟第二个差不多,还是在游记中切分的问题
标签:其他 自己 关于 pre 简单 导致 爬取 根据 目的
原文地址:https://www.cnblogs.com/Zhanghaonihao/p/9982249.html