码迷,mamicode.com
首页 > 其他好文 > 详细

任务1 相关节目识别

时间:2015-10-24 20:16:30      阅读:163      评论:0      收藏:0      [点我收藏+]

标签:

1.在mysql中对t_movie_douban的title进行排序,注意去掉NULL

drop table t_sorted_title;
create table t_sorted_title as select title from t_movie_douban where title is not null order by convert(title using gbk);
注意判断null的方式是is null 或者is not null
 
2. 将排好序的title结果导出到txt文件
select * from t_sorted_title into outfile ‘E:/chs/data/movie_title_sorted.txt‘ ;
 
3. 观察数据分析能够代表系列的词
 
代表系列的词:
xxx之xxx,第x季,最终章, (美版),冒号(冒号前的首字符串末尾的系列号),第x集,OVA,OAD,花漾季,第二部分,序曲,I,II,III等
 
4.判断书写系统
1)中文书写系统(含日文、韩文)
2)拉丁文书写系统(英文,俄文)
3)中英文混合(认为是中文)
 
5. 简单系列词的处理
我们先从比较容易识别的情况开始,先把简单的情况解决了,再解决棘手的。
简单的情况:第x季,xx之xxx,OVA(注意要大写,否则会跟某些英文title匹配,造成误判)
先从OVA开始
以下R语言代码查找所有含有OVA的title,并写入seriesOVA.txt文件
setwd(F:/M 2013/chs/work)
con<-file(movie_title_sorted.txt, r)
txt<-readLines(con)
series_OVA_index<-grep(OVA, txt)
series_OVA<-txt[series_OVA_index]
writeLines(series_OVA, seriesOVA.txt)

共有261个结果,注意到有例外的情况(用红框圈出)

技术分享

例外情况:

(OVA实际是标题的一部分)

NOVA珠穆朗玛死亡地带

兽装机攻断空我NOVA

(OVA在前面)

OVA 东京喰种トーキョーグール JACK
OVA 东京喰种トーキョーグール【PINTO】

再判断OAD:

series_OAD_index<-grep(OAD, txt)
series_OAD<-txt[series_OAD_index]
writeLines(series_OAD, seriesOAD.txt)

共107条结果,如下:

技术分享

例外情况:

热风海陆BUSHIROAD 通往希望的道路

任务1 相关节目识别

标签:

原文地址:http://www.cnblogs.com/wacc/p/4907490.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!