码迷,mamicode.com
首页 > 编程语言 > 详细

Python-使用Magellan进行数据匹配总结

时间:2017-07-27 18:26:39      阅读:163      评论:0      收藏:0      [点我收藏+]

标签:参数   csv   匹配   sim   一个   创建   哪些   否则   python   

  参考:http://www.biggorilla.org/zh-hans/walkt/

 

    使用Magellan进行数据匹配过程如下:

    假设有两个数据源为A和B,

              A共有四列数据:(A_Column1,A_Column2,A_Column3,A_Column4)

    B共有五列数据: (B_Column1,B_Column2,B_Column3,B_Column4,B_Column5)

    假设A_Column1和B_Column1是相关的,而A_Column2和B_Column2相关的

 

    1、首先建立合并列表

 

      分别在A和B数据中建立一个混合列mixture

      在A中 mixture = A_Column1 + A_Column2 就是把 A_Column1 和 A_Column2两列的数据合并到mixture列里面,

      同理,在B中 mixture = B_Column1+ B_Column2

      技术分享

 

    2、寻找一个候选集

      这个过程就是使用重叠系数连接两个表,我们可以使用混合列创建所需的候选集(我们称之为C)。

      技术分享

      注意:这个过程中threshold这个参数代码这要C这个集合中要创建一列_sim_score ,表示相似度分数,如何经过匹配_sim_score 的数据小于0.65,那么就是不合格的,说白了就是相识度很小,

    threshold这个设置的过多大,导致可能C的集合很小,值越大代表数据相识度越大 ,threshold最大值是1,代表匹配数据完全一样,值越小代表数据相识度越小,因此这个值要根据选择的匹配列数进行设置。

 

    3、指定要素

      就是指定在py_entitymatching程序包中哪些列对应于各个数据帧中的要素

      技术分享

    

    4、拦截工具故障排除

      确保候选集足够松动,能够容纳并不十分接近的电影配对。如果不是这样,那么可能我们已经清除了可能潜在匹配的配对

      技术分享

 

    5、从候选集采样

      目标是从候选集中获取一个样本,并手动标记抽样候选者;也就是指定候选配对是否是正确的匹配。

      技术分享

      要在导出的labeled.csv文件中增加一个label列,根据_sim_score列的数据和实际数据情况,来人为的判断是否是正确的匹配,如果是则在label列中填入数值1,否则,填入数值0

      这个label.csv数据集合实际上作为下面机器学习一个训练集,因此这个label列数据之间影响下面机器学习的效果。

 

 

 

 

      

 

Python-使用Magellan进行数据匹配总结

标签:参数   csv   匹配   sim   一个   创建   哪些   否则   python   

原文地址:http://www.cnblogs.com/shaosks/p/7245680.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!