标签:类图 lis gen 索引 1.5 size 微软 解析 也会
影片索引器应用两个模型来萃取主题,第一个是深度神经网络,根据大型专有数据集,直接对原始文本进行评分和排名,该模型会将影片转译文本,映像至影片索引器本体与IPTC。第二个模型则是对影片中提到的命名实体,使用光谱图算法(Spectral Graph Algorithms),该算法利用经辨识名人的百科ID,以及OCR和翻译文本的讯号。
由于这两类讯号分属结构化和非结构化的数据,因此微软使用ELIS(Entity Linking Intelligent Service)会在自由格式文本中识别命名实体,将非结构化数据转成结构化,以便之后能完全利用结构化数据进行主题撷取。微软利用百科页面实体的相似度,以及从影片页面撷取到的不同概念,建置出图,并在最后阶段,根据后验机率(Posteriori Probability)排名百科类别,以找出适合的主题。更多相关IT信息:胜博发爱心公益 http://chiayuan.org.tw/
标签:类图 lis gen 索引 1.5 size 微软 解析 也会
原文地址:http://blog.51cto.com/13373212/2341735