标签:aaa rbo space standard page EOS oca fda aging
NASA有32,000多个数据集,并且NASA有兴趣了解这些数据集之间的联系,以及与NASA以外其他政府组织中其他重要数据集的联系。有关NASA数据集的元数据 可以JSON格式在线获得。让我们使用tf-idf在描述字段中找到重要的单词,并将其与关键字联系起来。
让我们下载32,000多个NASA数据集的元数据。
让我们打印出其中的一部分。
这是关键词。
最常见的关键字是什么?
看起来“已完成项目”对于某些目的来说可能不是有用的关键字,我们可能希望将所有这些都更改为小写或大写,以消除诸如“ OCEANS”和“ Oceans”之类的重复项。
什么是tf-idf?评估文档中单词的重要性的一种方法可能是其 术语频率 (tf),即单词在文档中出现的频率。但是,一些经常出现的单词并不重要。在英语中,这些词可能是“ the”,“ is”,“ of”等词。另一种方法是查看术语的 逆文档频率 (idf),这会降低常用单词的权重,而增加在文档集中很少使用的单词的权重。
这些是NASA说明字段中最常见的“单词”,是词频最高的单词。让我们看一下第一个数据集,例如:
tf-idf算法应该减少所有这些的权重,因为它们很常见,但是我们可以根据需要通过停用词将其删除。现在,让我们为描述字段中的所有单词计算tf-idf。
添加的列是tf,idf,这两个数量相乘在一起是tf-idf,这是我们感兴趣的东西。NASA描述字段中最高的tf-idf词是什么?
因此,这些是用tf-idf衡量的描述字段中最“重要”的词,这意味着它们很常见,但不太常用。
tf-idf算法将认为这是一个非常重要的词。
因此,现在我们知道描述中的哪个词具有较高的tf-idf,并且在关键字中也有这些描述的标签。
让我们来看几个示例关键字中最重要的单词。
tf-idf算法在仅2个字长的描述中无法很好地工作,或者至少它将对这些字进行非常重的加权。实际上,也许这是不合适的。
NASA Metadata: tf-idf of Description Texts and Keywords
标签:aaa rbo space standard page EOS oca fda aging
原文地址:https://www.cnblogs.com/tecdat/p/12036496.html