[Tensorflow] **RNN - 04. Play with Feature Extraction

时间：2017-10-02 09:31:33 阅读：160 评论：0 收藏：0 [点我收藏+]

特征处理

在文本挖掘中做了很大的努力，比如提取关键词、情感分析、word embedding聚类之类都尝试过，但效果都不是很好,

对于文本的特征的建议还是去找出一些除了停用词以外的高频词汇，寻找与这个房屋分类问题的具体联系。

到了头疼的部分了，数据有了，我们得想办法从数据里面拿到有区分度的特征。

比如说Kaggle该问题的引导页提供的word2vec就是一种文本到数值域的特征抽取方式，
比如说我们在第6小节提到的用户信息提取关键字也是提取特征的一种。
比如说在这里，我们打算用在文本检索系统中非常有效的一种特征：TF-IDF(term frequency-interdocument frequency)向量。每一个电影评论最后转化成一个TF-IDF向量。

稍加解释一下，TF-IDF是一种统计方法，用以评估一字词(或者n-gram)对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。这是一个能很有效地判定对评论褒贬影响大的词或短语的方法。

那个…博主打算继续偷懒，把scikit-learn中TFIDF向量化方法直接拿来用，想详细了解的同学可以戳sklearn TFIDF向量类。对了，再多说几句我的处理细节，停用词被我掐掉了，同时我在单词的级别上又拓展到2元语言模型，恩，你可以再加3元4元语言模型…单机内存不够了，先就2元上，凑活用吧…

[Tensorflow] **RNN - 04. Play with Feature Extraction

标签：方式单词 tab text 直接频率 generate 关键词重要性

原文地址：http://www.cnblogs.com/jesse123/p/7618456.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行