标签:mod 词性标注 model word 段落 不可 计算 -- hit
上面的六步只不过是自然语言处理中的中间步骤,并不是自然语言处理的最终目标
------------------------------以下详细介绍-------------------------------------
序列标注问题包括自然语言处理中的分词,词性标注(POS tagging)、命名实体识别,关键词抽取,词义角色标注等等,具体可参考: https://blog.csdn.net/qq_40136685/article/details/90634006
文本分类和情感计算
QA,Entailment/自然语言推理 信息检索 人机对话系统
机器翻译,语音翻译、文本摘要与信息抽取
TFIDF & BM25,用于进行文档表示的扛鼎之作,所有信息检索和搜索引擎的基础。
NGram,统计语言模型的标准算法,增加了多尺度的探索。
HMM,序列标注、语言模型曾经的主流算法。
Topic Models,包括LSA、pLSA、LDA等隐含主题模型,可以说是2000-2010间火了十多年的范式。
IBM Model,1990年代统计机器翻译时代的扛鼎之作,利用大规模对齐文本学习词对齐模型,算法也很巧妙,即使现在仍值得拜读。
CRF,条件随机场是解决序列标注的主流模型,在中文分词、词性标注、实体识别等任务直到现在仍然是标准模型。
word2vec,包括Skipgram和CBOW,2013年引爆NLP深度学习浪潮的里程碑算法,引领2013-2016年的词表示学习研究热潮。我还特别喜欢基于word2vec,哈工大师生做的那篇ACL 2014用于上下位关系抽取的扩展工作,非常NLP的研究方法,值得推荐。
RNN & LSTM,神经网络语言模型的代表作,将语言马尔科夫性与神经网络有机融合,影响巨大。
Attention,神经网络用于自然语言处理不可或缺的重要机制,解决长程依赖的灵丹妙药。基于此延展Transformer和其应用:GPT、BERT,和Transformer
BERT,简单粗暴有效,2018年引起自然语言处理预训练语言模型浪潮。
--来自知乎的回答,觉得有一定道理,故粘贴过来了。后续也基于这些进行学习。
标签:mod 词性标注 model word 段落 不可 计算 -- hit
原文地址:https://www.cnblogs.com/yifanrensheng/p/12953171.html