一、Reading Confucius is respected by most Chinese as the greatest teacher of all time. Perhaps the most important word he taught was "ren," which means ...
分类:
其他好文 时间:
2020-08-31 13:28:53
阅读次数:
75
将搜狗的scel文件转换成txt格式,从网站上copy的,但是忘记是哪个网站了。#!/bin/python # -*- coding: utf-8 -*- import struct import sys import binascii import pdb import os try: reloa ...
分类:
其他好文 时间:
2020-08-07 18:06:32
阅读次数:
85
1、问题抛出某个词组在Elasitcsearch中的某个document中存在,就一定通过某种匹配方式把它搜出来。举例:title=公路局正在治理解放大道路面积水问题。输入关键词:道路,能否搜索到这个document呢?实际应用中可能需要:1)检索关键词”理解”、”解放”、”道路”、“理解放大”,都能搜出这篇文档。2)单个的字拆分“治”、“水”太多干扰,不要被检索出来。3)待检索的词不在词典中,也
分类:
其他好文 时间:
2020-08-03 09:44:26
阅读次数:
101
对于要替换的词是随机选择的,因此一种直观感受是,如果一些重要词被替换了,那么增强后文本的质量会大打折扣。这一部分介绍的方法,则是为了尽量避免这一问题,所实现的词替换技术,姑且称之为「基于非核心词替换的数据增强技术」。 我们最早是在 google 提出 UDA 算法的那篇论文中发现的这一技术 [6], ...
分类:
其他好文 时间:
2020-07-16 21:22:14
阅读次数:
93
记一下,懒得找了。 语料是NER的古文献语料,参考其他博客代码。 我先将标记的实体提出来,作为自定义字典,加入jieba中,然后再入停用词,再分词,最后训练词向量。效果还不知如何,后续再说。 #加载自定义词典 jieba.load_userdict("cidian.txt") #加载停用词 def ...
分类:
其他好文 时间:
2020-07-16 10:16:54
阅读次数:
68
常用函数二:文本分词 方式一:jieba分词+停用词+自定义词典 # -*- coding: utf-8 -*- """ Datetime: 2020/06/25 Author: Zhang Yafei Description: 文本分词 输入 停用词文件路径 词典文件路径 分词文件路径 表名(可选 ...
分类:
编程语言 时间:
2020-07-05 21:25:01
阅读次数:
46
原文链接:https://mp.weixin.qq.com/s/6VuovNdBGSSMq21OHfGe-w 摘要: NER的不同解码方式:CRF/指针网络/Biaffine 直接拿Transformer做NER不合适,可参考TENER 如何将实体词典融入到NER模型中?https://www.ac ...
分类:
其他好文 时间:
2020-07-05 12:02:36
阅读次数:
148
https://www.cnblogs.com/ysherlock/p/7822304.html 基于词典的方法、基于统计的方法、基于规则的方法 1、基于词典的方法(字符串匹配,机械分词方法) 定义:按照一定策略将待分析的汉字串与一个大机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功。 ...
分类:
其他好文 时间:
2020-07-04 13:25:10
阅读次数:
69
最大概率法分词是在最大匹配分词算法上的改进。 在某些语句切分时,按最大长度切分词语可能并不是最优切分。 而不按最优长度切分词语,则同一语句会出现多种切分结果。 计算每种切分结果的概率,选取概率最高的切分作为最优分词切分。 http://www.shizhuolin.com/?p=1860 ...
分类:
编程语言 时间:
2020-07-04 13:18:35
阅读次数:
76
https://www.cnblogs.com/dahuang123/p/11990651.html https://www.cnblogs.com/by-dream/p/6429615.html https://zhuanlan.zhihu.com/p/103392455 ...
分类:
编程语言 时间:
2020-07-04 13:18:19
阅读次数:
75