最大匹配法:最大匹配是指以词典为依据,取词典中最长单词为第一个次取字数量的扫描串,在词典中进行扫描(为提升扫描效率,还可以跟据字数多少设计多个字典,然后根据字数分别从不同字典中进行扫描)。例如:词典中最长词为“中华人民共和国”共7个汉字,则最大匹配起始字数为7个汉字。然后逐字递减,在对应的词典中进行 ...
分类:
编程语言 时间:
2018-08-01 19:35:53
阅读次数:
428
CCC是“中国强制认证”(china compulsory certification)的英文缩写。CCC构成了中国强制认证标志的基本图案。根据《强制性产品认证管理规定》(2009年5月26日中华人民共和国国家质量监督检验检疫总局第117号令,自2009年9月1日起施行),国家对涉及人类健康和安全, ...
分类:
其他好文 时间:
2018-08-01 16:37:30
阅读次数:
255
前言 为什么要做爬虫? 首先请问:都说现在是"大数据时代",那数据从何而来? 企业产生的用户数据:百度指数、阿里指数、TBI腾讯浏览指数、新浪微博指数 数据平台购买数据:数据堂、国云数据市场、贵阳大数据交易所 政府/机构公开的数据:中华人民共和国国家统计局数据、世界银行公开数据、联合国数据、纳斯达克 ...
分类:
编程语言 时间:
2018-07-27 01:35:50
阅读次数:
321
注:数据库是根据中华人民共和国国家统计局截至2003年6月30号的数据,但是之前有修改过的数据,所以,假如是太早颁发的身份证在地区代码上可能有出入。可以参考国家统计局的数据。 如果有哪里不妥请提出,我会尽快改进。校验成功并不能说明是真的身份证号码,因为市、县编码的校验没有,也没能查到含有此编码的资料 ...
居民身份证号码,正确、正式的称谓应该是“公民身份号码”。根据【中华人民共和国国家标准 GB 11643-1999】中有关公民身份号码的规定, 公民身份号码是特征组合码,由十七位数字本体码和一位数字校验码组成。 排列顺序从左至右依次为:六位数字地址码,八位数字出生日期码,三位数字顺序码和一位数字校验码 ...
分类:
其他好文 时间:
2018-07-07 17:42:15
阅读次数:
203
央行mlf是什么意思 中国人民银行 中国人民银行(The People's Bank Of China,英文简称PBOC),简称央行,是中华人民共和国的中央银行,中华人民共和国国务院组成部门。在国务院领导下,制定和执行货币政策,防范和化解金融风险,维护金融稳定。 公开市场回购 中央银行如何运用公开市 ...
分类:
其他好文 时间:
2018-06-26 22:37:01
阅读次数:
356
3272: 公民身份号码 Description 中华人民共和国居民身份证是国家法定的证明公民个人身份的有效证件。 公民身份号码是特征组合码,由17位数字本体码和1位数字校验码组成。排列顺序从左至右依次为:6位数字地址码,8位数字出生日期码,3位数字顺序码和1位数字校验码。 8位数字出生日期码,即公 ...
分类:
其他好文 时间:
2018-06-10 19:31:03
阅读次数:
192
1 private void button1_Click(object sender, EventArgs e) 2 {//去掉字符串头尾指定字符 3 string MyInfo= "--中华人民共和国--"; 4 //显示 "中华人民共和国" 5 MessageBox.Show(MyInfo.T.... ...
网络爬虫道德的话:客户授权or爬取公开数据、尽量放慢你的速度、尽量遵循robots、不要公开你的爬虫源码、不要分享你的爬虫数据。 2017.06.01号《中华人民共和国网络安全法》开始实施,这个安全法在爬虫的这一块宝地上掀一阵大风波,到处都在转这篇试图解读该规定的文章:「 你的爬虫会送老板进监狱吗? ...
分类:
其他好文 时间:
2018-06-05 13:26:33
阅读次数:
598
为什么要做爬虫? 首先请问:都说现在是"大数据时代",那数据从何而来? 企业产生的用户数据:百度指数、阿里指数、TBI腾讯浏览指数、新浪微博指数 数据平台购买数据:数据堂、国云数据市场、贵阳大数据交易所 政府/机构公开的数据:中华人民共和国国家统计局数据、世界银行公开数据、联合国数据、纳斯达克。 数 ...
分类:
其他好文 时间:
2018-06-01 22:21:12
阅读次数:
257