#取出字符串中汉字import reres = re.match(r'[\u4E00-\u9FA5\s]+', '我是 派森')print(res) 结果:<re.Match object; span=(0, 5), match='我是 派森'> print(res.group()) 结果:我是 派 ...
分类:
其他好文 时间:
2020-07-21 09:32:25
阅读次数:
115
Oracle 一个中文汉字 占用几个字节,要根据Oracle中字符集编码决定 查看oracle server端字符集 select userenv('language') from dual; 如果显示如下,一个汉字占用两个字节 SIMPLIFIED CHINESE_CHINA.ZHS16GBK 如 ...
分类:
数据库 时间:
2020-07-20 10:47:45
阅读次数:
80
爬虫步骤 确定爬取目标的url 使用python代码发送请求获取数据 解析获取到的数据(精确数据) 找到新的目标(新的url)回到第一步,再次获取 -- 自动化 数据持久化 python3(原生提供的模板):urllibb.request urlopen 返回response对象 response. ...
分类:
其他好文 时间:
2020-07-20 10:42:59
阅读次数:
88
类(Class): 用来描述具有相同的属性和方法的对象的集合。它定义了该集合中每个对象所共有的属性和方法。对象是类的实例。 方法:类中定义的函数。 实例化:创建一个类的实例,类的具体对象。 对象:通过类定义的数据结构实例。 1.定义一个类 例: 注意:不能出现汉字和注释,否则不能保存程序,也不能运行 ...
分类:
编程语言 时间:
2020-07-19 11:37:51
阅读次数:
70
b站近日把登录页面的验证方式从滑块验证改为了汉字验证,我看网上也没用相关的爬虫教程,所以自己写了一个,作为b站爬虫参考。 from selenium import webdriver from selenium.webdriver.common.action_chains import Action ...
分类:
其他好文 时间:
2020-07-16 21:20:22
阅读次数:
109
参考文档:https://www.cnblogs.com/xybaby/p/7854126.html Python 2 中对列表和字典中的中文进行输出的时候,都无法原样打印 >>> l=['你好','版块','博客','字典'] >>> print l ['\xc4\xe3\xba\xc3', '\ ...
分类:
编程语言 时间:
2020-07-15 12:47:45
阅读次数:
86
之前我们创建索引,查询数据,都是使用的默认的分词器,分词效果不太理想,会把text的字段分成一个一个汉字,然后搜索的时候也会把搜索的句子进行分词,所以这里就需要更加智能的分词器IK分词器了。 ik分词器的下载和安装,测试 第一: 下载地址:https://github.com/medcl/elast ...
分类:
其他好文 时间:
2020-07-12 18:50:57
阅读次数:
78
1、位(bit) 来自英文bit,音译为“比特”,表示二进制位。位是计算机内部数据储存的最小单位,11010100是一个8位二进制数。一个二进制位只可以表示0和1两种状态(21);两个二进制位可以表示00、01、10、11四种(22)状态;三位二进制数可表示八种状态(23)……。 2、字节(byte ...
分类:
其他好文 时间:
2020-07-12 14:59:04
阅读次数:
125
[ASP CodePage 属性完整的 Session 对象参考手册CodePage 属性规定在显示动态内容时所使用的字符集。一些代码页面的实例:1252 - 美国英语和大多数欧洲语言932 - 日本汉字Japanese Kanji语法Session.CodePage(=Codepage)参数描述c... ...
分类:
Web程序 时间:
2020-07-12 00:32:18
阅读次数:
81
<%'//获取汉字的首字母 ,ANSII编码function getpychar(char) dim tmpp:tmpp=65536+asc(char) if(tmpp>=45217 and tmpp<=45252) then getpychar= "A" elseif(tmpp>=45253 an ...
分类:
Web程序 时间:
2020-07-08 23:19:35
阅读次数:
139