0、说明: 0.1、首先是unicode转义字符 在涉及Web前端开发时, 有时会遇到\uXXXX格式表示的字符, 其中XXXX是16进制数字的字符串表示形式, 在js中这个叫Unicode转义字符, 和\n \r同属于转义字符. 在其他语言中也有类似的, 可能还有其它变形的格式. 0.2、url编 ...
分类:
Web程序 时间:
2016-09-04 23:42:31
阅读次数:
239
最近在进行网络爬虫时,被中文的编码问题搞得很头疼,特别是在windows环境下。 1.爬取到的中文网页内容,在解析时出现解析错误 一般情况下,我们都是用urllib中的相关函数,进行web页面的爬取,然后进行相关处理。 但是经常在处理中文web时,对文本内容的处理,经常出现一些编码错误。 为了彻底解 ...
分类:
编程语言 时间:
2016-08-18 19:36:55
阅读次数:
144
几乎所有的中文网页都介绍,要修改Tomcat的默认最大并发连接数,应该进行如下设置(实际上这些步骤是错误的): 在tomcat配置文件server.xml中的<Connector ... />配置中,和连接数相关的参数有: minProcessors:最小空闲连接线程数,用于提高系统处理性能,默认值 ...
分类:
其他好文 时间:
2016-06-08 08:01:00
阅读次数:
188
有一个开源的PHP库“PHPSimpleHTMLDOMParser”,其官方网址为http://simplehtmldom.sourceforge.net/,它可以将HTML文件解析为DOM模型,并且其查找DOM对象的语法类似jQuery,使用很方便,具体用法到官网看帮助。对于中文网页,如果编码不是UTF-8的,则需要采用如下代码转换:$i..
分类:
Web程序 时间:
2016-05-26 22:12:18
阅读次数:
183
用requests获取源代码时,如果是中文网页,就可能会出现乱码,下面我以中关村的网站为例: 执行上面这个脚本你会看到中文部分都变成乱码。 通过上面的代码你会发现从requests获取到的编码是ISO-8859-1,而该网页的编码是gb2312,所以打印出来的编码就都变成乱码了,那么该如何解决这个问 ...
分类:
其他好文 时间:
2016-05-13 10:07:27
阅读次数:
196
Python抓取中文网页乱码 环境1:Eclipse+pydev2.2+python2.7 环境2:Apatana Studio3+ pydev2.2+python2.7 run时设置 run-->run configurations->python run->选中当前运行文件->Common->E... ...
分类:
编程语言 时间:
2016-04-29 23:46:32
阅读次数:
270
-webkit-text-size-adjust: none; 在中文版Chrome里面,网页CSS里所有小于12px的字体设置都无效,最终将显示12px。这样弄的本意可能 是好的,因为中文一旦小于12px,就变得不易阅读。 但中文版Chrome也会阅读英文网站啊!中文网页里面也会有英文的小字体设置 ...
分类:
Web程序 时间:
2016-03-29 12:32:10
阅读次数:
152
在中文版Chrome里面,网页CSS里所有小于12px的字体设置都无效,最终将显示12px。这样弄的本意可能是好的,因为中文一旦小于12px,就变得不易阅读。但中文版Chrome也会阅读英文网站啊!中文网页里面也会有英文的小字体设置需求啊!尤其是一些文字部份的设计,不小实在不好看,影响整个排版的美观...
分类:
Web程序 时间:
2016-01-25 13:09:54
阅读次数:
616
最近在学习mysql,碰到了一个mysql stop fail的问题,在这里把碰到的问题以及解决的过程写出来,不是这个问题有多难,而是我在解决此问题的过程中没有发现一个行之有效的解决问题的中文网页,搞得白白浪费了很多时间。在这里我把解决的过程写下来,希望给后来者解决相同的问题节省点时间。好了,废话不...
分类:
数据库 时间:
2015-12-26 14:52:51
阅读次数:
139
我们经常通过python做采集网页数据的时候,会碰到一些乱码问题,今天给大家分享一个解决网页乱码,尤其是中文网页的通用方法。首页我们需要安装chardet模块,这个可以通过easy_install 或者pip来安装。安装完以后我们在控制台上导入模块,如果正常就可以。比如我们遇到的一些ISO-8859...
分类:
编程语言 时间:
2015-12-09 19:10:58
阅读次数:
184