一、结巴中文分词采用的算法
基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG)
采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合
对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viterbi算法
二、结巴中文分词支持的分词模式
目前结巴分词支持三种分词模式:
精确模式,试图将句子最精确地切开,适...
分类:
编程语言 时间:
2015-08-29 18:50:49
阅读次数:
483
学习使用python的beautiful soup库,大大方便了网络爬虫对于HTML文件的解析,beautiful soup将HTML拆解成对象处理,将HTML转换成字典和数组,相比利用正则表达式解析的爬虫,省略了学习正则表达式的高成本
说人话就是正则表达式太难了,博主学不会!
本篇只介绍Beautiful Soup的使用,不涉及安装、配置。
Beautiful So...
分类:
编程语言 时间:
2015-08-29 18:49:20
阅读次数:
211
[java]view plaincopyimportjava.util.Scanner;//质数又称素数,是指在一个大于1的自然数中,除了1和此整数自身外,不能被其他自然数整除的数publicclassPrimeNumber{publicstaticvoidmain(String[]args){Sc...
分类:
编程语言 时间:
2015-08-29 18:46:36
阅读次数:
183
Java中类的加载、连接和初始化类的加载、连接和初始化先介绍一下JVM和类JVM和类:当我们调用Java命令运行某个Java程序时,该命令将会启动一个Java虚拟机进程,不管该Java程序有多么复杂,该程序启动的所有线程,所有变量都处于该Java虚拟机进程里,它们都使用该JVM进程的内存区。当系统出...
分类:
编程语言 时间:
2015-08-29 18:45:19
阅读次数:
186
在Python环境中已经有很多成熟的包,可以通过安装这些包来扩展我们的程序。例如,很多时候Python开发人员都会去PyPI网站去查找自己想要使用的包,然后进行安装。PyPI ( Python Package Index)是获得第三方 Python 软件包以补充标准库的一个站点。在安装Python包...
分类:
编程语言 时间:
2015-08-29 18:44:12
阅读次数:
217
python类和对象的属性分为类属性和对象属性两大类,类属性属于类,而对象属性属于对象。1. 父类的对象属性会被子类的对象继承。2. 父类的类属性会被子类继承,还是作为类属性,如果父类改变了类属性,父类和子类的类属性都会被改变。3. 子类继承父类的类属性可以通过类名+属性名使用,但是一旦发生赋值,就...
分类:
编程语言 时间:
2015-08-29 18:42:03
阅读次数:
145
考虑到AOP的特性,并参考Python的装饰模式(AOP类似),在做开发时,可以使用AOP的思想做一些工作上的简化(比如:运行时的Range属性、内存/存档加密属性等等)。但是AOP(使用的PostSharp)无法支持Unity3D自动生成的dll文件,只有使用合适的模块化方法,将各个模块封装为单独...
分类:
编程语言 时间:
2015-08-29 18:41:43
阅读次数:
186
本文旨在给所有希望了解JVM(Java Virtual Machine)的同学一个概念性的入门,主要介绍了JVM的组成部分以及它们内部工作的机制和原理。当然本文只是一个简单的入门,不会涉及过多繁杂的参数和配置,感兴趣的同学可以做更深入的研究,在研究JVM的过程中会发现,其实JVM本身就是一个计算机体...
分类:
编程语言 时间:
2015-08-29 18:41:03
阅读次数:
164
#JavaScript数据类型##一、原始数据类型Javascript一共有 5种原始类型:Undefined、Null、Boolean、Number、String.*typeof运算符:判断其后面跟的参数是何种原始类型e.g.typeof true--返回boolean注意:typeof null...
分类:
编程语言 时间:
2015-08-29 18:38:53
阅读次数:
223
对象(object)是JavaScript的核心概念,也是最重要的数据类型。JavaScript的所有数据都可以被视为对象。简单说,所谓对象,就是一种无序的数据集合,由若干个“键值对”(key-value)构成。创建对象:1.使用new操作符后跟Object构造函数2.对象字面量表示法在使用字面量语...
分类:
编程语言 时间:
2015-08-29 18:38:09
阅读次数:
158
王家林亲授《DT大数据梦工厂》大数据实战视频 Scala 深入浅出实战经典(1-87讲)完整视频、PPT、代码下载:百度云盘:http://pan.baidu.com/s/1c0noOt6 腾讯微云:http://url.cn/TnGbdC 360云盘:http://yunpan.cn/cQ4c2U...
分类:
编程语言 时间:
2015-08-29 18:37:01
阅读次数:
316
一、IO流的三种分类方式 1.按流的方向分为:输入流和输出流 2.按流的数据单位不同分为:字节流和字符流 3.按流的功能不同分为:节点流和处理流二、IO流的四大抽象类 1.字符流:Reader (读) Writer(写) 2.字节流:InputStream(读数据) OutputStream(...
分类:
编程语言 时间:
2015-08-29 18:34:43
阅读次数:
297
import mathclass Point: def move(self, x, y): self.x = x self.y = y def reset(self): self.move(0, 0) def calculate_dista...
分类:
编程语言 时间:
2015-08-29 18:34:34
阅读次数:
183
上回说到,在Windows窗体程序中,响应Windows消息的线程就被称做Windows窗体程序的UI线程。UI线程还有一个重要的功能是创建和管理窗体和窗体中的各种控件,负责他们的实时刷新,如果UI线程在处理某个消息的时候耗时特别长,那么后续的消息就无法及时响应,看上去的感觉就是“界面卡死”了。此外...
分类:
编程语言 时间:
2015-08-29 18:33:36
阅读次数:
367
[1]基本数据类型 [2]引用类型中的对象Object [3]引用类型中的数组Array [4]引用类型中的时间Date [5]函数Function [6]正则表达式RegExp [7]基本包装类型(Boolean、Number、String) [8]单体内置对象(Global、Math)
分类:
编程语言 时间:
2015-08-29 18:32:35
阅读次数:
232
Python用对象模型来存储数据。构造任何类型的值都是一个对象。Python对象都有是三个特性:身份,类型和值身份是每个对象的唯一身份标识。任何对象都可以用内建函数id()来得到身份。如:>>> s = 1>>> id(s)38249176身份可以认为是该对象的地址。类型是数据以何种方式保存,可以进...
分类:
编程语言 时间:
2015-08-29 18:32:14
阅读次数:
182