标签:
继续《SAS编程与数据挖掘商业案例》学习笔记,本文側重数据处理实践。包含:HASH对象、自己定义format、以及功能强大的正則表達式
一:HASH对象
Hash对象又称散列表,是依据关键码值而直接进行訪问的数据结构。是依据关键码值而直接进行訪问的数据结构。
sas提供了两个类来处理哈希表。用于存储数据的hash和用于遍历的hiter,hash类提供了查找、加入、改动、删除等方法,hiter提供了用于定位和遍历的first、next等方法。
长处:键值的查找是在内存中进行的,有利于提高性能;
经常用法:
definekey:定义键
Definedata:定义值
definedone:定义完毕。能够加载数据
add:加入键值。如在hash表中已存在,则忽略;
replace:假设健在hash表中存在,则替换。假设不存在则加入键值
remove:清除键值对
find:查找健值,假设存在则将值写入相应变量
check:查找键值,假设存在则返回rc=0,不改动当前变量的值;
output:将hash表输出到数据集
clear:清空hash表,但并不删除对象
equal:推断两个hash类是否相等
find方法的演示样例:
libname chapt12 ‘f:\data_model\book_data\chapt12‘;
data results;
run;
hiter对象的引例:
data patients;
datalines;
smith-4123 15mar2004
hagen-2834 23apr2004
smith-2437 15jan2004
flinn-2940 12feb2004
;
data _null_;
run;
用declare hiter iter("ht");给hash表ht定义了一个遍历器iter,之后调用first方法将遍历器定位到hash表的第一条观測,然后使用next方法遍历hash表中的全部记录并输出。
商业实战-两个数据集的合并:
run;
上述程序能够简化为:
data both2;
run;
二:format
自己定义format:
Proc Format;
Run;
应用:
Data
Set
x=put(sex,$sex_fmt);y=put(age,age_dur.);
Run;
三:正則表達式:
/.../
|
()
.
\w
\W
\s
\S
\d
\D
[...]
[^...]
[a-z]
[^a-z]
^
$
\b
\B
*
+ 匹配一次或多次
?
{n}
{n,}
{n,m}
经常使用函数:
Prxparse
Prxmatch
Call prxsubstr
Prxposn
Call
Cal l
Prxchange
Call prxchange
eg1:
data _null_;
datalines;
there is a cat in this line.
does not match cat
cat in the beginning
at the end, a cat
cat
;
run;
eg2:数据验证
data match_phone;
\d\d\d-\d{4}/");
run;
找出不匹配的手机号码
data unmatch_phone;
\d\d\d-\d{4}/",phone);
run;
Eg3:提取匹配某种模式的字符串
data extract;
\d\d\d-\d{4}/");
datalines;
this line does not have any phone numbers on it
this line does: (123)345-4567 la di la di la
also valid (123) 999-9999
two numbers here (333)444-5555 and (800)123-4567
;
run;
eg4:提取名字
data ReversedNames;
Jones, Fred
Kavich, Kate
Turley, Ron
Dulix, Yolanda
;
data FirstLastNames;
run;
注:1,2分别代表正則表達式中的两个组
eg5:提取符合规定的名字
data old;
Judith S Reaveley
Ralph F. Morgan
Jess Ennis
Carol Echols
Kelly Hansen Huff
Judith
Nick
Jones
;
data new;
run;
Eg6:返回匹配模式的多个位置
data _null_;
run;
注:首次运行call prxnext返回一个position,然后进入循环,在抽取满足条件的子串中。再次运行all prxnext,此时会返回下一个匹配的position;
Eg7:替换文本
data cat_and_mouse;
datalines;
the Cat in the hat
there are two cat cats in this line
here is no replacement
;
run;
版权声明:本文博客原创文章。博客,未经同意,不得转载。
标签:
原文地址:http://www.cnblogs.com/yxwkf/p/4619686.html