标签:int return exe cat ber 创建 pack tag 加载
Hive的SQL可以通过用户定义的函数(UDF),用户定义的聚合(UDAF)和用户定义的表函数(UDTF)进行扩展。
当Hive提供的内置函数无法满足你的业务处理需要时,此时就可以考虑使用用户自定义函数(UDF)。
UDF、UDAF、UDTF的区别:
UDF(User-Defined-Function)一进一出
UDAF(User-Defined Aggregation Funcation)聚集函数,多进一出
UDTF(User-Defined Table-Generating Functions)一进多出,如lateral view explore()
用户自定义函数(user defined function),针对单条记录。编写一个UDF,需要继承UDF类,并实现evaluate()函数。在查询执行过程中,查询中对应的每个应用到这个函数的地方都会对这个类进行实例化。对于每行输入都会调用到evaluate()函数。而evaluate()函数处理的值会返回给Hive。同时用户是可以重载evaluate方法的。Hive会像Java的方法重载一样,自动选择匹配的方法.
一、应用案例
1)全角转半角
package com.sjck.hive.udf; import org.apache.commons.lang.StringUtils; import org.apache.hadoop.hive.ql.exec.UDF; /** * 全角转半角 * @author Administrator * */ public class ToSingleByte extends UDF { public static String evaluate(String val) { if(StringUtils.isNotBlank(val)){ char c[] = val.toCharArray(); for (int i = 0; i < c.length; i++) { if (c[i] == ‘\u3000‘) { c[i] = ‘ ‘; } else if (c[i] > ‘\uFF00‘ && c[i] < ‘\uFF5F‘) { c[i] = (char) (c[i] - 65248); } } String returnString = new String(c); return returnString; } return ""; } }
2)身份证信息验证
package com.sjck.hive.udf.util; import java.text.ParseException; import java.text.SimpleDateFormat; import java.util.Calendar; import java.util.Date; import org.slf4j.Logger; import org.slf4j.LoggerFactory; /** * <p> * 身份证合法性校验 * </p> * * <pre> * --15位身份证号码:第7、8位为出生年份(两位数),第9、10位为出生月份,第11、12位代表出生日期,第15位代表性别,奇数为男,偶数为女。 * --18位身份证号码:第7、8、9、10位为出生年份(四位数),第11、第12位为出生月份,第13、14位代表出生日期,第17位代表性别,奇数为男,偶数为女。 * 最后一位为校验位 * </pre> * * @author 313921 */ public class IdCardUtil { private static Logger logger = LoggerFactory.getLogger(IdCardUtil.class); /** * <pre> * 省、直辖市代码表: * 11 : 北京 12 : 天津 13 : 河北 14 : 山西 15 : 内蒙古 * 21 : 辽宁 22 : 吉林 23 : 黑龙江 31 : 上海 32 : 江苏 * 33 : 浙江 34 : 安徽 35 : 福建 36 : 江西 37 : 山东 * 41 : 河南 42 : 湖北 43 : 湖南 44 : 广东 45 : 广西 46 : 海南 * 50 : 重庆 51 : 四川 52 : 贵州 53 : 云南 54 : 西藏 * 61 : 陕西 62 : 甘肃 63 : 青海 64 : 宁夏 65 : 新疆 * 71 : 台湾 * 81 : 香港 82 : 澳门 * 91 : 国外 * </pre> */ private static String[] cityCode = { "11", "12", "13", "14", "15", "21", "22", "23", "31", "32", "33", "34", "35", "36", "37", "41", "42", "43", "44", "45", "46", "50", "51", "52", "53", "54", "61", "62", "63", "64", "65", "71", "81", "82", "91" }; /** * 每位加权因子 */ private static int power[] = { 7, 9, 10, 5, 8, 4, 2, 1, 6, 3, 7, 9, 10, 5, 8, 4, 2 }; /** * 验证所有的身份证的合法性 * * @param idcard * 身份证 * @return 合法返回true,否则返回false */ public static boolean isValidatedAllIdcard(String idcard) { if (idcard == null || "".equals(idcard)) { return false; } int s=15; if (idcard.length() == s) { return validate15IDCard(idcard); } int s1=18; if(idcard.length()==s1) { return validate18Idcard(idcard); } return false; } /** * <p> * 判断18位身份证的合法性 * </p> * 根据〖中华人民共和国国家标准GB11643-1999〗中有关公民身份号码的规定,公民身份号码是特征组合码,由十七位数字本体码和一位数字校验码组成。 * 排列顺序从左至右依次为:六位数字地址码,八位数字出生日期码,三位数字顺序码和一位数字校验码。 * <p> * 顺序码: 表示在同一地址码所标识的区域范围内,对同年、同月、同 日出生的人编定的顺序号,顺序码的奇数分配给男性,偶数分配 给女性。 * </p> * <p> * 1.前1、2位数字表示:所在省份的代码; 2.第3、4位数字表示:所在城市的代码; 3.第5、6位数字表示:所在区县的代码; * 4.第7~14位数字表示:出生年、月、日; 5.第15、16位数字表示:所在地的派出所的代码; * 6.第17位数字表示性别:奇数表示男性,偶数表示女性; * 7.第18位数字是校检码:也有的说是个人信息码,一般是随计算机的随机产生,用来检验身份证的正确性。校检码可以是0~9的数字,有时也用x表示。 * </p> * <p> * 第十八位数字(校验码)的计算方法为: 1.将前面的身份证号码17位数分别乘以不同的系数。从第一位到第十七位的系数分别为:7 9 10 5 8 4 * 2 1 6 3 7 9 10 5 8 4 2 * </p> * <p> * 2.将这17位数字和系数相乘的结果相加。 * </p> * <p> * 3.用加出来和除以11,看余数是多少 * </p> * 4.余数只可能有0 1 2 3 4 5 6 7 8 9 10这11个数字。其分别对应的最后一位身份证的号码为1 0 X 9 8 7 6 5 4 3 * 2。 * <p> * 5.通过上面得知如果余数是2,就会在身份证的第18位数字上出现罗马数字的Ⅹ。如果余数是10,身份证的最后一位号码就是2。 * </p> * * @param idcard * @return */ public static boolean validate18Idcard(String idcard) { if (idcard == null) { return false; } // 非18位为假 int s=18; if (idcard.length() != s) { logger.error("身份证位数不正确!"); return false; } // 获取前17位 String idcard17 = idcard.substring(0, 17); // 前17位全部为数字 if (!isDigital(idcard17)) { return false; } String provinceid = idcard.substring(0, 2); // 校验省份 if (!checkProvinceid(provinceid)) { return false; } // 校验出生日期 String birthday = idcard.substring(6, 14); SimpleDateFormat sdf = new SimpleDateFormat("yyyyMMdd"); try { Date birthDate = sdf.parse(birthday); String tmpDate = sdf.format(birthDate); // 出生年月日不正确 if (!tmpDate.equals(birthday)) { return false; } } catch (ParseException e1) { return false; } // 获取第18位 String idcard18Code = idcard.substring(17, 18); char c[] = idcard17.toCharArray(); int bit[] = converCharToInt(c); int sum17 = 0; sum17 = getPowerSum(bit); // 将和值与11取模得到余数进行校验码判断 String checkCode = getCheckCodeBySum(sum17); if (null == checkCode) { return false; } // 将身份证的第18位与算出来的校码进行匹配,不相等就为假 if (!idcard18Code.equalsIgnoreCase(checkCode)) { return false; } //System.out.println("正确"); return true; } /** * 校验15位身份证 * * <pre> * 只校验省份和出生年月日 * </pre> * * @param idcard * @return */ public static boolean validate15IDCard(String idcard) { if (idcard == null) { return false; } // 非15位为假 int s=15; if (idcard.length() != s) { return false; } // 15全部为数字 if (!isDigital(idcard)) { return false; } String provinceid = idcard.substring(0, 2); // 校验省份 if (!checkProvinceid(provinceid)) { return false; } String birthday = idcard.substring(6, 12); SimpleDateFormat sdf = new SimpleDateFormat("yyMMdd"); try { Date birthDate = sdf.parse(birthday); String tmpDate = sdf.format(birthDate); // 身份证日期错误 if (!tmpDate.equals(birthday)) { return false; } } catch (ParseException e1) { return false; } return true; } /** * 将15位的身份证转成18位身份证 * * @param idcard * @return */ public static String convertIdcarBy15bit(String idcard) { if (idcard == null) { return null; } // 非15位身份证 int s=15; if (idcard.length() != s) { return null; } // 15全部为数字 if (!isDigital(idcard)) { return null; } String provinceid = idcard.substring(0, 2); // 校验省份 if (!checkProvinceid(provinceid)) { return null; } String birthday = idcard.substring(6, 12); SimpleDateFormat sdf = new SimpleDateFormat("yyMMdd"); Date birthdate = null; try { birthdate = sdf.parse(birthday); String tmpDate = sdf.format(birthdate); // 身份证日期错误 if (!tmpDate.equals(birthday)) { return null; } } catch (ParseException e1) { return null; } Calendar cday = Calendar.getInstance(); cday.setTime(birthdate); String year = String.valueOf(cday.get(Calendar.YEAR)); String idcard17 = idcard.substring(0, 6) + year + idcard.substring(8); char c[] = idcard17.toCharArray(); String checkCode = ""; // 将字符数组转为整型数组 int bit[] = converCharToInt(c); int sum17 = 0; sum17 = getPowerSum(bit); // 获取和值与11取模得到余数进行校验码 checkCode = getCheckCodeBySum(sum17); // 获取不到校验位 if (null == checkCode) { return null; } // 将前17位与第18位校验码拼接 idcard17 += checkCode; return idcard17; } /** * 校验省份 * * @param provinceid * @return 合法返回TRUE,否则返回FALSE */ private static boolean checkProvinceid(String provinceid) { for (String id : cityCode) { if (id.equals(provinceid)) { return true; } } return false; } /** * 数字验证 * * @param str * @return */ private static boolean isDigital(String str) { return str.matches("^[0-9]*$"); } /** * 将身份证的每位和对应位的加权因子相乘之后,再得到和值 * * @param bit * @return */ private static int getPowerSum(int[] bit) { int sum = 0; if (power.length != bit.length) { return sum; } for (int i = 0; i < bit.length; i++) { for (int j = 0; j < power.length; j++) { if (i == j) { sum = sum + bit[i] * power[j]; } } } return sum; } /** * 将和值与11取模得到余数进行校验码判断 * * @param checkCode * @param sum17 * @return 校验位 */ private static String getCheckCodeBySum(int sum17) { String checkCode = null; switch (sum17 % 11) { case 10: checkCode = "2"; break; case 9: checkCode = "3"; break; case 8: checkCode = "4"; break; case 7: checkCode = "5"; break; case 6: checkCode = "6"; break; case 5: checkCode = "7"; break; case 4: checkCode = "8"; break; case 3: checkCode = "9"; break; case 2: checkCode = "x"; break; case 1: checkCode = "0"; break; case 0: checkCode = "1"; break; default: } return checkCode; } /** * 将字符数组转为整型数组 * * @param c * @return * @throws NumberFormatException */ private static int[] converCharToInt(char[] c) throws NumberFormatException { int[] a = new int[c.length]; int k = 0; for (char temp : c) { a[k++] = Integer.parseInt(String.valueOf(temp)); } return a; } }
package com.sjck.hive.udf; import org.apache.commons.lang.StringUtils; import org.apache.hadoop.hive.ql.exec.UDF; import com.sjck.hive.udf.util.IdCardUtil; /** * 身份证信息验证 * @author Administrator * */ public class VerifiyCardNo extends UDF { public static String evaluate(String idcard,String returnType) { if(StringUtils.isNotBlank(idcard)){ boolean validated= IdCardUtil.isValidatedAllIdcard(idcard); if(validated){ String gender="未知"; String birthday="未知"; String birthday_region="未知"; idcard=idcard.length()==15?IdCardUtil.convertIdcarBy15bit(idcard):idcard; String checkCode = String.valueOf(idcard.charAt(16)); int parseInt = Integer.parseInt(checkCode); gender=parseInt%2==0?"女":"男"; returnType=returnType.toUpperCase(); if(StringUtils.isNotBlank(returnType)){ if("BIRTHDAY".equals(returnType)){ birthday= idcard.substring(6, 14); return birthday; }else if("GENDER".equals(returnType)){ return gender; }else if("BIRTHDAY_REGION".equals(returnType)){ birthday_region=idcard.substring(0, 6); return birthday_region; } } } } return "未知"; } public static void main(String[] args) { System.out.println(VerifiyCardNo.evaluate("412721199507105418","BIRTHDAY")); System.out.println(VerifiyCardNo.evaluate("412721199507105418","GENDER")); System.out.println(VerifiyCardNo.evaluate("51010720001205584X","BIRTHDAY")); } }
二、添加jar的三种方式
1)使用add jar jarpath/hive-udf.jar;方法加入
该方法的缺点是每次启动Hive的时候都要从新加入,退出hive就会失效。
2)通过设置hive的配置文件hive-site.xml 加入
在配置文件中增加配置
<property>
<name>hive.aux.jars.path</name>
<value>file:///jarpath/hive-udf1.jar,file:///jarpath/hive-udf2.jar</value>
</property>
保存即可
该方法比第一种方法方便很多。不需要每次启动Hive执行命令加入,只是配置稍微复杂一些
3)在${HIVE_HOME}下创建auxlib目录,将UDF文件放到该目录中,这样hive在启动时会将其中的jar文件加载到classpath中
这种方法,方便快捷,不需要重启HVIE服务
三、 函数声明:
//创建临时函数
create temporary function toSingleByte as ‘com.sjck.hive.udf.ToSingleByte‘;
//创建永久函数
create function toSingleByte as ‘com.sjck.hive.udf.ToSingleByte‘;
create function verifiyCardNo as ‘com.sjck.hive.udf.VerifiyCardNo‘;
删除永久函数
drop function toSingleByte;
drop function verifiyCardNo;
个人是将hive的udf 放在 hdfs上
hadoop fs -mkdir/user/hive/udf
hadoop fs -put hive-udf.jar /user/hive/udf/
create functionto singlebyte AS ‘com.sjck.hive.udf.ToSingleByte‘ using jar ‘hdfs://master01:8020/user/hive/udf/hive-udf.jar‘;
create function verifiycardno AS ‘com.sjck.hive.udf.VerifiyCardNo‘using jar ‘hdfs://master01:8020/user/hive/udf/hive-udf.jar‘;
标签:int return exe cat ber 创建 pack tag 加载
原文地址:https://www.cnblogs.com/kopao/p/13650868.html