标签:weka csvloader 加载文本数据 stringtowordvector
110112006582760,修理 水泵 安装 制冷 设备 工程 和 技术研究 与 试验 发展 技术开发
110108003557082,销售 计算机 软件 及 辅助 设备 电子产品 未 取得 行政许可 的 项目 除外
110107000885559,技术转让 销售 百货 针纺织品 五金 交电 化工 建筑材料 机械设备 电器设备
110109002641736,汽车配件 计算机 软硬件 及 外围设备 家居装饰 设计 制作 服装 计算机 软硬件
110102000765431,技术开发 动力 技术开发 咨询 销售 机械 电器设备 发电机组 五金交电 橡胶制品
110109004903736,建筑材料 金属材料 除 黄金 化工产品 不含 化学 危险品 及 一类 易制毒 化学品
110108003533570,计算机 软硬件 及 外设 数码 技术开发 技术开发 转让 咨询 服务 培训 技术推广 服务 销售
110101000171791,软件 技术开发 技术咨询 技术培训 技术转让 技术服务 信息 咨询
110108000938562,不含 中介 服务 劳务 服务 销售 五金交电 电子计算机 百货 汽车配件
public static void main(String[] args) throws Exception {
String filename = "datasets/companies.csv";
String savearff = "datasets/companies.arff";
CSVLoader loader = new CSVLoader();
loader.setSource(new File(filename));
// 在这里才能设置你读取的那个字段是String,而不是nominal
loader.setStringAttributes("2"); // from 1
loader.setNominalAttributes("1");
Instances datasrc = loader.getDataSet();
datasrc.renameAttribute(0, "regId");// rename attribu
datasrc.renameAttribute(1, "text");
datasrc.setClassIndex(0);
- // dataRaw.setRelationName(newName); //这里可以设置relationName
//这里可以输出读取后Instances的结构信息,当然自己还可以数去其他信息
//System.out.println(datasrc.stringFreeStructure());
// save ARFF
ArffSaver saver = new ArffSaver();
saver.setInstances(datasrc);
saver.setFile(new File(savearff));
// saver.setDestination(new File(args[1]));
saver.writeBatch();
}
@relation companies
@attribute regId {1.10108003557082E14,1.10107000885559E14,1.10109002641736E14,1.10102000765431E14,1.10109004903736E14,1.1010800353357E14,1.10101000171791E14,1.10108000938562E14}
@attribute text string
@data
1.10108003557082E14,‘销售 计算机 软件 及 辅助 设备 电子产品 未 取得 行政许可 的 项目 除外 ‘
1.10107000885559E14,‘技术转让 销售 百货 针纺织品 五金 交电 化工 建筑材料 机械设备 电器设备 ‘
1.10109002641736E14,‘汽车配件 计算机 软硬件 及 外围设备 家居装饰 设计 制作 服装 计算机 软硬件 ‘
1.10102000765431E14,‘技术开发 动力 技术开发 咨询 销售 机械 电器设备 发电机组 五金交电 橡胶制品 ‘
1.10109004903736E14,‘建筑材料 金属材料 除 黄金 化工产品 不含 化学 危险品 及 一类 易制毒 化学品 ‘
1.1010800353357E14,‘计算机 软硬件 及 外设 数码 技术开发 技术开发 转让 咨询 服务 培训 技术推广 服务 销售‘
1.10101000171791E14,‘软件 技术开发 技术咨询 技术培训 技术转让 技术服务 信息 咨询 ‘
1.10108000938562E14,‘不含 中介 服务 劳务 服务 销售 五金交电 电子计算机 百货 汽车配件 ‘
@relation companies
@attribute regId {110108003557082,110107000885559,110109002641736,110102000765431,110109004903736,110108003533570,110101000171791,110108000938562}
@attribute text string
@data
110108003557082,‘销售 计算机 软件 及 辅助 设备 电子产品 未 取得 行政许可 的 项目 除外 ‘
110107000885559,‘技术转让 销售 百货 针纺织品 五金 交电 化工 建筑材料 机械设备 电器设备 ‘
110109002641736,‘汽车配件 计算机 软硬件 及 外围设备 家居装饰 设计 制作 服装 计算机 软硬件 ‘
110102000765431,‘技术开发 动力 技术开发 咨询 销售 机械 电器设备 发电机组 五金交电 橡胶制品 ‘
110109004903736,‘建筑材料 金属材料 除 黄金 化工产品 不含 化学 危险品 及 一类 易制毒 化学品 ‘
110108003533570,‘计算机 软硬件 及 外设 数码 技术开发 技术开发 转让 咨询 服务 培训 技术推广 服务 销售‘
110101000171791,‘软件 技术开发 技术咨询 技术培训 技术转让 技术服务 信息 咨询 ‘
110108000938562,‘不含 中介 服务 劳务 服务 销售 五金交电 电子计算机 百货 汽车配件 ‘
DecimalFormat df = new DecimalFormat("0.0");//保留一位小数
String str="1.10108003557082E14";
double val=Double.valueOf(str);
System.out.println(val); //默认科学表示法输出
System.out.println(df.format(val));//采用指定格式输出
@relation companies
@attribute regId {id110108003557082,id110107000885559,id110109002641736,id110102000765431,id110109004903736,id110108003533570,id110101000171791,id110108000938562}
@attribute text string
@data
id110108003557082,‘销售 计算机 软件 及 辅助 设备 电子产品 未 取得 行政许可 的 项目 除外 ‘
id110107000885559,‘技术转让 销售 百货 针纺织品 五金 交电 化工 建筑材料 机械设备 电器设备 ‘
id110109002641736,‘汽车配件 计算机 软硬件 及 外围设备 家居装饰 设计 制作 服装 计算机 软硬件 ‘
id110102000765431,‘技术开发 动力 技术开发 咨询 销售 机械 电器设备 发电机组 五金交电 橡胶制品 ‘
id110109004903736,‘建筑材料 金属材料 除 黄金 化工产品 不含 化学 危险品 及 一类 易制毒 化学品 ‘
id110108003533570,‘计算机 软硬件 及 外设 数码 技术开发 技术开发 转让 咨询 服务 培训 技术推广 服务 销售‘
id110101000171791,‘软件 技术开发 技术咨询 技术培训 技术转让 技术服务 信息 咨询 ‘
id110108000938562,‘不含 中介 服务 劳务 服务 销售 五金交电 电子计算机 百货 汽车配件 ‘
/* ......紧接最上面的代码 */
/* filter 分词后的 string */
StringToWordVector filter = new StringToWordVector();
filter.setInputFormat(datasrc);
// String stopwordfile = "datasets/stopwords.en";
// filter.setStopwords(new File(stopwordfile));
// filter.setUseStoplist(true);
String optionStr = "-R first-last -W 1000 -prune-rate -1.0 -C -I -N 1";
filter.setOptions(Utils.splitOptions(optionStr));
Instances dataFiltered = Filter.useFilter(datasrc, filter);
//....接下来可以对dataFilered数据集进行分类或聚类
标签:weka csvloader 加载文本数据 stringtowordvector
原文地址:http://blog.csdn.net/acema/article/details/38018443