基于weka的数据分类分析实验报告 ———————————————————————————————— 作者: ———————————————————————————————— 日期: 基于weka的数据分类分析实验报告 1实验基本内容 本实验的基本内容是通过使用weka中的三种常见分类方法(朴素贝叶斯,KNN和决策 树C4.5)分别在训练数据上训练出分类模型,并使用校验数据对各个模型进行测试和评 价,找出各个模型最优的参数值,并对三个模型进行全面评价比较,得到一个最好的分 类模型以及该模型所有设置的最优参数。最后使用这些参数以及训练集和校验集数据一 起构造出一个最优分类器,并利用该分类器对测试数据进行预测。 2数据的准备及预处理 2.1格式转换方法 原始数据是excel文件保存的xlsx格式数据,需要转换成Weka支持的arff文件格式或 csv文件格式。由于Weka对arff格式的支持更好,这里我们选择arff格式作为分类器原始 数据的保存格式。 转换方法:在excel中打开"movie_given.xlsx",选择菜单文件- >另存为,在弹出的对话框中,文件名输入"total_data",保存类型选择"CSV(逗号分隔 )",保存,我们便可得到"total_data.csv"文件;然后,打开Weka的Exporler,点击O pen file按钮,打开刚才得到的"total_data"文件,点击"save"按钮,在弹出的对话框中, 文件名输入"total_data",文件类型选择"Arff data files(*.arff)",这样得到的数据文件为"total_data.arff"。 2.2如何建立数据训练集,校验集和测试集 数据的预处理过程中,为了在训练模型、评价模型和使用模型对数据进行预测能保证 一致性和完整性,首先要把movie_given.xslx和test.xslx合并在一起,因为在生成arf f文件的时候,可能会出现属性值不一样的情况,否则将为后来的测试过程带来麻烦。 通过统计数据信息,发现带有类标号的数据一共有100行,为了避免数据的过度拟合 ,必须把数据训练集和校验集分开,目前的拆分策略是各50行。类标号为'female'的数 据有21条,而类标号为'male'的数据有79条,这样目前遇到的问题是,究竟如何处理仅 有的21条female数据?为了能在训练分类模型时有更全面的信息,所以决定把包含21条 female类标号数据和29条male类标号数据作为模型训练数据集,而剩下的另49条类标号 类male的数据将全部用于校验数据集,这是因为在校验的时候,两种类标号的数据的作 用区别不大,而在训练数据模型时,则更需要更全面的信息,特别是不同类标号的数据 的合理比例对训练模型的质量有较大的影响。 2.3预处理具体步骤 第一步:合并movie_given.xlsx和test.xlsx,保存为total_data.xlsx; 第二步:在total_data.xlsx中删除多余的ID列信息; 第三步:在excel中打开"total_data.xlsx",选择菜单文件- >另存为,在弹出的对话框中,文件名输入"total_data",保存类型选择"CSV(逗号分隔 )"; 第四步:使用UltraEdit工具把total_data.csv中的数据缺失部分补上全局常量'?' ; 第五步:打开Weka的Exporler,点击Open file按钮,打开刚才得到的"total_data.csv"文件,点击"save"按钮,在弹出的对话框 中,文件名输入"total_data",文件类型选择"Arff data files(*.arff)",这样得到的数据文件为"total_data.arff"。 第六步:从total_data.arff文件里面剪切所有没有分类标号的数据作为预测数据集(t est.arff),共26项。 第七步:把剩下含有类标号数据的total_data.arff文件复制一份,作为总的训练数据集 。文件名称为build_model.arff。 第八步:从total_data.arff文件中剩下的数据里面选取所有分类标号为male的49行数据 作为校验数据集(validate_data.arff)。 第九步:从把剩下的total_data.arff文件改名为train_data.arff。 3. 实验过程及结果截图 3.1决策树分类 用"Explorer"打开刚才得到的"train- data.arff",并切换到"Class"。点"Choose"按钮选择"tree (weka.classifiers.trees.j48)",这是WEKA中实现的决策树算法。 选择Cross-Validatioin folds=10 《基于Weka的数据分类分析实验分析报告》 本实验的核心在于使用Weka这一强大的数据挖掘工具,通过三种经典的分类算法——朴素贝叶斯、KNN(K近邻)和决策树C4.5,对数据进行分类建模与评估。实验的目的是找到最佳的分类模型及其参数设置,以构建一个最优的分类器,并利用此分类器对未知数据进行预测。 数据预处理是关键步骤。原始数据存储为Excel的xlsx格式,需转换为Weka支持的arff或csv格式。由于Weka对arff格式支持更优,因此选择arff作为目标格式。具体操作包括在Excel中另存为CSV格式,再通过Weka的Explorer将CSV文件转化为arff文件。此外,还需删除无关的ID列,处理数据缺失值,例如使用'?'填充缺失数据。 接着,为了确保训练、验证和预测的一致性,需要将原始数据集合并,并根据类别比例划分训练集、验证集和测试集。考虑到过拟合问题,实验采取了50/50的训练验证数据分配策略,特别关注了类别不平衡问题。为了获取更全面的训练信息,选择了包含不同类别的数据作为训练集,而将剩余数据用于验证。 实验过程中,首先使用决策树算法C4.5进行了训练和交叉验证,此处采用了10折交叉验证。决策树是一种直观且易于理解的模型,它通过构建一系列规则来分割数据,最终形成一个决策树结构。Weka的Explorer界面提供了便捷的模型选择和配置选项,用户只需选择"tree (weka.classifiers.trees.j48)"即可应用决策树算法。 实验结果分析未在提供的部分内容中给出,但通常会涉及模型的性能指标,如准确率、精确率、召回率、F1分数等。通过对这些指标的比较,可以确定哪种算法在给定数据集上表现最优,以及其最佳参数设置。 本实验旨在通过Weka工具深入理解和实践数据分类过程,包括数据预处理、模型构建、参数调优和模型评估。通过这样的实践,不仅能够掌握机器学习的基本流程,还能提升对数据处理和模型选择的理解,为后续更复杂的数据分析任务奠定基础。





















剩余13页未读,继续阅读


- 粉丝: 198
- 资源: 3万+
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助


最新资源
- 三菱FX1N与台达MS300变频器485通讯程序:实用PLC与变频器Modbus RTU通讯方案.pdf
- 欧姆龙CP1H与东元Teco N310变频器通讯实战程序.pdf
- 视觉框架VM PRO 2.7:多任务流程、C#源码与机器视觉的完美融合.pdf
- 西门子博途1200-1500追款锁机软件程序例程:经典编程与多种子程序集成,含MODBUS通讯例程.pdf
- 西门子SMART与海为云触摸屏的水泵反渗透及一拖三恒压供水系统.pdf
- 大厂扫地机器人源代码:freertos实时操作系统下的嵌入式学习宝典.pdf
- 改进蚁群算法:研究对比与双向平滑度优化的Matlab路径规划算法.pdf
- S7-1200 PLC Modbus RTU通信主站结构块程序:轻松实现30个从站数据读写.pdf
- 基于Matlab的国外车牌识别.pdf
- 基于Matlab GUI界面的电子双缝衍射实验现象模拟:可输入参数包括缝宽a、双缝间距b、加速电压U、缝屏距离D及电子数目n.pdf
- 基于dSPACE的永磁同步电机矢量控制系统的MATLAB模型及其在实验平台上的应用.pdf
- 基于模型预测控制的车辆轨迹跟踪问题的MATLAB仿真.pdf
- 空调系统amesim联合simulink仿真教程.pdf
- 两阶段鲁棒优化模型:多场景下的列与约束生成(CCG)算法Matlab编程实现.pdf
- 三菱FX1N与东元Teco N310变频器通讯实战程序(实用版).pdf
- 三菱FX3U 485BD与施耐德ATV 71变频器通讯程序:稳定可靠,功能齐全.pdf


