WEKA 使用指南中文版
WEKA 是一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理、分类、回归、聚类、关联规则以及在新的交互式界面上的可视化。WEKA 由四个主要部分组成:SimpleCLI、Explorer、Experimenter 和 KnowledgeFlow。
SimpleCLI
SimpleCLI 提供了一个简单的命令行界面,从而可以在没有自带命令行的操作系统中直接执行 WEKA 命令。
Explorer
Explorer 是视窗界面的数据挖掘环境。在这个环境中,WEKA 提供了数据的预处理、各种数据挖掘算法(包括分类与回归算法、聚类算法、关联规则等),并提供了结果的可视化工具。用户可以通过简单的数据预处理,并对数据挖掘算法进行选择,然后点击“Start”按钮就可以运行了。
Explorer 界面主要由七个区域组成:
* 区域 1:几个选项卡是用来切换不同的挖掘任务面板。
* 区域 2:一些常用按钮,包括打开数据、保存(Save)及编辑数据(Edit 查看编辑数据)。
* 区域 3:可以实现筛选数据或者对数据进行某种变换。
* 区域 4:展示了数据集的一些基本情况,数据个数、属性个数等。
* 区域 5:列出了数据集的所有属性。
* 区域 6:关于选择的属性的摘要。
* 区域 7:选择属性的直方图。
* 区域 8:状态栏,可以查看 Log 以判断是否有错。
Experimenter
Experimenter 是运行算法试验、管理算法方案之间的统计检验的环境。
KnowledgeFlow
KnowledgeFlow 环境本质上和 Explorer 所支持的功能是一样的,但是它有一个可以拖放的界面。它有一个优势,就是支持增量学习(incremental learning)。
数据预处理
数据预处理主要是通过区域 1、2、3 来实现的。用户可以通过选择不同的预处理算法,来对数据进行预处理。
数据属性
数据属性是通过“@attribute”语句来定义的。每个属性都有它对应的“@attribute”语句,来定义它的属性名称和数据类型。WEKA 支持的数据类型有四种:numeric、nominal、string、date。
数据类型
WEKA 支持的数据类型有:
* numeric:数值型
* nominal:分类(nominal)型
* string:字符串型
* date:日期和时间型
WEKA 也支持两个类型:“integer”和 “real”,但把它们都当作 “numeric” 看待。
WEKA 是一个功能强大且灵活的数据挖掘工具,能够满足用户的各种数据挖掘需求。