# SWJTU_DataMiningCourseDesign
环境介绍:`Python3.6.3`
涉及的库:`pandas=1.1.5, sklearn=0.24.2, numpy=1.19.2`
# 一.数据集介绍
本文中使用的数据集breast cancer, iris和wine都是来自于UCI,下面是对这三个数据集的详细介绍:
### 1.1 Breast Cancr数据集
威斯康星乳腺癌数据集一共包含569个恶性或者良性肿瘤细胞样本,分为两类,总共包含6个属性,该数据集的部分数据展示如下:

其中各个属性的描述具体见下表:
| 属性 | 属性描述 |
| ------- | --------------------------------------------- |
| C_D | Sample code number,样本代码编号 |
| C_T | Clump Thickness,肿块厚度 |
| U_C_Si | Uniformity of Cell Size,细胞大小的均匀性 |
| U_C_Sh | Uniformity of Cell Shape,细胞形状的均匀性 |
| M_A | Marginal Adhesion,边缘粘 |
| S_E_C_S | Single Epithelial Cell Size,单个上皮细胞大小 |
| B_N | Bare Nuclei,裸核 |
| B_C | Bland Chromatin,乏味染色体 |
| N_N | Normal Nucleoli,正常核 |
| M | Mitoses,有丝分裂 |
| Class | 类别(2代表良性,4代表恶性) |
### 1.2 Iris数据集
鸢尾花卉数据集一共包含150个样本,分为三类(Setosa,Versicolour,Virginica),每类50个数据,该数据集的部分数据展示如下:

其中各个属性的描述具体见下表:
| 属性 | 属性描述 |
| ------------ | ---------------------------------------------------- |
| sepal.length | 花萼长度 |
| sepal.width | 花萼宽度 |
| petal.length | 花瓣长度 |
| petal.width | 花瓣宽度 |
| variety | 花类型(0表示Setosa, 1表示Versicolour 2表示Virginica) |
### 1.3 Wine数据集
葡萄酒数据集包含178个样本,也分为三类(1, 2, 3),其中第一类包含59个样本,第二类包含71个样本,第三类包含48个样本,在该数据集中包含了三种酒13种不同成分的数量,下面是该数据集的部分数据:

其中各属性的描述如下:
| 属性 | 属性描述 |
| ------------------- | ----------------------- |
| Wine | 类别 |
| Alcohol | 酒精 |
| Malic.acid | 苹果酸 |
| Ash | 灰 |
| Acl | 灰分的碱度 |
| Mg | 镁 |
| Phenols | 总酚 |
| Flavanoids | 黄酮类化合物 |
| Noflavanoid.phenols | 非黄烷类酚类 |
| Proanth | 原花色素 |
| Color.int | 颜色强度 |
| Hue | 色调 |
| OD | 稀释葡萄酒的OD280/OD315 |
| Proline | 脯氨酸 |
## 1.4 数据集标准化
在读取数据集后还对每个数据集的特征值进行了Z-score标准化,其数学公式为:
$$
x' = \frac{x-\mu}{\sigma}
$$
其中$\mu$和$\sigma$分别为**总体平均值**和**总体标准差**。
# 二.算法介绍
本文包含的分类算法为KNN、朴素贝叶斯以及CART决策树,分别对应文件`knn.py`、`naiveBayes.py`和`DTree.py`,直接运行即可。

斯曦巍峨
- 粉丝: 9423
- 资源: 22
最新资源
- comsol焊接 激光熔覆多层多道 温度场流场应力场应力场 一共是两个模型,电弧 激光温度场流场电弧温度场应力场 ,激光熔覆多道焊接:电弧与激光技术下的温度场、流场与应力场模型研究,激光焊接与熔覆模型
- MATLAB实现BO-CNN-GRU-Mutilhead-Attention贝叶斯优化卷积神经网络-门控循环单元融合多头注意力机制多变量时间序列预测(含模型描述及示例代码)
- MATLAB实CNN-Mutilhead-Attention卷积神经网络融合多头注意力机制多变量时间序列预测(含模型描述及示例代码)
- labelmeAI标注模型
- MATLAB实现KOA-CNN-BiGRU-Multihead-Attention多头注意力机制多变量时间序列预测(含模型描述及示例代码)
- 基于STM32大棚温湿度检测蓝牙APP控制(原理图+PCB+代码)
- labelmeai2 ai标注模型
- 计算机组成原理三小时期末复习重点思维导图
- COMSOL 大型复杂流道燃料电池仿真 下面两个模型: 1)具有树状的冷却流道,蛇形气体分配流道, 2)具有树状的气体分配流道(无冷却流道) 模型特点: 1)模型具有良好的收敛性, 2)网格质量也不
- comsol声学 【声学超材料仿真】 吸声系数 【声阻抗-实部虚部】 展示模型为基于穿孔板和多孔材料复合结构,完美复现吸声系数曲线,仿真结果; 分析仿真结果,仿真; 仿真基于COMSOL6.1版本
- 编队 路径规划 apf 人工势场法 基于编队与路径规划的APF人工势场法研究与应用,编队; 路径规划; apf; 人工势场法,编队智能机器人路径规划与人工势场法(APF)研究
- xfce4-diskperf-plugin-2.6.3-3.el8.x64-86.rpm.tar.gz
- 基于永磁同步电机模型参考自适应MRAS学习参考模型 复现华科lunwen中的模型,有公式推导和原理解释 ,基于永磁同步电机的模型参考自适应MRAS学习与复现,基于永磁同步电机的模型参考自适应MRA
- Altium Designer 25.4.2 Build 15 (x64)
- xfce4-dict-plugin-0.8.4-3.el8.x64-86.rpm.tar.gz
- xfce4-dict-0.8.4-3.el8.x64-86.rpm.tar.gz
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈


