### KNN VS K-means
K近邻法(knn)是一种基本的分类与回归方法。
k-means是一种简单而有效的聚类方法。
虽然两者用途不同、解决的问题不同,但是在算法上有很多相似性,于是将二者放在一起,这样能够更好地对比二者的异同。
二者的相同点:
- k的选择类似
- 思路类似:根据最近的样本来判断某个样本的属性
二者的不同点:
应用场景不同:前者是分类或者回归问题,后者是聚类问题;
算法复杂度: 前者O(n^2),后者O(kmn);(k是聚类类别数,m是聚类次数)
稳定性:前者稳定,后者不稳定。
![Image text](https://github.com/moveondo/python-MachineLearning/blob/master/%E7%AE%97%E6%B3%95%E9%97%B4%E5%8C%BA%E5%88%AB%E8%81%94%E7%B3%BB/image/knnkmean.jpg)
### Apriori VS FP-growth
频繁项集:是经常出现在一块儿的物品的集合
关联规则:按时两种物品之间可能存在很强的关系。
支持度是针对项集来说的,因此可以定义一个最小支持度,而只保留满足最小值尺度的项集。
可信度或者是置信度是针对关联规则来定义的,我们的规则对其中多少的记录都适用
Apriori算法是发现频繁项集的一种方法,Apriori算法的两个输入参数分别是最小支持度和数据集,该算法首先会生成所有单个元素的项集列表。接着扫描数据集来查看哪些项集满足最小支持度要求,那些不满足最小支持度的集合会被去掉,然后,对剩下来的集合进行组合以生成包含两个元素的项集;
接下来,再重新扫描交易记录,去掉不满足最小支持度的项集。该过程重复进行直到所有项集都被去掉。
经典的关联规则挖掘算法包括Apriori算法和FP-growth算法。
apriori算法多次扫描交易数据库,每次利用候选频繁集产生频繁集;
而FP-growth则利用树形结构,无需产生候选频繁集而是直接得到频繁集,大大减少扫描交易数据库的次数,从而提高了算法的效率。
但是apriori的算法扩展性较好,可以用于并行计算等领域。
使用Apriori算法进行关联分析。FP-growth算法来高效发现频繁项集。
### LR和SVM的联系与区别?
@朝阳在望,联系:
1、LR和SVM都可以处理分类问题,且一般都用于处理线性二分类问题(在改进的情况下可以处理多分类问题)
2、两个方法都可以增加不同的正则化项,如L1、L2等等。所以在很多实验中,两种算法的结果是很接近的。
区别:
1、LR是参数模型,SVM是非参数模型。
2、从目标函数来看,区别在于逻辑回归采用的是Logistical Loss,SVM采用的是hinge loss.这两个损失函数的目的都是增加对分类影响较大的数据点的权重,减少与分类关系较小的数据点的权重。
3、SVM的处理方法是只考虑Support Vectors,也就是和分类最相关的少数点,去学习分类器。而逻辑回归通过非线性映射,大大减小了离分类平面较远的点的权重,相对提升了与分类最相关的数据点的权重。
4、逻辑回归相对来说模型更简单,好理解,特别是大规模线性分类时比较方便。而SVM的理解和优化相对来说复杂一些,SVM转化为对偶问题后,分类只需要计算与少数几个支持向量的距离,这个在进行复杂核函数计算时优势很明显,能够大大简化模型和计算。
5、Logic 能做的 SVM能做,但可能在准确率上有问题,SVM能做的Logic有的做不了。
### LR与线性回归的区别与联系?
个人感觉逻辑回归和线性回归首先都是广义的线性回归,
其次经典线性模型的优化目标函数是最小二乘,而逻辑回归则是似然函数,
另外线性回归在整个实数域范围内进行预测,敏感度一致,而分类范围,需要在[0,1]。逻辑回归就是一种减小预测范围,将预测值限定为[0,1]间的一种回归模型,因而对于这类问题来说,逻辑回归的鲁棒性比线性回归的要好。
@乖乖癞皮狗:逻辑回归的模型本质上是一个线性回归模型,逻辑回归都是以线性回归为理论支持的。但线性回归模型无法做到sigmoid的非线性形式,sigmoid可以轻松处理0/1分类问题。
### Q:在k-means或kNN,我们是用欧氏距离来计算最近的邻居之间的距离。为什么不用曼哈顿距离?
曼哈顿距离只计算水平或垂直距离,有维度的限制。
另一方面,欧氏距离可用于任何空间的距离计算问题。因为,数据点可以存在于任何空间,欧氏距离是更可行的选择。例如:想象一下国际象棋棋盘,象或车所做的移动是由曼哈顿距离计算的,因为它们是在各自的水平和垂直方向做的运动。
1.训练决策树时的参数是什么?
* 1.criterion gini(基尼系数) or entropy(信息熵)
* 2.splitter best or random 前者是在所有特征中找最好的切分点 后者是在部分特征中(数据量大的时候)
* 3.max_features None(所有),log2,sqrt,N 特征小于50的时候一般使用所有的
* 4.max_depth 数据少或者特征少的时候可以不管这个值,如果模型样本量多,特征也多的情况下,可以尝试限制下
* 5.min_samples_split 如果某节点的样本数少于min_samples_split,则不会继续再尝试选择最优特征来进行划分如果样本量不大,不需要管这个值。如果样本量数量级非常大,则推荐增大这个值。
* 6.min_samples_leaf 这个值限制了叶子节点最少的样本数,如果某叶子节点样本数目小于min_samples_leaf,则会和兄弟节点一起被剪枝,如果样本量不大,不需要管这个值,大些如10W可是尝试下5
* 7.min_weight_fraction_leaf 这个值限制了叶子节点所有样本权重和的最小值,如果小于这个值,则会和兄弟节点一起被剪枝默认是0,就是不考虑权重问题。一般来说,如果我们有较多样本有缺失值,或者分类树样本的分布类别偏差很大,就会引入样本权重,这时我们就要注意这个值了。
* 8.max_leaf_nodes 通过限制最大叶子节点数,可以防止过拟合,默认是"None”,即不限制最大的叶子节点数。如果加了限制,算法会建立在最大叶子节点数内最优的决策树。如果特征不多,可以不考虑这个值,但是如果特征分成多的话,可以加以限制具体的值可以通过交叉验证得到。
* 9.class_weight 指定样本各类别的的权重,主要是为了防止训练集某些类别的样本过多导致训练的决策树过于偏向这些类别。这里可以自己指定各个样本的权重如果使用“balanced”,则算法会自己计算权重,样本量少的类别所对应的样本权重会高。
* 10.min_impurity_split 这个值限制了决策树的增长,如果某节点的不纯度(基尼系数,信息增益,均方差,绝对差)小于这个阈值则该节点不再生成子节点。即为叶子节点 。
2.在决策树的节点处分割的标准是什么?
3.基尼系数的公式是什么?
G=A/(A+B)
赫希曼根据洛伦茨曲线提出的判断分配平等程度的指标。设实际收入分配曲线和收入分配绝对平等曲线之间的面积为A,实际收入分配曲线右下方的面积为B。并以A除以(A+B)的商表示不平等程度。这个数值被称为基尼系数或称洛伦茨系数。如果A为零,基尼系数为零,表示收入分配完全平等;如果B为零则系数为1,收入分配绝对不平等。
收入分配越是趋向平等,洛伦茨曲线的弧度越小,基尼系数也越小,反之,收入分配越是趋向不平等,洛伦茨曲线的弧度越大,那么基尼系数也越大。另外,可以参看帕累托指数(是指对收入分布不均衡的
没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
收起资源包目录
python机器学习.zip (762个子文件)
charfreq.csv 89KB
secom.data 5.14MB
kmean2.jpg 413KB
kmean1.jpg 303KB
native.jpg 303KB
分割.jpg 296KB
knnkmean.jpg 207KB
1.jpg 189KB
native2.jpg 174KB
31.jpg 172KB
3.jpg 163KB
apriori1.jpg 144KB
2.jpg 126KB
1.jpg 121KB
1.jpg 116KB
1.jpg 113KB
8.jpg 112KB
F94581F64C21A1094A473397DFA42F9C.jpg 105KB
百度应用评论观点.jpg 101KB
百度内容标签.jpg 99KB
百度应用问答摘要.jpg 97KB
内容标签在Feed流中的应用.jpg 96KB
百度应用搜索播报摘要和图像摘要.jpg 95KB
百度应用文本和语言摘要.jpg 93KB
篇章主题摘要.jpg 93KB
2.jpg 91KB
k-mean.jpg 86KB
总结.jpg 84KB
Apriori.jpg 83KB
自动摘要分类.jpg 81KB
基于篇章信息的通用新闻摘要.jpg 81KB
观点挖掘.jpg 81KB
3.jpg 80KB
百度应用推荐理由.jpg 79KB
信息爆炸与移动化.jpg 75KB
观点摘要.jpg 75KB
基于大数据分析的图谱构建.jpg 72KB
问答摘要.jpg 72KB
7.jpg 72KB
通用标签.jpg 69KB
主题分类.jpg 69KB
2.jpg 63KB
情感分类.jpg 60KB
典型摘要计算流程.jpg 56KB
面向推荐的标签图谱.jpg 54KB
情感分类和观点挖掘.jpg 54KB
1.jpg 44KB
2.jpg 43KB
2.jpg 43KB
1.jpg 43KB
6.jpg 41KB
3.jpg 38KB
摘要系统.jpg 32KB
main4.jpg 28KB
1.jpg 17KB
5.jpg 15KB
main.jpg 15KB
main1.jpg 14KB
4.jpg 11KB
1.jpg 11KB
4.jpg 10KB
main2.jpg 10KB
1.jpg 8KB
6.jpg 8KB
4.jpg 7KB
7.jpg 7KB
2.jpg 7KB
5.jpg 6KB
3.jpg 6KB
readme.md 30KB
README.md 13KB
readme.md 13KB
readme.md 12KB
readme.md 12KB
readme.md 10KB
readme.md 9KB
AI系统投研框架整理 .md 6KB
readme.md 6KB
K值的确定.md 6KB
3-内容标签.md 6KB
readme.md 5KB
readme.md 5KB
readme.md 5KB
readme.md 5KB
readme.md 5KB
readme.md 5KB
readme.md 4KB
1.自然语言处理入门介绍.md 4KB
README.md 4KB
readme.md 4KB
5-自动摘要.md 4KB
readme.md 4KB
py.md 3KB
4-情感分析.md 3KB
Word2Vec.md 2KB
README.md 2KB
python-grammar.md 2KB
2-内容概述.md 2KB
python-gramer.md 371B
py.md 314B
共 762 条
- 1
- 2
- 3
- 4
- 5
- 6
- 8
资源评论
Kwan的解忧杂货铺@新空间代码工作室
- 粉丝: 4w+
- 资源: 3731
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 【年度调薪】年度薪酬预算执行情况报告.xls
- 【年度调薪】调薪考核表.xls
- 【年度调薪】调薪矩阵表(HR总监绝密).xls
- 【年度调薪】度员工调薪登记表.xlsx
- 【年度调薪】薪资等级结构表.xls
- 【年度调薪】调薪调岗流程表格.xls
- 【年度调薪】部门年度薪资调整套级审批表.xlsx
- 【年度调薪】调薪流程.xlsx
- 【年度调薪】年度员工调薪登记表.xlsx
- 【年度调薪】员工调薪评估.xlsx
- 【年度调薪】员工加薪明细表.xlsx
- 【年度调薪】员工调薪记录表.xlsx
- 【年度调薪】HR疑难操作之调岗调薪(实务篇).doc
- 【年度调薪】工资评定调薪方案.doc
- 【年度调薪】年度调薪方案.doc
- 【年度调薪】调岗调薪操作技巧.doc
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功