菜单

十很机械上算法的优缺点

2018年10月24日 - 最新资讯

C4.5算法

C4.5算法的核心思想是ID3算法,是ID3算法的改善:

信增益率来抉择属性,克服了为此信息增益来选属性时变相选择取值多之属性之贫乏;

于培训的组织过程遭到展开剪枝;

会处理非离散化数据;

克处理不完全数据。

优点:

发的分类规则便于掌握,准确率高。

缺点:

当结构过程遭到,需要对数据集进行多次的顺序扫描和排序,因而招致算法的无效;

C4.5算法就抱为能驻留内存的数据集,当教练集非常得力不从心在内存容纳时,程序无法运行。

K-means算法

简而言之的聚类,吧n个目标根据他们之属于性分为k个类,k

算法的核心是如优化失真函数J,使其一去不返到一些最小值如果非是全局最小值:

J=∑n=1N∑k=1Krnk||xn−uk||2,J=∑n=1N∑k=1Krnk||xn−uk||2,

rnkrnk代表n数据第k单近乎,ukuk是第k个类中心值。

下一场求出最妙的ukuk:

uk=∑rnkxn∑nrnkuk=∑rnkxn∑nrnk

优点:

算法速度快。

缺点:

分组的数目k是一个输入参数,不切合的k可能返回较差之结果。

节能贝叶斯算法

厉行节约贝叶斯法是冲贝叶斯定理特色条件独立如若的分类方法。

算法的底蕴是概率问题,分类原理是通过有目标的先验概率,利用贝叶斯公式计算产生那后验概率,即该对象属于有平等看似的票房价值,选择具有无比可怜后验概率的类作为该对象所属之近乎。

省吃俭用贝叶斯假设是约束性很强之而,假而特征条件独立,但节省贝叶斯算法简单,快速,
具有较小之出错率。

在勤俭节约贝叶斯的动中,主要研究了电子邮件过滤跟文本分类研究。

K最近邻算法

缺点:

K值需要先设定,而休克于适应

当样本不抵时,如一个看似的样本容量很充分,二任何类样本容量很有点,有或导致当输入一个初样本时,该样本之K个邻居吃好容量类的样本占绝大多数。

该算法适用于对样本容量比较老之类域进行自动分拣。

EM最深梦想算法

EM算法是因模型的聚类算法,是于概率模型中找寻参数最要命思然估计的算法,其中概率模型依赖让无法观的潜伏变量。

E步估计隐含变量,M步估计其他参数,交替将极值推向极端酷。

EM算法比K-means算法计算复杂,收敛较缓,不切合广大数据集和高维数据,但于K-means算法计算结构稳定性、准确。

EM算法经常用在机器上与电脑视觉的多少集聚(data clustering)领域。

PageRank算法

Google的页面排序算法。

冲从多上档次的网页链接过来的
网页,必定要上网页的回归关系,来判定所有网页的重要。

一个口来越多牛逼的情人,他牛逼的票房价值就进一步怪。

优点:

全盘独立为查询,只靠让网页链接结构,可以离线计算。

缺点:

PageRank算法忽略了网页搜索的时效性;

故网页排序很高,存在时间增长,积累了大气之in-links,拥有时资讯的网页排名却十分没有,因为她几乎从不in-links。

AdaBoost

Adaboost是同等种植迭代算法,其核心思想是针对同一个教练集训练不同之分类器(弱分类器),然后拿这些弱分类器集合起来,构成一个再次胜似之末段分类器(强分类器)。

算法本事该百诺数据分布来实现的,它根据每次训练集中每一个样书的分类是否正确,以及达等同糟的整体分类准确率,来规定没有个样本的权值。

以修改过权值的初数据集送给下层分类器进行训练,最后将每次训练取得的分类器最后融合起来,作为最后的核定分类器。

终于法流程:

优先经对N个训练样本的念取得第一独弱分类器;

以分错的样书和其他的初数据并组成一个初的N个训练样本,通过学习收获第二独弱分类器;

讲话前都分错的范本加上新的样书构成任何一个新的N个训练样本集,通过上取得第三单弱分类器;

这么反复,最终获得通过提升的胜分类器。

即 AdaBoost 算法广泛的下为口脸检测、目标识别等世界。

Apriori算法

Apriori算法是同样种植挖掘关联规则的算法,用于打其内涵的、未知的倒以实在是的数码涉嫌,其基本是冲两品频集思想之递推算法。

Apriori算法的星星独号:

寻频繁最新资讯项集;

产生反复项集找关联规则。

算法缺点:

在各国一样步产生侯选项目集时循环产生的结合了多,没有败
不应与三结合的元素;

每次计算项集的支持度时,都针对数据库中之周记下进行了同等合扫描比较,需要格外可怜之I/O
负载。

SVM支持为量机

支撑于量机是平种植基于分类边界的方。

基本原理:

只要训练数据分布在二维平面上的接触,它们以其分类 聚集于不同的区域。

因分类边界的分类算法的目标是,通过训练,找到这些分类中的边际。

对此多维数据(N维),可以以他们就是N维空间受到之接触,而分类边界就是N维空间被的当,称为超面。

线性分类器使用超平面类型的境界,非线性分类器使用超曲面。

支撑于量机的法则是以低维空间的点映射到高维空间,使她成为线性可划分,再运线性划分的法则来判定分类边界。在高维空间中是一律种植线性划分,而于旧的多寡空间被,是一致栽非线性划分。

CART树

决策树的归类方法,基于最小离的基尼指数估计函数,用来支配由该子数据集生成的决策树的拓展形。

设若目标变量是标称的,称为分类培育;如果目标变量是连接的,称为回归树。

优点:

非常灵活,可以允许发生一对错分成本,还可指定先验概率分布,可采用机关的资本复杂性剪枝来取得归纳性更胜之扶植。

当在缺失失值、变量数基本上等问题时,CART数显得分外稳健。

相关文章

发表评论

电子邮件地址不会被公开。 必填项已用*标注

网站地图xml地图