敬老、爱老是中华民族的传统美德,为弘扬敬老爱老传统,培养学生劳动技能,6月30日,龙口一中13名学生志愿者来到遇家敬老院,以实际行动为这里的老人们献上自己的爱心。“老有所为,老有所学,老有所养,老有所乐”已经成为整个社会的责任。本次社会实践活动,同学们用行动为老人们带来了家人般的温暖,进一步延续了中华民族“爱老、敬老、养老”的传统美德;培养了劳动意识和劳动技能,使同学们真正感受到了劳动、奉献的快乐。

手握三角纹,富贵有望,钱财不愁![吃瓜]

在手相学中“三角纹”是象征着财富的手纹,手心有非常明显三角纹的人,是大吉大利的手相。预示其人不仅能在事业上有所成就,而且财运也很旺盛,若是从商,在工作上必定会聚四面八方的财产,是注定能成富豪的命,多权利,必定会大富大贵。此外,有此手相者不论男女,都能找到一位条件不错的配偶。你的手上有三角纹吗?

数据挖掘经典算法都有哪些,盘点十点经典算法

人工智能早报 2019-03-20 09:25:19

 1.C4.5

C4.5是一种决策树算法,属于监督学习。先给一个样本集,从而建立一棵决策树,然后根据这个决策树来对后续的数据做决策。

C4.5的缺点:

1. 算法低效,在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效

2. 内存受限,适合于能够驻留于内存的数据集,当训练集大得无法在内存容纳时程序无法运行

一些专业的术语: 熵 / 信息增益 / 信息增益率

熵: 就是信息的不确定性,多样性,包含的信息量的大小,需要用多少bit来传递这个信息。比如,抛一枚银币3次,得到的可能结果有8种,我们知道计算机要用3bit来传递,所以熵就是log2(8)=3。wiki上这样解释"你需要用 log2(n) 位来表示一个可以取n 个值的变量。

信息增益: 熵的减小量。决策树的期望是尽快定位,也就是说我们希望数据集的多样性越小越好,越小说明结果越稳定,越能定位到准确的结果。信息增益越大,则熵会变的越小,说明结果越好。信息增益的计算方式,是原数据集的熵,减去依照属性划分后,每个属性值的概率* 对应的子数据集的熵.

信息增益率: 对信息增益进行修正。信息增益会优先选择那些属性值多的属性,为了克服这种倾向,用一个属性计算出的信息增益,除以该属性本身的熵(SplitInfo),得到信息增益率。

2. The k-means algorithm 即K-Means算法

K-Means算法是一个聚类算法,把n个对象根据他们的属性分为k个分割,k < n。它假设对象属性来自于空间向量,并且目标是使各个群组内部的均 方误差总和最小。它与处理混合正态分布的最大期望算法很相似,因为它们都试图找到数据中自然聚类的中心。

算法的实现步骤

1. 从 n个数据对象任意选择 k 个对象作为初始聚类中心;

2. 根据每个聚类对象的均值(中心对象),计算每个对象与这些中心对象的距离;并根据最小距离重新对相应对象进行划分;

3. 重新计算每个(有变化)聚类的均值(中心对象);

4. 计算标准测度函数,当满足一定条件,如函数收敛时,则算法终止;如果条件不满足则回到步骤2

3. Support vector machines

SVM是一种监督式学习算法,广泛应用于统计分类以及回归分析中。SVM将向量映射到一个更高维的空间里,在这个空间里建立有一个最大间隔超平面。在分开数据的超平面的两边建有两个互相平行的超平面,分隔超平面使两个平行超平面的距离最大化。假定平行超平面间的距离或差距越大,分类器的总误差越小。

svm的一般特征

1. SVM学习问题可以表示为凸优化问题,因此可以利用已知的有效算法发现目标函数的全局最小值。而其他分类方法(如基于规则的分类器和人工神经网络)都采用一种基于贪心学习的策略来搜索假设空间,这种方法一般只能获得局部最优解。

2. SVM通过最大化决策边界的边缘来控制模型的能力。尽管如此,用户必须提供其他参数,如使用核函数类型和引入松弛变量等。

3. 通过对数据中每个分类属性引入一个哑变量,SVM可以应用于分类数据。

4. SVM一般只能用在二类问题,对于多类问题效果不好

 4. The Apriori algorithm

Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里,所有支持度大于最小支持度的项集称为频繁项集,简称频集。

它的核心

其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里,所有支持度大于最小支持度的项集称为频繁项集,简称频集

5. 最大期望(EM)算法

最大期望算法是一种迭代算法,在统计计算中,最大期望(EM,Expectation–Maximization)算法是在概率(probabilistic)模型中寻找参数最大似然估计的算法,其中概率模型依赖于无法观测的隐藏变量(Latent Variabl)。最大期望经常用在机器学习和计算机视觉的数据集聚(Data Clustering)领域。

算法的实现步骤

1. 计算期望(E),利用概率模型参数的现有估计值,计算隐藏变量的期望

2. 最大化(M),利用E 步上求得的隐藏变量的期望,对参数模型进行最大似然估计

 6. PageRank

PageRank是Google算法的重要内容。2001年9月被授予美国专利,专利人是Google创始人之一拉里·佩奇(Larry Page)。因此,PageRank里的page不是指网页,而是指佩奇,即这个等级方法是以佩奇来命名的。

PageRank根据网站的外部链接和内部链接的数量和质量俩衡量网站的价值。PageRank背后的概念是,每个到页面的链接都是对该页面的一次投票,被链接的越多,就意味着被其他网站投票越多。这个就是所谓的"链接流行度"——衡量多少人愿意将他们的网站和你的网站挂钩。PageRank这个概念引自学术中一篇论文的被引述的频度——即被别人引述的次数越多,一般判断这篇论文的权威性就越高。

7. AdaBoost

Adaboost算法是一种迭代算法,是十大算法中的第二个迭代算法,还有一个是前面的最大期望算法.其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。

其算法本身是通过改变数据分布来实现的,它根据每次训练集之中每个样本的分类是否正确,以及上次的总体分类的准确率,来确定每个样本的权值。将修改过权值的新数据集送给下层分类器进行训练,最后将每次训练得到的分类器最后融合起来,作为最后的决策分类器。使用adaboost分类器可以排除一些不必要的训练数据特征,并放在关键的训练数据上面。

算法的实现步骤:

1. 先通过对N个训练样本的学习得到第一个弱分类器

2. 将分错的样本和其他的新数据一起构成一个新的N个的训练样本,通过对这个样本的学习得到第二个弱分类器

3. 将1和2都分错了的样本加上其他的新样本构成另一个新的N个的训练样本,通过对这个样本的学习得到第三个弱分类器;

4. 最终经过提升的强分类器。即某个数据被分为哪一类要由各分类器权值决定。

8. kNN: k-nearest neighbor classification

K近邻算法是一种分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。

算法的实现步骤

1. 计算已知类别的数据集(样本集)中的点与当前点之间的距离

2. 按照距离递增排序

3. 选取与当前点距离最小的K个点

4. 确定K个点所属类别出现的概率

5.返回K个点中类别出现频率最高的类别

9. Naive Bayes(朴素贝叶斯)

朴素贝叶斯算法是基于贝叶斯定理与特征条件独立假设的分类方法,是十大算法中的第二个分类算法,前一个是K近邻算法.

朴素贝叶斯算法模型和决策树算法模型相比,它有着坚实的数学基础,以及稳定的分类效率。同时,NBC模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。理论上,NBC模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此,这是因为NBC模型假设属性之间相互独立,这个假设在实际应用中往往是不成立的,这给NBC模型的正确分类带来了一定影响。

算法的实现步骤

1. 准备工作阶段,这个阶段的任务是为朴素贝叶斯分类做必要的准备,主要工作是根据具体情况确定特征属性,并对每个特征属性进行适当划分,然后由人工对一部分待分类项进行分类,形成训练样本集合。这一阶段的输入是所有待分类数据,输出是特征属性和训练样本。这一阶段是整个朴素贝叶斯分类中唯一需要人工完成的阶段,其质量对整个过程将有重要影响,分类器的质量很大程度上由特征属性、特征属性划分及训练样本质量决定。

2. 分类器训练阶段,这个阶段的任务就是生成分类器,主要工作是计算每个类别在训练样本中的出现频率及每个特征属性划分对每个类别的条件概率估计,并将结果记录。其输入是特征属性和训练样本,输出是分类器。这一阶段是机械性阶段,根据前面讨论的公式可以由程序自动计算完成。

3. 应用阶段。这个阶段的任务是使用分类器对待分类项进行分类,其输入是分类器和待分类项,输出是待分类项与类别的映射关系。这一阶段也是机械性阶段,由程序完成。

 10. CART: 分类与回归树

CART, Classification and Regression Trees。是一种决策树算法,是十大算法中继C4.5之后的有一种决策树算法.它采用一种二分递归分割的技术,将当前的样本集分为两个子样本集,使得生成的的每个非叶子节点都有两个分支。因此,CART算法生成的决策树是结构简洁的二叉树。
************************************
实践牛为你提供网络学习和实践机会,和你一起在网络世界里:边学,边练,边赚!
(您若需要实践机会请加微信公众号:shijianniu1688 或者: 实践牛)
关注微信小程序:实践牛精品课


发布     👍 0 举报 写留言 🖊   
✋热门推荐
  • 能够置顶良久的微信短句1.占得人世一味愚2.过了期的小同伙3.只是临时的糟4.庄严来自于气力5.做个感情稳固的大人6.没有先天就得起劲7.我是我本身的神明8.生
  • 如果现价买入,投资价值就更加大了,靠每年二次分红也要不了多久就能回本,稳当当的业绩,准时的分红派息,在A股市场,中国石油的股票起码超过80%的股票,只要你是来股
  • 这本书是为了更好地帮助你做好父母,因为好的父母胜过好的老师,同时,做一个好的老师,父母将获得更多的成长。孩子让父母得到了更好的体验和更多的成长,而父母也要让孩子
  • 不整服他,没好 万法皆空因果不空菩萨慈悲亦惩恶,他说的内容挺阳的,实际上比谁都阴,找到一个没用得找到俩,他俩配捣鼓的。我觉得现今这个社会,应该以朴实奉献为荣,以
  • 财联社7月19日讯(编辑 刘蕊)随着北溪-1号管道结束维护并恢复供应的最后期限逐步临近,俄罗斯可能对德国彻底“断供”也渐渐临近揭盅。尤其是在本周一“俄气”警告对
  • 一场前往世界最南端大陆的旅行✈️一次看似平常却又意义非凡的极地露营⛺️这一次的旅行再一次开阔我的视野让我想起了十八岁时的对自己许下的承诺周游世界虽然不再是十八岁
  • 诸葛滕二孙濮阳传》【译文】诸葛恪心里想炫耀武力于淮南,驱赶百姓,而众将领中有人提出疑问说:“现在率军深入,边境上的百姓必定相率远避,恐怕士兵劳苦而收效甚微,不如
  • ——贾平凹《品茶》缙云仙都~~~慢悠悠地走在这仙堤之上,两边杨柳婆娑,缭绕的雾气挡住了后面的山峰,宛如仙境如果人间有仙境,我想,那个地方应该就是缙云仙都。随之
  • (我看好的是茅五,二线白酒的估值我不认可)白酒9月中旬是低点,也是坤坤基金拯救计划的启动点,这个位置就是低点。招商白酒前两天突破年线和10月突破年线性质不同,这
  • 夏日冷饮の氛围感文案❶一杯夏天ᐝ❷▷一杯接一杯❸吃刨冰的季节❹夏日%❺ꪔ̤̮ 快 樂 喝 冰❻滋溜一夏ᐝ❼一起喝冰镇汽水❽龙虾啤酒,夏日标配❾冷饮一杯 烦恼打烊
  • 果然有种穿越的感觉[开学季]大连能把有轨电车保留到现在真滴太不容易了到了兴工街就想顺便把小红书上好多人说的罗斯福给逛了 主要还是我太想吃dq了[泪]但是突然新闻
  • 待我手头身体乳用完可以考虑搞个一瓶 [偷乐]吃饱喝足开始逛gai 但阿金要给大悦城一个差评 南座北座傻傻分不清楚 而且感觉没啥可逛的 搞不懂商场定位 各种档次混
  • 选择面太广了,光听一个前奏或者副歌部分觉得不好听就切,而且现在听到的喜欢的歌也不知道是谁唱的,尤其是短视频里火的那些歌真的只是会唱几句,有时候听到前奏都不知道原
  • #活动预告# 同走共富路 喜迎二十大 |“天一音乐”经典红色电影展播(四)报名链接:7月起天一音乐馆将于每周二下午推出暑期电影档邀您来观看红色电影共忆革命之路。
  • ”“做生活的主人”“每时每刻都坚强”我相信马丁的灵魂一定够自由,但他又足够爱他的家庭。马丁有个幸福的家庭,他对龙卷风的热爱从兴趣落实成了工作,他有非常大的勇气和
  • 经民警询问和法律宣讲,两人才交代了报假警的事实,原来所谓的“抢劫嫌疑人”吴某某(男,35岁,海口人)朝二人喷射辣椒水,是为了迫使李某某还钱,此后李某某和许某某二
  • :Toy#恐龍的皮#The House on Mango street[心]整本书的设计都非常好看,不论是原文还是翻译过来的内容其实很短,每一小节一小短篇,见证
  • 纷繁世界,世事繁杂,寻一个恰好的空间,无需无大,在小小的空间里,泡一杯茶,静静地读一本喜欢的书,让心静下来,这就是一个人的美好世界。时光知味,我亦深情,禅茶一味
  • 仿佛知晓了荷花的小秘密,也就不那么羡慕席慕容了。该是清晨露珠滴落的时候吧,在那样彼此聆听的静谧里,花瓣绽开,偷偷的告诉给看荷的人。
  • 我:嘿嘿 我啥都知道(实际上是我唯一不爱吃这没味儿的瓜子宵夜结束Going:唉‍我要胖了我:不胖不胖 可可爱了(os:再吃确实该拦着点了…这食量是有点吓人…胃要