一路向西西瓜影院 机器学习:速即丛林算法的Stata完毕
发布日期:2024-11-06 12:14    点击次数:176

一路向西西瓜影院 机器学习:速即丛林算法的Stata完毕

🍎 Stata:Stata基础 | Stata绘制 | Stata标准 | Stata新号令📘 论文:数据处理 | 成果输出 | 论文写稿 | 数据共享💹 计量:总结分析 | 交乘项-调理  | IV-GMM | 时分序列 | 面板数据  | 空间计量 | Probit-Logit | 分位数总结⛳ 专题:SFA-DEA | 生计分析  | 爬虫 | 机器学习 | 文天职析🔃 因果:DID | RDD | 因果推断 | 合成限度法 | PSM-Matching🔨 用具:用具软件 | Markdown | Python-R-Stata🎧 课程:公开课-直播 |  计量专题 | 对于连享会

连享会课程 · 2023 暑期班一路向西西瓜影院

马 丁(中山大学),mading3@mail2.sysu.edu.cn刘梦真(中山大学),liumzh27@mail2.sysu.edu.cn

温馨提醒: 文中承接在微信中无法收效。请点击底部「阅读原文」。或径直长按/扫描如下二维码,直达原文:

目次

1.决策树关联表面

1.1 问题配景

1.2 表面先容

2. chaid

2.1 语法结构

2.2 要点提醒

2.3 成果储存

3. 速即丛林关联表面

3.1 问题配景

3.2 表面先容

4. chaidforest

4.1 语法结构

4.2 要点提醒

4.3 成果储存

5. rforest

5.1 语法结构

5.2 要点提醒

5.3 Bug 证实

5.4 成果储存

6. Stata 操作

6.1 chaid 示例

6.2 chaidforest 示例

6.3  rforest 示例

7. 参考文件和贵府

8. 关联推文

编者按: 机器学习的应用越来越平常。在此前的推文中,咱们对机器学习算法及 Stata 应用作念了一些基本的先容,详见:Stata:速即丛林算法简介与完毕。本文作进一步拓展,并从其他角度列举一些实操规范。

1.决策树关联表面1.1 问题配景

当代社会中,大数据的应用以及数据挖掘的速即发展使得东说念主们越来越爱重怎么高效地处理数据这一问题。有东说念主觉得,不错基于东说念主们掌捏的各方面信息,对决策空间进行一定的分别,一块空间内的样本就属于一个特定的类别,而这即是决策树想想最早的产生。在 2006 年 12 月的 ICDM 会议上,看成决策树算法之一的 C4.5 算法被评为数据挖掘边界的十大经典算法之首。

决策树的典型算法有 ID3,C4.5,CART 以及 CHAID 等。本文重心先容 CHAID 分类纪律以及由其养殖出的  CHAIDFOREST 。

性感尤物1.2 表面先容

决策树算法是一种靠拢闹翻函数值的纪律。它是一种典型的分类纪律,最初对数据进行处理,诈欺归纳算法生成可读的礼貌和决策树,然后使用决策对新数据进行分析。实质上决策树是通过一系列礼貌对数据进行分类的历程。

决策树纪律最早产生于上世纪 60 年代,到 70 年代末。由 J Ross Quinlan 建议了 ID3 算法,此算法的见地在于减少树的深度。然则忽略了叶子数见地参议。C4.5 算法在 ID3 算法的基础上进行了革新,对于量度变量的缺值处理、剪枝时刻、派生礼貌等方面作了较大革新,既安妥于分类问题,又安妥于总结问题。

卡方自动交互检测法(chi-squared automatic interaction detector, CHAID)最早由 Kass 于1980年建议,是一个用来发现变量之间关系的用具,是一种基于调理后的权贵性考验(邦费罗尼考验)决策树时刻。其中枢想想是:证据给定的反应变量和诠释变量对样本进行最优分割,按照卡方考验的权贵性进行多元列联表的自动判断分组。诈欺卡方自动交互检测法不错快速、有用地挖掘出主要的影响因素,它不仅不错处理非线性和高度关联的数据,况且不错将缺失值商酌在内,能克服传统的参数考验纪律在这些方面的为止。

CHAID 的分类历程是:最初采取分类的反应变量,然后用诠释变量与反应变量进行交叉分类,产生一系列二维分类表,分别诡计二维分类表的 χ2 值,比拟 P 值的大小,以 P 值最小的二维表看成最好开动分类表,在最好二维分类表的基础上络续使用诠释变量对反应变量进行分类,重叠上述历程直到 P 值大于设定的有统计真谛的 α 值为止。

在 CHAID 分析历程中,决策树主要有根节点(包含因变量或方针变量),父节点(将方针变量分割成多个分类的节点),子节点(决策树中低于父节点的节点)以及结尾节点(临了一个分类节点)。频频来说,不错使用ROC 弧线(继承者职责特征弧线, receiver operating characteristic curve)底下积对 CHAID 分析成果进行评价,通过改变分类使用的临界值来测试 CHAID 决策分析的信度和效度。

在试验中,CHAID 频频使用在直销的配景下,弃取消耗者群体,并量度他们的反应,一些变量怎么影响其他变量,而其他早期应用是在医学和神经病学的参议边界。

底下将主要先容 Stata 中怎么使用 CHAID 决策分析号令chaid。

2. chaid2.1 语法结构

chaid 号令作家为 Joseph N. Luchman 编写的用于完毕 CHAID (Chi-square automated interaction detection; Kass, 1980; Applied Statistics) 和穷举 CHAID (Biggs et al., 1991; Journal of Applied Statistics) 以决策树的花样发现数据关系的算法,以及用于聚类不雅察的算法,语法结构如下:

chaid depvar [if] [in] [weight], /// [minnode(integer) minsplit(integer) /// unordered(varlist) ordered(varlist) noisily missing /// mergalpha(pvalue) respalpha(pvalue) spltalpha(pvalue) /// maxbranch(integer) dvordered noadj nodisp predicted importance/// xtile(varlist, xtile_opt) permutesvy exhaust]depvar:被诠释变量,即方针变量;minnode():chaid 决策树节点中允许的最小样本数;minsplit(): chaid 决策树络续分裂所条目的最少样本数;unordered():将相关变量视为无序的(随便变量皆不错合并);ordered():将相关变量视为有序 (monotonic) 的(唯独周边变量不错合并);noisily:向用户展示 chaid 决策树在分类变量的弃取历程;missing:允许方针变量和分类变量中的缺失值被视作除有序变量 (monotonic) 和口头变量 (ordinal) 外的另一种单独的 (floating) 变量;mergalpha():设定了在被分离变量中允许分类的临界 alpha 值;respalpha() :树立 alpha 值,在该 alpha 上,已优化合并的一组幽静变量的 3 个或更多原始类别将被允许进行二元拆分;spltalpha():树立调理后的 alpha 级别,在该级别上,最好合并的量度值将在合并纪律后被拆分;maxbranch():树立了 chaid 决策树中树枝数量的最大值;dvordered:将方针变量从无序变量改成有序 logistic 总结变量;noadj:驻防 chaid 通过 Bonferroni 调理spltalpha()的 p 值来驻防潜在的“假阳性”推断空幻;nodisp:驻防 chaid 露出算法生成的决策树结构和图形;predicted:生成对通盘聚类反馈变量的量度值;importance:生成一个关键性成列矩阵,对分裂变量进行排序;xtitle():处理分类变量,生成一组有序分类的分位数。将相关变量被视为有序的,并添加到名为 'xtvarname' 的数据聚会。不错在逗号后通过 nquantiles(#) 来弃取创建的分位数,默许选拔中位数进行拆分permute:将用于拆分和合并纪律的 p 值的诡计样式从传统的大样本通常更正为基于蒙特卡洛模拟生成数值的纪律;svy:将 svyset 复杂测量联想特色纳入 p 值诡计;exhaust:用于完毕 Biggs、de Ville 和 Suen(1991)描写的穷举 CHAID 算法,不然将进行一般性 CHAID 决策分析;2.2 要点提醒因为 chaid 成果有速即性的因素,是以用户应该在使用 chaid 之前树立种子值;chaid 诈欺 Mata 保存一个字符串矩阵,用户不错赢得 post estimation ;一个名为 “CHAIDsplit” 的 Mata 矩阵包含用于创建 e(split#) 和 e(path#) 宏的信息,使用者不错从 “CHAIDsplit” 中获取某些情况下可能缺失的 e(path#) 中包含的字符串;将疏浚不雅测值上的数据折叠并使用 fweight 是加速较大数据集想到时分的一种纪律。商酌到 chaid 需要分类数据,使用 collapse 号令是一种非常有用的纪律,然则 svy 或 permute 不行使用;chaid 使用 Akaike 信息标准来决定 p 值疏浚期的分割;2.3 成果储存

号令履行成果均储存在 e() 中:

scalarsdetailse(N)不雅测值数量e(N_clusters)chaid 产生的聚类的数量e(fit)簇的纯度(每个簇唯唯独个反馈变量值的进度),基于克莱姆 Vmacrosdetailse(cmdline)输入的号令e(cmd)chaide(title)量度成果称呼e(path#)露出指向聚类#的拆分的级别,每个分隔用分号远离e(split#)展示 chaid 号令所产生的第 # 次分类e(depvar)诠释变量/反馈变量称呼e(sample)标识量度样本matricesdetailse(importance)关键性成列矩阵e(sizes)每个聚类的样本大小e(branches)从每个聚类的根节点产生的树枝的数量functionsdetailse(sample)标识量度样本3. 速即丛林关联表面3.1 问题配景

使用单个学习器(如决策树等)时,连接会出现 过拟合 的问题。在实证参议中,好多学者通过 集成学习  (Ensemble Learning),即政策性地构建并勾搭多个学习器,将弱学习器转念成强学习器来完成学习任务。集成学习中最主要的两种纪律分别是进步法  (Boosting)  和套袋法 (Bagging)。

以 Adaboosting 为代表的进步法主要是通过对学习器多轮逐步优化来提高算法的精度。以速即丛林 (Random Forest , RF) 为代表的套袋法主要是采取自抽样聚会的纪律通过教师一系列平行的模子并从中选出最好的学习器来改善算法。两者的主要区别如下表:

BaggingBoosting样本弃取选拔 Boostrap 生成数据集选拔原稀有据集样本权重均匀取样,千般本权重疏浚据历史模子调理,权重不一定均等量度函数通盘量度函数权重相当裂缝更小的量度函数权重更大诡计限定不错并走运算不行以并走运算,在历史模子的基础上诡计裁汰方差 (Variance)偏误 (Bias)3.2 表面先容

速即丛林是 Leo Breiman 在 2001 年将其建议的 Bagging (1996) 表面和 Ho 建议的速即子空间表面相勾搭,建议的一种集成学习纪律。总的来说,速即丛林是以一系列由幽静同散布的速即变量  [k= 1,2, ..., n]决定的决策树为基本学习器,进行集成学习并选出最优有经营的学习纪律。速即变量 主要是由速即丛林的两大速即想想决定的:

1.Bagging 想想:使用 Boostrap 的样式速即生成一系列数据集。具体的作念法是从原始数据聚会有放回的抽取几许次, 生成一个与原数据集大小疏浚的数据集样本;重叠上述抽样 (n-1) 次,即可得到 n 个教师样本。由 (1) 式可知,在每次自抽样时,皆会有部分的数据一次也不会被抽中,这些数据被成为袋外 (Out-of-Bag, OOB) 数据。

2.特征子空间想想:在每个节点上从 K (频频是, m 为特征变量总额)个最优量度变量中速即收用某个变量看成分类变量,实质上是速即赋予各变量参与成果量度的权重。

速即丛林的关联纪律如下图所示:

图片一路向西西瓜影院

速即丛林的Stata完毕_Fig_速即丛林纪律透露图_马丁&刘梦真.png

Breiman 在 Random Forest (2001)  中在统计上考据了速即丛林的不断性、速即丛林的泛化裂缝有上界、不错通过袋外数据想到速即丛林的泛化裂缝等性质。 OOB 数据不错用来想到模子的泛化裂缝,对教师模子进行样本内想到。这使得咱们不再需要成心树立特地的考据集,进一步充分诈欺数据,提高了模子的准确度。

总的来说,速即丛林具有精度高、对噪声慎重等性质,是一种坚毅的集成学习纪律。

底下将主要先容 Stata 中相关速即丛林的两条号令 chaidforest 和 rforest 。

4. chaidforest4.1 语法结构

chaidforeat 号令是 Joseph N. Luchman  (2015) 编写的用来生成以一系列 chaid 决策树为基础学习器生成的速即丛林 Stata 号令,其语法结构如下:

chaidforest	 depvar	 [if]  [in]	 [weight] , 				///	ntree(integer) nvuse(integer) minnode(integer)			/// 	minsplit(integer) unordered(varlist) ordered(varlist)	/// 	noisily missing alpha(pvalue) dvordered 				///	xtile(varlist, xtile_opt) proos(proportion) nosamp
depvar:被诠释变量,即方针变量;ntree(): chaidforest 中助长的单个决策树的数量,默许值为 100;nvuse(): chaid 决策树在节点分裂时的候选变量的数量,默许值为诠释变量总额的平方根的取整(四舍五入);minnode():单个 chaid 决策树节点中允许的最小样本数;minsplit(): chaid 决策树络续分裂所条目的最少样本数;unordered():将相关变量视为无序的(随便变量皆不错合并);ordered():将相关变量视为有序  (monotonic)  的(唯独周边变量不错合并);noisily:向用户展示每个 chaid 决策树在分类变量的弃取历程;missing:允许方针变量和分类变量中的缺失值被视作除有序变量 (monotonic) 和口头变量 (ordinal) 外的另一种单独的 (floating) 变量;alpha():树立 alpha 值,看成弃取可供弃取的最优分类变量的标准;dvordered:将方针变量从无序变量改成有序变量;xtitle():处理分类变量,生成一组有序分类的分位数。将相关变量被视为有序的,并添加到名为 'xtvarname' 的数据聚会。不错在逗号后通过 nquantiles(#) 来弃取创建的分位数,默许选拔中位数进行拆分;proos():将默许的 boostrap 替换成不替换的采样,设定外样本 (Out-of-sample, OOS) 的比例,默许的 boostrap 中外样本的比列约为 ;nosample:跳过套袋 (bagging) 的纪律,选拔原始样本看成数据集.4.2 要点提醒为保证成果的可重叠性,使用 chaidforest 号令前需要树立种子值;chaidforest 中通盘的 chaid 决策树均为二叉树,莫得多类拆分;当分类变量的类别多于 20 个时,需要手动折叠该变量;在教师 chaidforest 中的 chaid 决策树时,选拔的是未经 Bonferroni 调理的 p 值,允许教育单个开阔的决策树;可通过折叠数据,使用权重来加速数据处理历程;chaidforest中chaid决策树的数量 [ntree()] ,拆分变量的数量 [nvuse()],允许拆分的最小大小[minsplit()] 和最末节点大小 [minnode()] 会影响 chaidforest 号令的履行时分。4.3 成果储存

号令履行成果均储存在 e() 中:

scalarsdetailse(ntree)速即丛林中 chaid 决策树的数量e(nvuse)每个 chaid 决策数中使用分类变量的个数e(N_tree)每个决策树中使用的样本数量e(minsplit)chaid 决策树络续分裂所条目的最少样本数e(minnode)chaid 决策树每个节点所条目的最少样本数e(cmdline)输入的号令e(cmd)chaidforeste(title)量度成果称呼e(predict)用于量度标准e(splitvars)分类变量列表e(depvar)诠释变量函数称呼e(sample)标识量度样本5. rforest

rforest 是 Rosie Yuyan Zou 和 Matthias Schonlau 编写不错完毕以分类树/总结树为基本学习器的速即丛林的 Stata 关联号令,可径直通过 ssc install rforest下载该号令。

5.1 语法结构

其语法结构如下:

rforest depvar indepvars [if] [in] , /// type(str) iterations(str) numvars(int) /// depth(int) lsize(int) variance(real) /// seed(int) numdecimalplaces(int)depvar:被诠释变量,即方针变量;indepvars:诠释变量;type():决策树类型, 'class' (classification,分类树) 或 'reg'(regression, 总结树);iterations():速即丛林中决策树的数量,默许值为 100;numvars():每次分裂时使用的自变量的个数,默许值为诠释变量数见地平方根取整;depth():速即丛林中决策树的深度,即根节点到叶节点的最长旅途的长度;lsize():每个叶节点上的最小样本树;variance():(仅适用于总结树) 树立每个节点能络续分裂的因变量的最小方差比例;默许值为 e^(-3) 。举例,因变量在通盘数据集上的方差为 a ,设定的方差比例为 b,则节点上因变量的方差唯独在大于 a*b 时才商酌进一步分裂;seed():树立种子值,便于成果履行的可重叠性;numdecimalplaces():树立诡计精度,默许五位极少.

在选拔速即丛林模子进行量度时,其代码结构如下:

  predict { newvar | newvarlist | stub* } [if] [in] , [ pr ]
pr 选项仅适用于分类问题。pr 选项不错复返分类问题中关联类别的概率值。predict 和 rforest 中的指定的速即丛林的类型必须疏浚。在量度时,需要指定量度成果的变量名。如果总结问题,需要指定一个新变量名;若只量度关联类别(不提供关联类别的概率),也只需要指定一个新变量名;若量度关联关联变量偏激概率,需要指定一系列变量名。5.2 要点提醒缺失值:若某样本的某自变量缺失,该自变量在教师中将被疏远;若教师聚会的因变量存在缺失值,则会提醒空幻信息并退出;分类树:对于分类问题,关联值必须詈骂负整数;袋外裂缝 (Out-of-bag error) :通过教师速即丛林决策树时产生的袋外数据诡计袋外裂缝。总结问题的代表统计量为 RMSE,分类问题则诡计分类裂缝诡计。频频,不错通过袋外裂缝和迭代次数的散点图稽查袋外裂缝不断性。若袋外裂缝不不断,则需要增多迭代次数。分类标准:在分类问题中选拔熵值 (entropy) 看成分类标准。5.3 Bug 证实

若屡次选拔rforest号令量度团结个方针变量,该量度无意会出现一些问题。

以下是号令作家 Rosie Yuyan Zou 和 Matthias Schonlau 提供的两种可能的料理有经营:

* 料理有经营1foreach i of numlist 1/5 { cap drop p //removing any existing prediction variables avoids the bug rforest $y $xvars , type(class) predict p}* 料理有经营2 foreach i of numlist 1/5 { rforest $y $xvars , type(class) predict p`i' //giving a different name each time avoids the bug also}5.4 成果储存

rforest号令的成果储存

rforest号令的成果储存在 e() 中:

scalarsdetailse(Observations)样本数量e(features)速即丛林中使用的特征数量e(Iterations)速即丛林中的迭代次数e(OOB_Error)袋外裂缝e(depvar)因变量称呼

量度成果储存

量度成果也储存在 e() 中:

scalarsdetailse(MAE)平均十足裂缝(仅适用于总结问题)e(RMSE)均方根裂缝(仅适用于总结问题)e(correct_class)正确分类的样本数(仅使用于分类问题)e(incorrect_class)空幻分类的样本数(仅适用于分类问题)e(error_rate)空幻率(仅适用于分类问题)e(fMeasure)由每个类别的F统计量构成的矩阵(仅适用于分类问题)6. Stata 操作6.1 chaid 示例

例一:速即丛林的基础操作

本例选拔 Stata 自带的 1978 年汽车数据集,分析变量 foreign  (即分析汽车种类为国产车或入口车)的决定因素。将变量 rep78 , length  视作无序变量,并将length 用三分位数均分,设定最末节点数为 4 ,最小分裂数为 10 。

号令代码:

. clear all. set seed 1234567. sysuse auto(1978 Automobile Data)  . chaid foreign, unordered(rep78) minnode(4) minsplit(10) xtile(length, n(3))
最终成果(以图片和表格花样展现)

图片

速即丛林的Stata完毕_Fig_chaid成果展示1_马丁&刘梦真.png

Chi-Square Automated Interaction Detection (CHAID) Tree Branching Results

12341xtlength@1xtweight_2xtlength_2xtweight_32rep78@1 4 5rep78@2 33Cluster #1Cluster #2Cluster #4Cluster #3

例二:使用例一中的数据进行成列测试 此纪律使用蒙特卡洛模拟进行数据集的教师以及测试,更安妥小样本的 chaid 聚类分析。

号令代码:

. clear all. set seed 1234567. sysuse auto (1978 Automobile Data). chaid foreign, unordered(rep78) minnode(4) minsplit(10) xtile(length, n(3)) permute最终成果(以图片和表格花样展现)

图片

速即丛林的Stata完毕_Fig_chaid成果展示2_马丁&刘梦真.png

Chi-Square Automated Interaction Detection (CHAID) Tree Branching Results

1231xtlength@1xtweight_2xtweight_32Cluster #1Cluster #2Cluster #3

例三:具有有序反馈变量和成列关键性的大边界 CHAID 分析

号令代码:

  .  webuse nhanes2f, clear  .  chaid health, dvordered unordered(region race) ordered(houssiz sizplace diabetes sex smsa heartatk) importance
最终成果(由于表格数量过多,因此仅展示图片)

图片

速即丛林的Stata完毕_Fig_chaid成果展示3_马丁&刘梦真.png例四:使用 fweight 的具有有序反馈变量的大边界 CHAID 分析号令代码: . webuse nhanes2f, clear . generate byte fwgt = 1 . collapse (sum) fwgt, by(health region race houssiz sizplace diabetes sex smsa heartatk) . chaid health [fweight = fwgt], dvordered unordered(region race) ordered(houssiz sizplace diabetes sex smsa heartatk)最终成果(由于表格数量过多,因此仅展示图片)

图片

速即丛林的Stata完毕_Fig_chaid成果展示4_马丁&刘梦真.png

例五:具有复杂的探询联想的穷举 CHAID 分析

号令代码:

   .  webuse nhanes2f, clear    .  svyset psuid [pweight=finalwgt], strata(stratid)   .  chaid health, dvordered unordered(region race) ordered(houssiz sizplace diabetes sex smsa heartatk) svy exhaust
最终成果(以图片和表格花样展现) pweight: finalwgt VCE: linearized Single unit: missing Strata 1: stratid SU 1: psuid FPC 1: <zero>

Chi-Square Automated Interaction Detection (CHAID) Tree Branching Results

121heartatk@0heartatk@12Cluster #1Cluster #2

图片

速即丛林的Stata完毕_Fig_chaid成果展示5_马丁&刘梦真.png6.2 chaidforest 示例

例一:使用 minsplit() 号令和 minnode() 号令的 chaidforest 分析

本例选拔 Stata 自带的 1978 年汽车数据集,分析变量 foreign  (即分析汽车种类为国产车或入口车)的决定因素。将变量 rep78、length 和 weight 视作无序变量,并将 length 用三分位数均分,设定最末节点数为 2,最小分裂数为 5,设定权贵性水平 ()为 0.8 。

[此处使用了 noisily  选项,鉴于丛林生成历程的冗杂,故将其舍去,仅展示代码最终成果。]

号令代码:

. clear all. set seed 123. sysuse auto(1978 Automobile Data). chaidforest foreign, unordered(rep78) minnode(2) minsplit(5) noisily xtile(length weight, nquantiles(3)) alpha(0.8)

最终成果(以表格花样展现)

CHAID Finished Execution

123451Splitsxtweight_1 , xtweight_2  xtweight_3,xtlength_1 , xtlength_2,xtweight_2 , xtweight_3,xtlength_2 , xtlength_3 ,2path1xtweight_1xtlength_13path2xtweight_2  xtweight_3xtweight_2xtlength_24path3xtweight_1xtlength_25path4xtweight_2  xtweight_3xtweight_36path5xtweight_2  xtweight_3xtweight_2xtlength_3

例二:指定外样本比例的速即丛林

本例指定外样本比例为 0.25,其余参数树立同例一。

代码展示

. clear all . set seed 123 . sysuse auto (1978 Automobile Data) . chaidforest foreign, unordered(rep78) minnode(2) minsplit(5) noisily xtile(length weight, nquantiles(3)) proos(0.25)

最终成果

CHAID Finished Execution

12345671Splitsrep78_4 rep78_5, rep78_1    rep78_2 rep78_3,xtlength_1 xtlength_2, xtlength_3,rep78_4, rep78_5,rep78_1 rep78_2, rep78_3,xtlength_1, xtlength_2,xtlength_1, xtlength_2 xtlength_3,2path1rep78_4 rep78_5xtlength_1 xtlength_2rep78_43path2rep78_1 rep78_2 rep78_3rep78_1 rep78_24path3rep78_4 rep78_5xtlength_35path4rep78_4 rep78_5xtlength_1 xtlength_2rep78_5xtlength_16path5rep78_1 rep78_2 rep78_3rep78_3xtlength_17path6rep78_4 rep78_5xtlength_1 xtlength_2rep78_5xtlength_28path7rep78_1 rep78_2 rep78_3rep78_3xtlength_2    xtlength_3

例三:选拔全样本(即跳过套袋操作)的速即丛林

代码展示

 . webuse sysdsn1, clear . chaidforest insure, ordered(male nonwhite) unordered(site) noisily xtile(age, nquantiles(2)) nosamp

最终成果

CHAID Finished Execution

1234561Splitssite_1 site_3 , site_2 ,nonwhite_0 , nonwhite_1,site_1 , site_3 ,nonwhite_0 , nonwhite_1 ,site_1 , site_3 ,2path1site_1 site_3nonwhite_0site_13path2site_2nonwhite_04path3site_1 site_3nonwhite_1site_15path4site_1 site_3nonwhite_0site_36path5site_2nonwhite_17path6site_1 site_3nonwhite_1site_3

例四:包含缺失值处理的速即丛林

代码展示

. webuse sysdsn1, clear . chaidforest insure, ordered(male nonwhite) unordered(site) noisily xtile(age, nquantiles(2)) missing

最终成果

CHAID Finished Execution

1234561Splitssite_1 site_3 , site_2 ,site_1 , site_3 ,xtage_1 , xtage_2 ,xtage_1 , xtage_2 ,xtage_1 , xtage_2 ,2path1site_1 site_3site_1xtage_13path2site_2xtage_14path3site_1 site_3site_3xtage_15path4site_1 site_3site_1xtage_26path5site_2xtage_27path6site_1 site_3site_3xtage_26.3  rforest 示例例一:以总结树为基础的速即丛林
  . sysuse auto,clear  (1978 Automobile Data)    . set seed 1    . gen u = uniform()    . sort u    . rforest price weight length, type(reg) iter(500)    . ereturn list    scalars:         e(Observations) =  74             e(features) =  2           e(Iterations) =  500            e(OOB_Error) =  1493.44966573811    macros:                  e(cmd) : 'rforest'              e(predict) : 'randomforest_predict'               e(depvar) : 'price'           e(model_type) : 'random forest regression'    matrices:           e(importance) :  2 x 1    . predict p1    . list p1 in 1/5         +-----------+       |        p1 |       |-----------|    1. | 4307.9085 |    2. | 4112.3419 |    3. | 7912.8044 |    4. |   4139.16 |    5. | 4605.0144 |       +-----------+    . ereturn list    scalars:         e(Observations) =  74             e(features) =  2           e(Iterations) =  500            e(OOB_Error) =  1493.44966573811                  e(MAE) =  655.5163188347408                 e(RMSE) =  887.4723791281133    macros:                  e(cmd) : 'rforest'              e(predict) : 'randomforest_predict'               e(depvar) : 'price'           e(model_type) : 'random forest regression'    matrices:           e(importance) :  2 x 1  
例二:以决策树为基础的速即丛林 . sysuse auto, clear (1978 Automobile Data) . set seed 1 . gen u = uniform() . sort u . rforest foreign weight length, type(class) iter(500) . ereturn list scalars: e(Observations) = 74 e(features) = 2 e(Iterations) = 500 e(OOB_Error) = .2162162162162162 macros: e(cmd) : 'rforest' e(predict) : 'randomforest_predict' e(depvar) : 'foreign' e(model_type) : 'random forest classification' matrices: e(importance) : 2 x 1 . predict p1 . predict c1 c2, pr . list p1 foreign c1 c2 in 1/5 +---------------------------------------------+ | p1 foreign c1 c2 | |---------------------------------------------| 1. | Foreign Foreign .25 .75 | 2. | Foreign Foreign .32333333 .67666667 | 3. | Foreign Foreign .308 .692 | 4. | Domestic Domestic .50845238 .49154762 | 5. | Domestic Domestic 1 0 | +---------------------------------------------+ . ereturn list scalars: e(Observations) = 74 e(features) = 2 e(Iterations) = 500 e(OOB_Error) = .2162162162162162 e(correct_class) = 73 e(incorrect_class) = 1 e(error_rate) = .0135135135135135 macros: e(cmd) : 'rforest' e(predict) : 'randomforest_predict' e(depvar) : 'foreign' e(model_type) : 'random forest classification' matrices: e(fMeasure) : 1 x 2 e(importance) : 2 x 1 7. 参考文件和贵府Breiman, L. (2001). Random forests. Machine learning. -PDF-Biggs, D., de Ville, B., and Suen, E. (1991). A method of choosing multiway partitions for classification and decision trees. Journal of Applied Statistics. -PDF-Goodman, L. A. (1979). Simple models for the analysis of association in cross-classifications having ordered categories. Journal of the AmericanStatistical Association. -PDF-Kass, G. V. (1980). An exploratory technique for investigating large quantities of categorical data. Applied Statistics, 29, 2, 119-127. -PDF-Biggs, D., de Ville, B., and Suen, E. (1991). A method of choosing multiway partitions for classification and decision trees. Journal of Applied Statistics, 18, 49-62. -PDF-黄奇.基于 CHAID 决策树的个东说念主收入分析.数学表面与应用,2009 年 04 期. -PDF-何凡、沈毅、叶众.卡方自动交互检测法偏激应用.中华防太医学杂志,2005 年 3 月,第 39 卷第 2 期. -PDF-方匡南等.速即丛林纪律参议综述.统计与信息论坛,2011 年 3 月,第 26 卷第三期. -PDF-董师师、黄玄学.速即丛林表面浅析.集成时刻,2013 年 1月,第 2 卷第 1 期. -PDF-8. 关联推文

Note:产生如下推文列表的 Stata 号令为:  lianxh 速即丛林 机器学习装配最新版 lianxh 号令:  ssc install lianxh, replace

专题:专题课程⏩ 直播课:文天职析-爬虫-机器学习专题:论文写稿Semantic scholar:一款基于机器学习的学术搜索引擎专题:Stata教程Stata-Python交互-7:在Stata中完毕机器学习-接济向量机专题:Stata标准Stata:速即丛林算法简介与完毕专题:机器学习Stata:机器学习分类器大全

课程推选:深度因果推断(2023年8月2-5日)主讲老诚:江艇课程场地:西安·西北工业大学🍓 课程主页:https://www.lianxh.cn/news/835167275c3af.html

New! Stata 搜索神器:lianxh 和 songbl  GIF 动图先容搜: 推文、数据共享、期刊论文、重当代码 ……👉 装配:  . ssc install lianxh  . ssc install songbl👉  使用:  . lianxh DID 倍分法  . songbl all

图片

本站仅提供存储管事,通盘内容均由用户发布,如发现存害或侵权内容,请点击举报。

热点资讯
相关资讯


Powered by 汉服足交 @2013-2022 RSS地图 HTML地图

Copyright Powered by365建站 © 2013-2024