库克距离-统计

库克距离(Cook's distance),又称“Cook 距离”,指一种用于衡量数据集中的个别数据点对回归模型拟合结果影响程度的统计量,该值越大,表示该数据点对回归模型的拟合结果产生的影响越大。

内部验证-统计

内部验证(internal validation),指利用训练数据本身评估模型性能的方法。通过重采样技术如交叉验证、自助法,在训练集内部分割出验证集。提供模型泛化能力的初步估计,用于模型选择与参数调优。计算成本较高,但充分利用有限数据,评估结果相对稳定。 ...

广义线性模型-统计

广义线性模型(generalized linear regression),指一般线性模型的扩展,通过分布函数选择因变量为非正态分布;通过连接函数建立因变量的数学期望值与自变量之间的回归关系。当因变量的分布为正态分布,连接函数为恒等(Identity link)时,可简化为一般线性模型。 ...

最大似然估计-统计

最大似然估计(maximum likelihood estimation,MLE),又用“极大似然估计”,指一种参数估计方法,通过极大化似然函数寻找最可能产生观测数据的参数值。利用样本信息,使观测数据出现的概率最大。具有一致性、渐近正态性等优良性质。广泛应用于统计学、机器学习等领域,为模型参数估计提供理论基础。 ...

质量调整寿命年-统计

质量调整寿命年(quality adjusted life years,QALY),指又称“质量调整生命年”。将生存时间按生存质量高低分段,生存质量高的权重大,权重值取0~1,得到的一种健康状况和寿命质量的正向综合测量指标,1单位取值反映 1 个健康生存年。 ...

终点事件-统计

终点事件(terminal event),又称“失效事件(failure event)”,指在研究中,某个感兴趣的研究事件的结局,例如某种疾病的发生,某种处理(治疗)的反应,疾病的复发或死亡等。

高杠杆点-统计

高杠杆点(high leveragepoints),指回归分析中自变量(X)取值极端、远离数据中心的观测点,其杠杆值显著高于平均水平。这类点可能对回归系数的估计产生较大影响,但若因变量(Y)合模型预测趋势,则未必导致模型偏差。高杠杆点需结合残差分析判断其实际影响,常用杠杆值阈值进行识别。 ...

极差-统计

极差(range),又称“全距”,指所有观测值中最大值与最小值的差值。其越大说明数据变异程度越大,或数据越离散。符号 R。

信息准则-统计

信息准则(information criterion),指用于评估统计模型优劣的标准,平衡模型复杂度与拟合精度。通过量化模型对数据的解释能力与参数数量,帮助选择最优模型,避免过拟合或欠拟合。常见形式包括赤池信息量准则、贝叶斯信息量准则等。 ...

训练集-统计

训练集(training set),指用于构建和调整统计模型的数据子集。通过输入特征与对应标签,使模型和算法学习数据内在规律,优化模型参数。通常占总数据 60-80%,与验证集、测试集共同构成完整数据集。质量直接影响模型性能,需保证代表性、无偏性。 ...

测试集-统计

测试集(testing set),指用于最终评估统计模型和机器学习模型性能的独立数据子集。通过模拟真实应用场景,测试模型在完全未见数据上的泛化能力。通常占总数据 10-20%,仅在模型训练和调优完成后使用。提供模型性能的客观评价,反映实际应用效果。 ...

逻辑斯谛回归-统计

逻辑斯谛回归(logistic regression),指一种用于二分类或多分类问题的广义线性模型。通过对数单位函数(logit 函数)将线性预测结果映射为概率值,描述解释变量与类别概率之间的非线性关系。采用极大似然估计等方法求解参数,输出结果具有概率解释。广泛应用于疾病诊断等分类预测领域。 ...

比值比-统计

比值比(odds ratio),又称“优势比”,指病例组暴露人数与非暴露人数的比值除以对照组暴露人数与非暴露人数的比值,是反映疾病与暴露之间关联强度的指标。

概率单位变换-统计

概率单位变换(probit transformation),指采用标准正态分布的累积概率函数的反函数对概率做单位变换

考克斯比例风险回归-统计

考克斯比例风险回归(Cox's proportional hazards regression model),又称“Cox 比例风险回归”、“Cox 回归模型”。指以生存结局和生存时间为因变量,可同时分析多个因素对生存期和生存结局的影响,可分析截尾数据,不要求数据服从特定的生存分布。 ...

去死因寿命表-统计

去死因寿命表(cause-eliminated life table),指通过假设特定死亡原因被消除,重新计算群体生存概率和预期寿命的统计工具。用于评估特定疾病或风险因素对整体寿命的影响,帮助理解如果消除某一死因,群体寿命将如何改变。

伤残调整寿命年-统计

伤残调整寿命年(disability-adjusted life year,DALY),指又称“伤残调整生命年”。从发病到死亡所损失的全部健康寿命年,包括因早死所致的寿命损失人年总和,以及疾病所致伤残引起的健康寿命损失人年总和。

聚类数-统计

聚类数(number of clusters),指在多均值聚类中,将数据集分为不同类的预定数量,预定的数量通常由分析人员事先决定。

空间自相关-统计

空间自相关(spatial autocorrelation),指描述地理空间中邻近位置观测值之间相似性或依赖性的统计特性,常用 Moran's I 等指标度量,反映空间数据的聚集或分散模式,广泛应用于地理学、生态学等领域。

BP 检验-统计

BP 检验(Breusch–Pagan test),指通过对模型残差的平方与自变量进行回归来检验线性回归模型中异方差是否存在的方法,相比怀特检验在残差平方回归模型中不包括原解释变量的平方值和交互项。
12345678910... 46下一页