爱游戏- 爱游戏体育- AYX爱游戏体育官方网站贝叶斯统计是一种基于贝叶斯定理的数据分析方法,它将统计模型中参数的现有知识与观察到的数据中的信息结合起来更新。背景知识以先验分布的形式表达,并与观测数据结合在一起,以似然函数的形式确定后验分布。后验分布也可用于对未来事件进行预测。本入门书籍描述了贝叶斯分析所涉及的阶段,从指定先验和数据模型到推导推断、模型检查和细化。我们讨论了先验和后验预测检查的重要性,选择适当的技术从后验分布中抽样,变分推断和变量选择。文中提供了贝叶斯分析在社会科学、生态学、遗传学、医学等多个研究领域成功应用的示例。我们提出了可复制性和报告标准的策略,概述了更新版的WAMBS(何时担忧以及如何避免滥用贝叶斯统计)清单。最后,我们概述了贝叶斯分析对人工智能的影响,这是未来十年的主要目标。
贝叶斯统计是一种基于贝叶斯定理的数据分析和参数估计方法。贝叶斯统计的独特之处在于,统计模型中所有观测和未观测的参数都被赋予了一个联合概率分布,称为先验分布和数据分布。典型的贝叶斯工作流程包括三个主要步骤(图1):通过先验分布捕获有关给定参数的可用知识,这通常在数据收集之前确定;利用观测数据中关于参数的信息确定似然函数;并使用贝叶斯定理将先验分布和似然函数结合起来,形成后验分布。后验分布反映了更新后的知识,平衡了先验知识和观测数据,并用于进行推断。当在这个联合概率分布上平均时,贝叶斯推断是最优的,并且这些量的推断基于给定观测数据的条件分布。
本入门书籍提供了贝叶斯统计当前和未来用途的概述,适用于在广泛的科学相关领域工作的定量研究人员,他们至少对回归建模有所了解。我们提供了可以用于进一步研究的文献概述,并展示了如何在真实数据上实现贝叶斯模型。所有的数据和代码都可用于教学目的。本入门书籍讨论了贝叶斯统计的一般框架,并介绍了贝叶斯研究周期(图1)。我们首先讨论了先验分布的形式化、先验预测检查和确定似然分布(实验)。我们讨论了相关的算法和模型拟合,描述了变量选择和变分推断的例子,并提供了一个具有后验预测检查的示例计算(结果)。然后,我们描述了贝叶斯统计在不同科学领域中的应用(应用),随后是数据共享、可复制性和报告标准的指南(可复制性和数据存储)。我们以讨论使用不正确模型引入的偏差(局限性和优化)结束,并展望了贝叶斯人工智能的未来(展望)。
为了说明贝叶斯统计的许多方面,我们提供了一个基于真实数据的示例。考虑一个实证研究,预测博士延期11,研究者询问了333名荷兰博士毕业生完成博士论文需要多长时间。基于这些信息,研究者计算了延期时间——定义为计划项目时间和实际项目时间之差(以月为单位,平均值=9.97,最小值/最大值=-31/91,标准差=14.43)。假设我们有兴趣使用多项式回归模型来预测博士延期(y):其中表示年龄(以年为单位)的线性效应。我们期望这种关系是二次的,由表示。模型包含一个截距,我们假设残差ε呈正态分布,均值为零,方差未知,记为。请注意,我们已经简化了统计模型,因此结果仅用于教学目的。不同软件12的代码运行说明可用,包括数据探索步骤13。我们将在以下各节中引用这个示例来说明关键概念。
先验分布在贝叶斯统计中扮演着决定性的角色。先验可以采用许多不同的分布形式,如正态分布、均匀分布或泊松分布等。先验可以具有不同程度的信息量;先验分布所反映的信息可以在从完全不确定到相对确定的连续体上的任何位置。尽管先验可以沿着这个连续体的任何位置,但文献中通常使用三种主要的先验分类来对围绕总体参数值的不确定性程度进行分类:信息性、弱信息性和分散性。这些分类可以根据研究者的个人判断来做出。例如,正态分布由均值和方差定义,分布的方差(或宽度)与信息量水平相关。在一种研究环境中,1000的方差可能被认为是分散的,在另一种环境中可能是信息性的,这取决于似然函数以及参数的缩放。
先验引出。先验引出是构建合适先验分布的过程。先验引出的策略包括询问专家或专家小组提供先验分布的超参数值14-17。MATCH18是一个通用的专家引出工具,但许多用于从专家那里引出信息的方法需要定制的引出程序和工具。有关为特定模型设计的引出程序的示例,请参见参考文献19-23。对于大量的引出示例和方法,我们建议读者参考TU Delft专家判断数据库,其中包含超过67,000个引出判断24(另见14,25,26)。此外,先前出版物的结果或元分析的结果也可以使用27,28,或任何组合29或这些策略的变化。
先验(不确定性)。信息性先验是反映对被估计模型参数高度确定性的先验。例如,信息性正态先验预期具有非常小的方差。当现有信息表明对特定参数的可能范围或参数之间的关系有限制时,研究者可能希望使用信息性先验,例如,对各种医疗条件的敏感性之间存在正但不是完美的关系37,38。在某些情况下,信息性先验可能会产生不反映总体模型参数的后验。在需要信息性先验的情况下,但也很重要通过下面讨论的敏感性分析来评估这些先验对后验的影响。对我们实证示例的一个信息性先验的任意示例是βage ~ N(2.5, 5),其中先验均值为年龄与博士延期的线。为博士示例专门开发了一个ShinyApp,包含一个可视化工具,展示回归模型中所有参数的不同先验如何相互作用39。
当对参数假定了一些信息,但仍希望保持一定程度的不确定性时,研究者可能希望使用弱信息性先验。在图2中,回归系数的两个弱信息性正态先验示例可以使95%的先验密度质量落在-10到10或0到10之间的值内。弱信息性先验比分散先验提供更多信息,但它们通常不代表像信息性先验那样的特定信息40,41。在构建弱信息性先验时,通常指定一个合理的参数空间,它捕获了一系列合理的参数值——选择参数的合理值范围(有关示例,请参见我们为博士示例开发的ShinyApp39)——并通过在它们上面放置有限的密度质量使不可能的值不太可能。例如,如果回归系数已知接近0,则可以指定弱信息性先验以将合理范围减少到例如±5。这个先验将减少观察到界外值的概率(例如,回归系数为100),而不会过于信息性。
最后,分散性先验反映了对模型参数的极大不确定性。这种先验形式代表了一个相对平坦的密度,并且不包含关于参数的特定知识(图2)。当围绕参数完全缺乏确定性时,研究者可能希望使用分散性先验。在这种情况下,数据将在很大程度上决定后验。有时,研究者会使用非信息性先验作为分散的同义词42。我们避免使用这个术语,因为我们认为即使是完全平坦的先验,如杰弗里斯先验43,仍然提供了关于不确定性程度的信息44。因此,没有先验是真正的非信息性的。
分散性先验可以用来表达对参数的完全不确定性,但它们也可能对后验产生意想不到的后果45。例如,当样本量较小时,分散性先验可能通过后验对参数估计产生不利影响,特别是在涉及元分析模型46、逻辑回归模型44或混合模型47的复杂建模情况下。此外,有时会使用不适当先验,意图将它们用作分散先验。尽管不适当先验很常见,并且可以在各种贝叶斯程序中相对容易地实现,但重要的是要注意,不适当先验可能导致不适当后验。我们在这里提到这个警告,因为获得不适当后验可能会影响结果可以实质性解释的程度。总的来说,我们注意到分散性先验可以作为在使用更具信息性先验进行相同或后续数据分析之前的占位符。
先验的影响。总的来说,没有正确或错误的先验设定。很多时候,分散的先验可以产生与似然一致的结果,而有时使用相对平坦的先验可能会得到不准确或有偏见的结果47。同样,如果信息性先验与似然的重叠不好,可能会使后验偏离似然,表明推断将更多地与先验而不是似然一致。无论先验的信息量如何,始终进行先验敏感性分析以充分理解先验设定对后验估计的影响48,49是非常重要的。当样本量较小时,通常使用温和信息性先验的贝叶斯估计9,50,51,但先验规范可能对后验结果有巨大影响。
由于基于贝叶斯分析的推断受到先验的“正确性”的影响,因此仔细检查指定的模型是否可以被认为是生成实际数据的模型是非常重要的54,55。这部分是通过一个称为先验预测检查的过程来完成的。先验基于背景知识,如果先验引出过程有效,即如果背景知识正确地表达在概率陈述中,那么先验就不会有本质上的错误。然而,即使在有效的先验引出过程的情况下,理解先验的确切概率规范也是极其重要的。这对于具有较小样本量的复杂模型尤其如此9。因为较小的样本量通常传达的信息较少,相比之下,先验将在后验中表现出强烈的影响。
Box56建议从指定的先验中推导出一个先验预测分布。先验预测分布是如果模型是真实的,可能发生的所有样本的分布。从理论上讲,一个“正确”的先验提供了一个与真实数据生成分布相似的先验预测分布54。先验预测检查将观察到的数据或观察数据的统计量与先验预测分布或预测分布的统计量进行比较,并检查它们的兼容性55。例如,从先验分布中抽取值。使用核密度估计,这是一种用于近似概率密度函数的非参数平滑方法57,原始样本和来自预测分布的样本可以进行比较58。或者,兼容性可以由一个先验预测p值来概括,描述观察数据的特征在参考先验预测分布的尾部有多远离59。
Young和Pettit63认为,基于先验预测分布尾部区域的度量,如Box和Evans和Moshonov的方法,在两个先验都被正确指定时,并不偏爱更精确的先验。相反,他们建议使用贝叶斯因子64来比较两个先验(Box 2)。贝叶斯因子将偏爱更精确的先验。这三种方法使确定先验-数据冲突的主观性,取决于任意的截止值。数据一致性标准65尝试通过引入一个清晰的分类来解决先验-数据冲突确定问题,消除了这一决策的主观元素66。这是以选择一个任意的基于发散的标准为代价的。
似然函数在贝叶斯和频率主义推断中都有使用69。在这两种推断范式中,它的作用是量化观察到的数据对未知参数可能值的支持力度5,000。贝叶斯和频率主义推断之间的关键区别在于,频率主义者不认为关于未知参数的概率陈述是有用的。相反,未知参数被认为是固定的;似然是数据(y)给定固定参数(θ)的条件概率分布p(yθ)。在贝叶斯推断中,未知参数被称为随机变量,以便对它们进行概率陈述。将(观察到的)数据视为固定的,而参数值则变化;似然是θ对固定数据y的函数。因此,似然函数概括了以下元素:一个随机生成所有数据的统计模型,θ的可能值范围和观察到的数据y。
因为似然性的概念不是贝叶斯方法所特有的,所以我们在这里不提供更详细的统计概念介绍。相反,我们将感兴趣的读者引向最近的一篇教程70,该教程描述了常见的频率主义者和贝叶斯统计方法中的可能性。有关该主题的完整数学解释,请参见参考文献71 .围绕贝叶斯推断的大部分讨论集中在先验的选择上,并且有大量关于潜在违约先验的文献72,73。将可用知识纳入先验知识是频率主义者和贝叶斯方法之间最明显的区别,也是争议的来源。尽管数据的特定模型(由似然函数表示)是分析的基础,但在讨论中往往忽略了似然性的重要性74。后验分布是交互作用中先验分布的结果在观测数据72的背景下使用数据的假设概率模型。如果没有配对可能性的背景,先验往往无法解释。
在某些情况下,指定一个似然函数可能非常简单(Box 3)。然而,在实践中,潜在的数据生成模型并不总是已知的。研究者经常出于习惯或因为他们不能轻易地在软件中更改它,而轻率地选择某个数据生成模型。尽管基于背景知识,统计数据生成模型的选择是主观的,因此应该被很好地理解、清晰记录并可供读者查阅。应该对选定的似然函数执行稳健性检查,以验证其对后验估计的影响73。尽管大多数关于贝叶斯稳健性的研究集中在后验结果对先验规范的敏感性上,但也有一些贡献集中在后验结果对似然函数规范的敏感性上75-77。
一旦定义了统计模型并获得了相关的似然函数,下一步就是将模型拟合到观察数据中,以估计模型的未知参数。尽管统计模型是对现实的简化,但它们旨在捕捉我们希望提高理解的底层系统的主要因素,以及导致我们观察到的数据的因素。模型在其复杂性上可能有很大的差异,考虑到许多可能影响底层系统的不同因素或机制,以及导致我们观察到的数据的随机性和变异性的来源。将模型拟合到观察数据中允许估计模型参数或这些参数的函数,从而提高对系统及其相关底层因素的理解。
频率主义框架下的模型拟合侧重于实验的预期长期结果,目的是为模型参数(如最大似然估计和相关的置信区间)生成单一的点估计。在贝叶斯框架下的模型拟合中,为模型参数分配概率,描述相关的不确定性。在贝叶斯统计中,重点是估计模型参数的整个后验分布。这个后验分布通常用相关的点估计来总结,如后验均值或中位数,以及可信区间。直接对后验分布进行推断通常是不可能的,因为描述后验分布的数学方程通常非常复杂且高维,其维度数等于参数的数量。后验分布的表达式通常只知道到比例常数,即在后验分布中不是参数的函数,通常不能明确计算的常数项。特别是,后验分布表达式的分母仅是数据的函数,这个函数不仅没有封闭形式,而且只能表示为解析上不可解的积分。这意味着我们不能准确评估后验分布,因此不能直接计算,例如,相关的摘要统计量。
此外,高维性加剧了这些问题,以至于计算边际后验分布也可能不可行,也只能以积分形式表达。我们注意到,后验分布的这种不可处理性是许多科学家放弃贝叶斯统计,转而支持频率主义统计的主要原因。Gelfand和Smith79的开创性文章描述了马尔可夫链蒙特卡洛(MCMC),一种从概率分布中抽样的技术,如何被用来在贝叶斯范式内将模型拟合到数据80。特别是,MCMC算法只要求感兴趣的概率分布被指定到比例常数,并且可以扩展到高维。
一般而言,蒙特卡洛积分是一种使用给定分布的采样值进行计算机模拟来估计积分的技术。给定这些采样的参数值,蒙特卡洛积分允许使用相关的经验估计来估计这个分布83。例如,对于分布摘要统计量,如参数的均值、方差或对称的95%可信区间,我们使用相应的样本均值、样本方差以及第2.5%和第97.5%分位数参数值来估计这些摘要统计量。同样,概率陈述——如参数为正或负的概率,或它位于区间[a,b]内的概率——可以作为满足给定陈述的采样值的比例来估计。任何给定参数的边际后验分布可以通过核密度估计获得,核密度估计使用非参数方法从已抽取采样值的相关密度进行估计58。
如果马尔可夫链运行足够长以到达其平稳分布,链的后续实现可以被视为来自后验分布的依赖样本,并且可以用来获得相应的蒙特卡洛估计(见图4a)。我们强调,从马尔可夫链获得的采样参数值是自相关的——它们依赖于链中它们之前的值——并且由一阶马尔可夫链生成。马尔可夫链由初始参数值和转移核的定义。Gibbs采样器84、Metropolis-Hastings算法85,86和哈密顿蒙特卡洛87是定义转移核的标准方法,以便相应的平稳分布是正确的后验分布。
MCMC技术方面。由于模型复杂性或数据收集过程,通过拟合模型到观测数据来获得后验推断可能变得复杂。例如,在随机效应模型中或存在潜变量的情况下,似然函数可能无法以封闭形式提供,而只能表示为随机效应项或潜变量的解析上不可解的积分。或者,似然函数可能以封闭形式提供,但可能是多峰的——例如,对于有限混合模型或离散潜变量模型。这反过来又可能导致算法的性能不佳,因为算法没有探索一个(或多个)模式。在这种情况下,通常使用数据增强88,我们定义额外的变量,或辅助变量,使得数据和辅助变量的联合分布——通常称为“完整数据”似然——现在可以以封闭形式提供并且快速评估。例如,在随机效应模型中,辅助变量对应于之前已经积分掉的个体随机效应项;对于有限混合模型,辅助变量对应于每个观测值所属的混合组分。然后可以构建一个包含模型参数和辅助变量的新的联合后验分布;这个后验分布被定义为与完整数据似然和参数上指定的先验分布成比例。
转移核确定MCMC算法,描述了在马尔可夫链的每次迭代中参数值和任何其他附加辅助变量是如何更新的。为了使马尔可夫链的平稳分布成为感兴趣的后验分布,转移核被指定为满足一些简单规则。转移核通常使用一些预定义的建议分布来定义:一组新的参数值从这个建议分布中提出,然后这些值随后根据给定的接受概率被接受或拒绝,这是建议分布的函数。如果提议的值被接受,马尔可夫链就会移动到这个新状态;而如果值被拒绝,马尔可夫链在下一次迭代中保持在同一状态。我们注意到,转移核不是唯一的,因为有许多可能的选择可以导致正确的平稳分布的建议分布。常见的建议分布包括:后验条件分布,导致Gibbs采样器在更新步骤中接受概率等于一;Metropolis-Hastings随机游走采样器,它从当前值随机扰动参数值;切片采样器;和无U形转弯采样器等。我们在这里不进一步关注MCMC算法的内部机制,因为关于这个主题有大量的文献,并且还有相关的计算工具和程序,用于执行使用MCMC方法的贝叶斯分析。有关进一步讨论,参见例如参考文献74,89,90。
性能评估。转移核的选择通过决定马尔可夫链需要运行多长时间才能获得关于后验分布的可靠推断,从而定义了MCMC算法的性能。轨迹图可以在多次迭代中显示参数值。一维轨迹图最常用;它们将马尔可夫链的每次迭代的参数值在y轴上描述,并将迭代次数在x轴上描述,通常是有用的探索性工具(见图4a)。特别是,轨迹图提供了链的可视化,就每个参数如何探索参数空间而言——称为混合。如果混合不佳,即链需要很长时间来探索后验参数空间,可能需要改变指定的转移核。例如,混合不佳可能是由于连续迭代之间的参数值变化很小,或者提议的参数值的拒绝率很高,以至于参数值在MCMC算法的许多连续迭代中保持不变。这些图表也非正式地用于确定马尔可夫链何时到达其平稳分布。在收敛到平稳分布之前,链的实现被丢弃;这个过程通常被称为预热,尽管我们更喜欢使用热身这个术语,并在本入门书籍中这样称呼这个过程91。
评估马尔可夫链收敛到平稳分布的最常用技术是R统计量,它定义为链内变异性与链间变异性的比率92,93。为了应用这种方法,需要运行多个独立的MCMC算法运行(见图4b)。理想情况下,每个马尔可夫链应该从不同的起始值开始,并使用不同的随机数种子,以便在马尔可夫链中提供更大的初始变异性,并更有可能识别出链对平稳分布的非收敛性。例如,如果正在探索后验分布的不同子模式,就可能发生这种非收敛性。所有参数和感兴趣数量的值接近一表明链已充分收敛到平稳分布,因此未来的实现可以被视为来自后验分布的样本(见图4b)。当达到平稳分布时,可以确定获得可靠、低误差蒙特卡洛估计所需的迭代次数。为了评估所需的迭代次数,通常会对采样值进行分批处理,这涉及将采样值划分为连续迭代的不重叠批次,并考虑每个批次中使用采样值估计的统计量的变异性94。
采样参数值的有效样本量可以获得,以提供算法效率的指示。有效样本量大致表达了与自相关的MCMC样本包含相同信息的独立采样参数值的数量;请记住,采样的MCMC值不是独立的,因为它们是使用一阶马尔可夫链生成的。在这里,有效样本量不是指数据的样本量;而是MCMC链的有效长度。低采样效率与高自相关(和混合不佳)相关——使得参数值在连续迭代中的变异性很小——以及后验的非平滑直方图。在这些情况下,通常需要更长的模拟才能获得关于后验分布的可靠估计以及在估计的后验摘要统计量中的足够小的蒙特卡洛误差。后者的小有效样本量问题,反过来,可能指向模型估计中的潜在问题或参数的弱可识别性21。因此,当在获得可靠的蒙特卡洛估计时出现问题时,一个好的起点是基于有效样本量对所有变量进行排序,并首先调查那些具有最低有效样本量的变量。有效样本量还有助于诊断大量变量的采样效率95。
实证示例1继续。博士延期示例的先验已用数据更新,并在Stan98中计算了后验。图4a显示了MCMC算法独立运行四次的βintercept的轨迹图,在预热后显示出稳定性。相关的 \( \hat{R} \) 统计量在大约2000次迭代后稳定(见图4b)。图4c-e显示了先验和后验分布。可以看到,先验和后验彼此非常接近,这表明我们的先验知识得到了新收集数据的“确认”。此外,可以看到不确定性已经减少(例如,与先验方差相比,后验方差较小),这表明我们已经更新了我们的知识。为了说明计算参数相互关系的容易程度,我们还绘制了βage和βage2之间的先验和后验边际密度图(见图4f)。
变分推断。正如我们概述的,贝叶斯分析包括许多阶段,包括详细的模型开发、指定先验和数据模型、基于MCMC的精确推断方法的推导,以及模型检查和细化。这些阶段理想上是独立对待的,将模型构建与其计算实现分开。对精确推断技术的重点关注促进了发展蒙特卡洛方法的相当大的活动,这些方法被认为是贝叶斯推断的黄金标准。贝叶斯推断的蒙特卡洛方法采用基于模拟的策略来近似后验分布。另一种方法是使用包括变分推断99或期望传播100在内的技术来产生后验的功能近似。这里,我们描述变分推断,也称为变分方法或变分贝叶斯,因为它在机器学习中的受欢迎程度和普遍使用。
变分推断首先构建一个近似分布来估计所需的——但难以处理的——后验分布。通常,选择的近似分布来自标准概率分布族,例如多元正态分布,并进一步假设我们模型中变量之间的一些依赖关系被打破,以使后续计算可行。在近似分布假设所有变量都独立的情况下,这为我们提供了均场近似。近似分布将由一组变分参数指定,我们优化这些参数以找到最佳的后验近似,通过最小化与真实后验的Kullback-Leibler散度。因此,变分推断将贝叶斯推断问题重新构建为优化问题,而不是抽样问题,允许它们使用数值优化来解决。
贝叶斯因子64(Box 2)可以用来比较和选择候选模型,其中每个候选模型对应一个假设。与频率主义假设检验方法不同,贝叶斯因子不需要模型嵌套。在变量选择的背景下,每个候选模型对应p个潜在预测变量的不同子集104,105。这些2^p种可能的模型可以通过二进制向量γ=(γ1, …, γp)来索引,其中如果协变量Xj被包含在模型中,即βj≠0,则γj=1,否则γj=0。设Mγ是包含Xj值的模型,其中γj=1。为每个模型指定了先验分布p(Mγ),以及在每个模型下的参数p(βγ, σ^2Mγ),并评估贝叶斯因子BFγb,以比较每个模型Mγ与作为基线的模型Mb。每个模型的后验概率p(Mγy)可以用贝叶斯因子表示为:
其中分母是对所有考虑的模型Mγ求和。具有最大后验概率的模型将对应于在考虑的模型中具有最有力证据的模型。当p相对较小时(例如,小于20),可以评估所有2^p个变量子集及其后验概率。具有最高后验概率的模型可以被选为数据最支持的模型。或者,可以选择具有高边际后验包含概率的协变量,p(γj = 1y) = ∑(γj ∈ Mγ)p(Mγy)。对于中等大小到较大的p,这种策略在实践中是不可行的,因为全面评估所有2^p种可能的模型在计算上变得昂贵。相反,指定了导致稀疏性的收缩先验,通过将非相关协变量的回归系数设置为零或将它们收缩到零来实现,使用MCMC技术从后验分布中抽样。
收缩先验。多年来提出了各种收缩先验。一种广泛使用的收缩先验是尖峰-板条先验,它使用潜在的二进制指示向量γ = (γ1, …, γp) ∈ {0, 1}^p来诱导βj的两种分布的混合,一个围绕零(尖峰)的分布,另一个是分散分布(板条)106,107。尖峰部分识别零元素,而板条部分捕获非零系数。离散尖峰-板条公式106使用在零点的质量混合和分散先验(见图5a),而连续尖峰-板条先验107使用两种连续分布的混合(见图5b)。另一种广泛使用的公式是将尖峰-板条先验放在回归系数的方差上108。在为其他模型参数指定先验分布后,使用MCMC算法探索大型模型空间并产生访问模型的链。然后通过边际后验包含概率P(γj=1y)实现变量选择。对参数β和σ^2进行积分可以加速MCMC实现,加快其收敛和混合速度。还提出了各种计算方法,通过结合变量选择方法与现代蒙特卡洛抽样技术,快速识别具有高后验概率的有希望的模型109,110(见表1)。
另一类近年来受到广泛关注的惩罚先验是连续收缩先验111-113。这些是对βj的一峰分布,它促进了小回归系数向零的收缩,类似于通过最大化受惩罚的对数似然函数来实现正则化的频率惩罚回归方法114。最小绝对收缩和选择算子,或称为Lasso114,使用惩罚函数λ ∑βj,λ控制稀疏性水平。βj的Lasso估计可以被解释为在独立拉普拉斯分布先验下最大化后验分布的贝叶斯估计。受到这种联系的启发,贝叶斯Lasso111在βjσ^2上指定条件拉普拉斯先验。与频率主义Lasso方法不同,贝叶斯惩罚方法不会将回归系数收缩到完全为零。相反,使用βj的可信区间或通过在后验样本上定义选择标准来进行变量选择。许多连续收缩先验可以参数化为正态分布的尺度混合,这有助于它们在MCMC方法中的实现。例如,贝叶斯Lasso中的拉普拉斯先验可以被制定为具有指数混合密度的尺度参数的正态分布的尺度混合。指数混合分布在不同程度上收缩小效应和大效应时的灵活性有限(见图5c)。这种限制可以通过使用引入两个收缩参数的收缩先验类别来克服,分别控制全局稀疏性和每个回归系数的收缩量。结果的βj的边缘先验特征是在零附近有一个紧的峰值,将小系数收缩到零,并有重尾防止大系数的过度收缩。这些先验被称为全局-局部收缩先验113。Horseshoe先验,作为全局-局部收缩先验的一个例子,通过指定其尺度参数遵循半柯西分布的正态分布,实现了零附近的紧峰值和重尾112(见图5d)。不同收缩先验的特性和性能的全面回顾和彻底比较可以在参考文献115中找到。
生物医学中的变量选择。在线性模型中的变量选择先验在生物医学研究中找到了重要应用。高通量技术的出现使得在个体样本上测量数千个遗传标记成为可能。线性模型通常用于将大量生物标记与疾病相关结果相关联,变量选择方法被用来识别显著的预测因子。在贝叶斯方法中,可以轻松地将有关变量之间相关性的额外知识纳入分析中。例如,在基因表达数据的模型中,已经采用了纳入基因-基因交互网络知识的尖峰-板条变量选择先验,以帮助识别预测基因123,以及识别相关途径和基因子集124。贝叶斯变量选择先验已成功应用于全基因组关联研究,在成千上万的个体中测量了数十万个单核苷酸多态性,目标是识别与单个表型或一组相关特征相关的遗传变异125,126。
空气污染是导致疾病和死亡的主要环境风险因素。由交通和工业污染产生的小颗粒可以进入呼吸道,并对健康产生不利影响。颗粒物暴露及其健康效应表现出空间和时间的变异性,这可以被纳入空气污染的贝叶斯模型中(有关空间数据贝叶斯层次模型的资源,我们可以参考参考文献127)。具有诱导空间相关性的尖峰-板条先验的空间变化系数模型已被提出,用于识别与不良健康结果相关的污染物,无论是在整个区域还是各个子区域128。在过去的几十年中,为了更好地了解暴露于空气污染物导致的肺部损伤的机制,人们进行了许多组学研究,以调查暴露于空气污染对基因组标记物的影响。利用标记物之间依赖性的结构化尖峰-板条先验的多元响应模型已被提出,以识别和估计污染物对DNA甲基化结果的影响117。
在神经科学中,神经影像学研究经常采用功能性磁共振成像(fMRI),这是一种非侵入性技术,通过检测血流变化间接测量神经元活动。这些研究产生了大量的时间序列数据,这些数据来自多个受试者大脑中空间不同的部位。基于任务的实验使用功能性磁共振成像在受试者接受不同外部刺激时动态扫描大脑。数据分析的目标是识别被这些刺激激活的大脑区域。具有空间先验的贝叶斯一般线性模型,允许灵活地建模这些数据中的相关结构,已经成功应用129。在广泛的时空层次模型中,研究了纳入有关大脑结构信息的尖峰-板条变量选择先验,用于检测激活模式130,131。功能性磁共振成像的另一个应用是在大脑连接性研究中,其中数据是在受试者休息时测量的,目的是了解大脑区域如何相互作用。除其他方法外,作为推断有效连接性的一种方式,已经研究了多元向量自回归线性模型。连续收缩先验和结构化尖峰-板条先验构造已被用于选择活动连接132,133。贝叶斯变量选择方法已成功应用于许多其他生物医学数据集,包括纵向数据、功能数据、生存结果数据和病例对照研究。
一旦获得了特定模型的后验分布,就可以利用这个分布来模拟新的数据,这可能有助于评估模型是否提供了有效的预测,以便将这些预测用于对未来事件的推断。这些模拟可以用于几个目的。它们可以用来检查模型生成的模拟数据是否类似于观察到的数据,通过比较观察到的数据的核密度估计与模拟数据的密度估计57。可以采取更正式的后验预测检查方法,以评估模型是否可以被认为是与数据生成机制很好地拟合57,78,134-136。任何依赖于参数的统计量或差异都可以用于后验预测检查135。这类似于如何使用先验预测检查,但在观察到的和模拟的数据之间的比较上更为严格57。后验预测检查的敏感性很有用,因为如果使用了现实模型,期望值是在长期平均值中很好地校准78。应该谨慎使用后验预测检查的这两种用途;存在过度调整和过度细化模型以适应特定数据集细节的风险。后验预测分布可以进一步用于外推观察数据之外并进行预测,例如对时间序列数据进行外推。基于特定感兴趣模型的后验分布,可以为观察到的和未来的数据模拟后验预测分布,由于累积的不确定性,当它们预测更远的未来时自然变得更加不确定。需要注意的是,在时间模型中,存在一些在空间和/或时间依赖性方面的后验推断挑战,例如参数随时间的自相关52,137-139。
实证示例2:页面浏览量。为了说明后验预测分布的使用,我们展示第二个示例。假设有兴趣了解一个网页有多少页面浏览量,以及与页面浏览量可能相关的时间相关因素。考虑上英格兰足球超级联赛(英格兰职业足球联赛的最高级别)的页面浏览量——使用wikipediatrend140 R包获取。脚本可在Open Science Framework141上获得。在prophet143 R包中实现的可分解时间序列模型142,允许估计具有非周期变化、假日效应、每周季节性和年度季节性效应的趋势(见图6)。在这个时间序列中值得注意的效应是围绕8月份赛季开始、5月份赛季结束的兴趣高峰,以及2011年9月29日——威廉王子和凯瑟琳·米德尔顿的婚礼日的下降。此外,圣诞节当天页面浏览量减少,而在节礼日和新年伊始,当在圣诞假期季节进行比赛时,页面浏览量显著增加。该模型是使用2010年1月1日至2018年1月1日期间的观察数据估计的。基于特定模型的后验分布,可以为观察到的和未来的数据模拟后验预测分布(见图6e,f)。通常情况下,模型生成的模拟数据与观察到的时间框架内观察到的数据相似。未来时间点的后验预测分布在更远的未来更加不确定,因为累积的不确定性。请注意,除了可能与2018年7月FIFA世界杯决赛阶段有关的页面浏览量增加外,未来页面浏览量的增加和减少都被准确预测了。
贝叶斯规则已被用作理解推理、决策、认知和心理理论的潜在理论,并在发展心理学及相关领域特别流行。贝叶斯规则被用作幼儿认知发展的一个概念框架,捕捉孩子们如何发展对周围世界的了解。贝叶斯方法论也被讨论用于增强用于学习的算法。Gigerenzer和Hoffrage讨论了使用频率而非概率作为改进贝叶斯推理的方法。在另一篇文章中,Slovic和Lichtenstein讨论了如何使用贝叶斯方法进行判断和决策过程。在社会和行为科学的这一领域,贝叶斯规则被用作发展理论和理解发展过程的重要概念工具。
自2004年以来,关于贝叶斯统计的出版物数量一直在稳步上升,过去十年中增长更为显著。部分原因是开发了更容易使用的软件,以及专注于针对应用社会和行为科学家的发布教程。对心理学领域贝叶斯方法的系统回顾发现了740篇符合条件的基于回归的文章使用贝叶斯方法。其中,100篇文章(13.5%)是实施贝叶斯方法的教程,另外225篇文章(30.4%)是技术论文或关于贝叶斯统计的评论(Box 4)。方法论家一直在尝试引导应用研究人员在社会和行为科学中使用贝叶斯方法,尽管实施相对缓慢。例如,系统回顾发现只有167篇基于回归的贝叶斯文章(22.6%)是使用人类样本的应用。尽管如此,一些子领域定期发布实施贝叶斯方法的工作。
该领域通过贝叶斯方法获得了许多关于心理和社会行为的有趣见解,而这些工作进行的实质性领域相当多样化。例如,贝叶斯统计有助于揭示抑制渴望在戒烟中的作用147,基于专家意见进行人口预测148,检查与婴儿照顾相关的压力在离婚中的作用149,检查美国总统的意识形态对美国最高法院裁决的影响150,以及预测限制饮食中自由糖摄入量的行为151。这些例子都代表了贝叶斯方法论在文献中以不同方式被捕捉的不同方式。常见的是找到强调贝叶斯规则作为解释发展理论和批判性思维理论的机制的论文144,这些论文是解释性的152,153,专注于贝叶斯推理如何通过使用贝叶斯推断来通知理论154,以及使用贝叶斯建模提取使用频率方法难以得出的发现147。
由于哲学论证,特别是在主观与客观推理方面,以及实际的模型拟合优势,贝叶斯分析在回答生态问题方面的应用变得越来越广泛。这与容易获得的软件(见表2)和许多描述使用这些软件包的贝叶斯生态应用的出版物相结合(见参考文献155-161中的示例)。在生态学中,贝叶斯哲学在许多方面都是有吸引力的,因为它允许在严格框架内纳入外部的、独立的先验信息,无论是来自同一/类似物种的先前研究还是对生物过程的固有知识。此外,贝叶斯方法还允许对感兴趣的参数进行直接的概率陈述,如存活概率、繁殖率、种群大小和未来预测157,以及计算竞争模型的相对概率——例如,密度依赖性或环境因素在推动生态系统动态中的存在或缺失——这反过来又允许模型平均估计,结合了参数和模型的不确定性。提供概率陈述的能力在野生动物管理和保护方面特别有用。例如,King等人165提供了与给定时间段内种群下降水平相关的概率陈述,这反过来又提供了与物种保护状况相关的概率。
贝叶斯方法也常常因实用原因应用于生态学研究。许多生态模型都很复杂——例如,它们可能是时空性质的、高维的和/或涉及多个相互作用的生物过程——导致计算成本高昂的可能性,评估速度慢。不完美或有限的数据收集过程经常导致缺失数据和相关的复杂可能性。在这种情况下,标准的贝叶斯模型拟合工具,如数据增强,可能允许拟合模型,而在替代的频率框架中,可能需要额外的模型简化或近似。贝叶斯统计在生态学中的应用非常广泛,涵盖了从个体生物水平到生态系统水平的各种时空尺度,包括理解给定系统的种群动态166、建模空间点模式数据167、研究种群遗传学、估计丰度168和评估保护管理169。
生态数据收集过程通常来自观察性研究,其中使用某些数据调查协议从感兴趣的种群中观察样本。调查应该经过仔细设计,考虑到感兴趣的生态问题,并最小化拟合数据所需的模型复杂性,以提供可靠的推断。尽管如此,由于数据收集问题,如设备故障或恶劣天气条件,仍可能出现相关的模型拟合挑战。一些数据调查中也可能存在固有的数据收集问题,例如无法记录个体级别的信息。这些模型拟合挑战可能包括——但远远不限于——由于设备故障或实验设计导致的时间上不规则的观察,由于不完美的数据观察导致的测量误差,从个体级别到全球环境级别不同层次的缺失信息,以及与多尺度研究相关的挑战,其中数据的不同方面以不同的时间尺度记录——例如,从个体的每小时位置数据到每日和每月的环境数据收集。出现的数据复杂性,结合相关的建模选择,可能导致一系列模型拟合挑战,这些挑战通常可以使用贝叶斯范式内的标准技术来解决。
对于一个特定的生态学研究,分离出作用于生态系统的各个独立过程是一种简化模型规范的有吸引力的机制166。例如,状态空间模型提供了一个通用且灵活的建模框架,描述了两种不同的过程:系统过程和观测过程。系统过程描述了系统的真正潜在状态以及这种状态随时间的变化。这种状态可能是单变量或多变量的,例如种群大小或位置数据。系统过程还可能描述作用于系统上的多个过程,如出生、繁殖、扩散和死亡。我们通常无法在没有一些相关误差的情况下观察到这些真正的潜在系统状态,而观测过程描述了观测数据如何与真正的未知状态相关。这些一般的状态空间模型涵盖许多应用,包括动物运动170、种群计数数据171、捕获-重捕型数据165、渔业资源评估172和生物多样性173。有关这些主题的综述以及进一步的应用,请参考其他文献166,174,175。
遗传学和基因组学研究广泛使用了贝叶斯方法。在全基因组关联研究中,贝叶斯方法为评估人群中遗传变异与感兴趣的表型之间的关联提供了强大的替代频繁方法180。这些包括纳入遗传混合的统计模型181、精细定位以识别因果遗传变异182、使用参考人群对未直接测量的遗传标记进行插补183以及元分析以跨研究组合信息。这些应用进一步从使用边缘化中受益,以在得出推断时考虑建模不确定性。最近,像英国生物银行184这样的大型队列研究扩大了识别遗传与复杂(子)表型关联的方法学要求,通过整合遗传信息以及包括成像、生活方式和常规收集的健康数据在内的异构数据集。
深度神经网络(DNN)也被用来在单细胞组学的层次模型中指定灵活的非线性条件依赖性。SAVER-X190将贝叶斯层次模型与可预训练的深度自编码器结合起来,提取跨不同实验室的数据集、可变实验条件和不同物种的可转移基因-基因关系,以去噪新目标数据集。在scVI191中,层次建模被用来汇集相似细胞和基因的信息,以学习观察表达值的分布模型。SAVER-X和scVI都使用小批量随机梯度下降进行近似贝叶斯推断,后者在变分设置中——这是DNN中的标准技术——允许这些模型适合数十万甚至数百万的细胞。
贝叶斯方法也在大规模癌症基因组数据集192中广受欢迎,并能够采用数据驱动方法来识别驱动癌症启动和进展的新型分子变化。贝叶斯网络模型193已开发出来,以识别突变基因之间的相互作用,并捕获突出关键遗传相互作用的突变特征,这些相互作用可能允许在临床试验和个性化治疗中进行基于基因组的患者分层。贝叶斯方法在回答有关癌症进化过程的问题方面也很重要。几种贝叶斯方法用于异质性癌症的系统发育分析,通过分析单细胞和大量组织测序数据,使肿瘤中可能存在的不同亚群及其祖先关系得以识别194。因此,这些模型因此考虑了通过考虑亚群的数量和身份以及派生系统发育树来学习混合模型和图推断的联合问题。
对于任何贝叶斯论文,不报告任何关于先验的信息都是有问题的。天真地使用先验存在许多危险,我们认为,如果可能的话,可能希望预先注册先验和似然的规范。此外,先验对最终模型估计的影响可能容易被忽视——研究人员可能用某些先验估计模型,并且不知道使用相同的模型和数据使用不同的先验可能导致实质上不同的结果。在这两种情况下,结果看起来可能完全可行,马尔可夫链看起来已经收敛,后验看起来适当且具有信息性。如果不通过敏感性分析和先验预测检查检查先验的影响,研究人员将不会意识到结果对先验变化的敏感性。考虑在图3中错误指定的博士延迟示例中βage的先验方差,使用精度而不是方差。
这还允许数据集和代码被视为单独的研究产出,并允许他人相应地引用它们198。存储库可以是通用的,如Zenodo;特定于语言的,如用于R包的CRAN和用于Python代码的PyPI;或特定于领域的198。由于数据和代码需要不同的许可选项和元数据,数据通常最好存储在专用的数据存储库中,这些存储库可以是通用的或特定于学科的199。一些期刊,如Scientific Data,有自己的推荐数据存储库列表。为了使研究人员存储数据和代码更加容易,两个存储库(Zenodo和Dryad)正在探索合作,允许通过一个界面存储代码和数据,数据存储在Dryad中,代码存储在Zenodo中200。许多科学期刊遵循透明度和开放促进指南201,这些指南规定了代码和数据共享的要求。
验证和可复制性需要访问贝叶斯建模中使用的数据和代码,理想情况下是在代码运行的原始环境中复制,所有依赖项要么在随代码附带的依赖文件中记录,要么通过创建一个提供运行代码的虚拟环境的静态容器镜像199。应尽可能使用开源软件,因为开源降低了复制科学结果的货币和可访问性门槛。此外,可以说闭源软件隐藏了学术过程的一部分,包括使用该软件的研究人员自己。然而,只有当开源软件具有适当的文档时,它才真正可访问,其中包括在Readme文件中列出依赖项和配置说明,对代码进行注释以解释功能,并在发布包时包括一份全面的参考手册。
这使得概率的校准成为问题(校准的推断或预测在平均上是正确的,条件是预测)。在这个例子中,如果你在先验上平均,概率是校准的。在无限范围内对均匀分布进行平均在数学上是不可能的,但我们可以考虑一个非常分散的先验,例如,我们假设s大致在单位尺度上,即是一个无维参数,预期其绝对值不会远离一。在这个模型下,当观察到z等于s时,参数θ大约有84%的时间是正的。84%的概率看起来不正确的原因是,均匀或非常分散的先验通常看起来不合适。在实践中,研究被设计来以合理的精度估计治疗效果。线个标准误差,但它们很少是5、10或100个标准误差远离0。在这个例子中,如果按字面意思理解,贝叶斯推断会导致过度确定性:84%的后验概率。然而,积极看待这个问题的方式是,后验的明显问题使我们认识到我们没有包含在我们的模型中的先前信息,在这个案例中,是不太可能看到非常大的θ值的先前信息。此外,像这样的弱信息先验对后验没有大的影响,因为那时后验成为正态分布:
更广泛地说,可以通过将后验预测模拟与数据进行比较以及估计样本外预测误差来检查贝叶斯模型。强先验分布的好处在于,它将参数限制在合理的值内,允许包含更多的数据,同时避免过度拟合。更多的数据可以来自各种来源,包括额外的数据点、现有数据的额外测量以及总结其他数据或理论的先验信息。所有方法,无论是贝叶斯还是其他方法,都需要主观解释以讲述一个合理的故事,所有模型都来自研究者的决定。任何模型的选择都有其含义;平坦的先验是弱的,没有对估计值进行收缩,但可能导致对θ的强烈,可能不适当的确定性水平。
贝叶斯统计面临的一个持续挑战是日益复杂的现实世界应用所带来的不断增长的需求,这些应用通常与大型数据集和模型规范的不确定性等问题相关。所有这些都发生在计算硬件的快速发展、新型软件开发方法的出现以及数据科学的发展背景下,这吸引了比以往任何时候都更大和更多样化的科学受众。近年来,将人工智能一词的修订和普及,以包含包括统计学和计算在内的广泛思想,模糊了这些学科之间的传统界限。这在推广概率建模和贝叶斯概念方面取得了巨大成功,超出了它们在统计学中的传统根源,但也看到了贝叶斯推断的执行方式的转变,以及关于贝叶斯方法如何能够继续处于人工智能研究创新前沿的新问题。
由于需要支持涉及日益增长的数据集维度和样本数量的大规模应用,贝叶斯概念已经利用了以深度学习为中心的新技术的增长。这包括深度学习编程框架(TensorFlow、PyTorch),这些框架简化了DNN的使用,允许构建更具表现力的、数据驱动的模型,这些模型立即适用于使用现成的优化算法和最先进的硬件的推断技术。除了提供强大的工具来指定灵活和模块化的生成模型外,DNN还被用于开发新的近似推断方法,并激发了一个新的贝叶斯实践范式,该范式看到统计建模和计算在其核心的整合。
一个典型的例子是变分自编码器,它已成功用于各种应用,包括单细胞基因组学,提供了一个导致许多扩展的通用建模框架,包括潜在因素的解耦。底层的统计模型是一个简单的贝叶斯层次潜在变量模型,该模型将高维观测映射到通过DNN定义的函数假定为正态分布的低维潜在变量。变分推断用于近似潜在变量的后验分布。然而,在标准变分推断中,我们将为每个潜在变量引入一个局部变分参数,这种情况下计算需求将与数据样本的数量成线性关系。变分自编码器使用一种称为摊销的进一步近似过程,用一组单一的全局参数替换对许多个体变分参数的推断——称为识别网络——这些参数用于参数化一个DNN,该DNN输出每个数据点的局部变分参数。
值得注意的是,当模型和推断结合在一起并共同解释时,变分自编码器具有优雅的编码-解码算法解释:它由一个概率编码器组成——一个将每个观测映射到潜在空间中的分布的DNN,以及一个概率解码器——一个补充的DNN,将潜在空间中的每个点映射到观测空间中的分布。因此,模型规范和推断在变分自编码器内变得纠缠不清,展示了贝叶斯建模和算法深度学习技术之间日益模糊的界限。其他近期的例子包括使用DNN构建定义可能函数上分布的概率模型,通过应用一系列可逆变换构建复杂的概率分布,以及定义可交换序列数据的模型。
DNN的表达能力和它们在模型构建和推断算法中的效用伴随着需要贝叶斯研究的妥协。模型和推断相互纠缠的趋势为大规模数据问题推广了这些技术;然而,基本的贝叶斯概念仍需完全融入这一范式。整合、模型平均决策理论方法依赖于精确的后验特征描述,由于高维神经网络参数空间带来的挑战,这仍然是难以捉摸的。尽管贝叶斯神经网络学习方法已经存在了几十年,但需要进一步研究涉及复杂网络结构的现代贝叶斯深度学习模型的先验规范,以了解先验如何转化为特定的功能属性。
人工智能领域最近的辩论质疑了贝叶斯方法的要求,并强调了潜在的替代方案。例如,深度集成已被证明是处理模型不确定性的贝叶斯方法的替代品。然而,最近的研究表明,深度集成实际上可以被重新解释为近似贝叶斯模型平均。同样,dropout是一种在DNN训练中流行的正则化方法,通过在网络训练期间随机丢弃节点来提高鲁棒性。Dropout已被经验证明可以提高泛化能力并减少过拟合。Dropout的贝叶斯解释已经出现,将其与概率深度高斯过程的贝叶斯近似形式联系起来。尽管贝叶斯原则的全部范围尚未推广到人工智能的所有最新发展,但贝叶斯思维深深植根并至关重要,对许多创新的出现都是成功的。下一个十年肯定会为贝叶斯智能带来一波新的激动人心的创新发展。