U-统计量是统计学中一类特定的、具有对称性的统计量,它在估计理论中扮演重要角色。名称中的“ U”为无偏(unbiased)之意。在初等统计学中,U-统计量与最小方差无偏估计量 (UMVUE) 有密切联系。
U-统计量的一个重要性是,对概率分布来说,其可估计参数的最小方差无偏估计量 是一个U-统计量。 [1][2] 因此通过研究U-统计量的一般性质,可以系统地了解这些估计量的统计学性质。[3]
U-统计量在非参数统计中尤其重要,不少用于估计和统计检验的统计量,在形式上都是U-统计量。U-统计量通常具有良好的渐近正态性,这方便了基于它的统计推断。 近年来,U-统计量在研究复杂的随机过程和随机网络类型数据的随机性质方面,发挥了作用。[4][5][6]
目前,统计学家们对U-统计量性质的了解,几乎全都基于Hoeffding发表于1948年的经典论文[7]。在这篇论文里,Hoeffding给出了U-统计量最重要的性质——它的ANOVA分解。
定义
定义
为一个函数,其具有对称性,即交换任意
的位置,
的值保持不变。对随机变量
,基于
的U-统计量定义如下:
![{\displaystyle U_{n}={\frac {1}{\binom {n}{r}}}\sum _{1\leq i_{1}<\cdots <i_{r}\leq n}h(X_{i_{1}},\ldots ,X_{i_{r}})}](https://wikimedia.org/api/rest_v1/media/math/render/svg/bec3420cd0d7d4e6a24f41d838e584a6166fe5d1)
这里,
称为U-统计量的核函数(Kernel function),而核函数的维数
称为该U-统计量的度(degree)。[8]
两样本U-统计量
定义
为一个函数,其对
和
分别具有对称性,即交换任意
的位置或交换任意
的位置,
的值保持不变(但不能随意交换
)。对随机变量
,基于
的两样本U-统计量定义如下:
![{\displaystyle U_{m,n}={\frac {1}{{\binom {m}{r}}{\binom {n}{s}}}}\sum _{1\leq i_{1}<\cdots <i_{r}\leq m}\sum _{1\leq j_{1}<\cdots <j_{s}\leq n}h(X_{1},\ldots ,X_{r};Y_{1},\ldots ,Y_{s})}](https://wikimedia.org/api/rest_v1/media/math/render/svg/1258bfc0cbe8e75ed853d4e5d3315bae996dc4d8)
目前在机器学习中,最常见的情形是
,例如能量距离和最大平均差异(MMD)。
Hoeffding的ANOVA分解定理
定理表述
Hoeffding的ANOVA分解定理是现代U-统计量理论的基础。[9]为表述该定理,定义:
。
对所有
,定义投影函数:
然后定义正交化投影函数:
,
,等等,每一个
都定义为相应的
减去之前定义过的所有
,直至最后一个函数
:
Hoeffding的ANOVA分解定理的内容是:
分解项的性质
所有的正交化投影函数
都满足:
因此,所有的分解项之间是互不相关的[9],并且度为
的分解项之平均的阶为
.
在大多数应用中,一个U-统计量的ANOVA分解中最重要的是前一项或前两项。根据分解项的性质,可以得到如下的两项ANOVA分解式:
定理应用
- U-统计量的渐近正态性是Hoeffding的ANOVA分解定理的简单推论。具体而言,有如下结论:记
,则:
![{\displaystyle n^{1/2}\left(U_{n}-\mu \right)\ {\stackrel {d}{\to }}\ N\left(0,r^{2}\xi _{1}^{2}\right)}](https://wikimedia.org/api/rest_v1/media/math/render/svg/121168be2a1c520b4db2d7a425bc12158c54a0dd)
同时,分解定理也指出了应该如何正确地一阶逼近U-统计量的方差,和对其进行t-标准化。
具体例子
- 度为1的例子:令
,则U-统计量
是样本均值。
- 度为2的例子:令
,则U-统计量
![{\displaystyle {\frac {1}{\binom {n}{2}}}\sum _{1\leq i<j\leq n}h(X_{i},X_{j})}](https://wikimedia.org/api/rest_v1/media/math/render/svg/e49d992f1105fb8412d29c3f5233937422dc6cfb)
称为“平均成对偏差”。
- 另一个度为2的例子:令
,则U-统计量有如下变形:
![{\displaystyle {\frac {1}{\binom {n}{2}}}\sum _{1\leq i<j\leq n}h(X_{i},X_{j})=\sum (X_{i}-{\bar {X}})^{2}/(n-1)}](https://wikimedia.org/api/rest_v1/media/math/render/svg/c18cc32cda8848672e92f8eb78859d976a30c4d8)
这正是人们熟知的样本方差
。
![{\displaystyle {\frac {1}{n}}\sum _{i=1}^{n}(X_{i}-{\bar {X}})^{3}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/1e63861a684c532f8cc9ba0868a01d032ebc0ca2)
展开后可以写成一个U-统计量。
参见
参考文献
- ^ Cox & Hinkley (1974),p. 200, p. 258
- ^ Hoeffding (1948), between Eq's(4.3),(4.4)
- ^ U-Statistics : Theory and Practice.. Routledge. ISBN 9781351405850.
- ^ Page 508 in Koroljuk, V. S.; Borovskich, Yu. V. Theory of U-statistics. Mathematics and its Applications 273 Translated by P. V. Malyshev and D. V. Malyshev from the 1989 Russian original. Dordrecht: Kluwer Academic Publishers Group. 1994: x+552. ISBN 0-7923-2608-3. MR 1472486.
- ^ Pages 381–382 in Borovskikh, Yu. V. U-statistics in Banach spaces. Utrecht: VSP. 1996: xii+420. ISBN 90-6764-200-2. MR 1419498.
- ^ Page xii in Kwapień, Stanisƚaw; Woyczyński, Wojbor A. Random series and stochastic integrals: Single and multiple. Probability and its Applications. Boston, MA: Birkhäuser Boston, Inc. 1992: xvi+360. ISBN 0-8176-3572-6. MR 1167198.
- ^ Hoeffding, Wassily. A Class of Statistics with Asymptotically Normal Distribution. The Annals of Mathematical Statistics. 1948-09, 19 (3): 293–325. doi:10.1214/aoms/1177730196.
- ^ 8.0 8.1 Bickel, P. J.; Gotze, F.; van Zwet, W. R. The Edgeworth Expansion for $U$-Statistics of Degree Two. The Annals of Statistics. 1986-12, 14 (4): 1463–1484. doi:10.1214/aos/1176350170.
- ^ 9.0 9.1 Maesono, Yoshihiko. Edgeworth expansions of a studentized U-statistic and a jackknife estimator of variance. Journal of Statistical Planning and Inference. 1997-05, 61 (1): 61–84. doi:10.1016/S0378-3758(96)00148-6.
- ^ Putter, Hein; van Zwet, Willem R. Empirical Edgeworth expansions for symmetric statistics. The Annals of Statistics. 1998-08, 26 (4): 1540–1569. doi:10.1214/aos/1024691253.
- ^ Jing, Bing-Yi; Wang, Qiying. Edgeworth expansion for U -statistics under minimal conditions. The Annals of Statistics. 2003-08, 31 (4): 1376–1391. doi:10.1214/aos/1059655916.
- ^ Yuan Zhang; Dong Xia. Edgeworth expansions for network moments. The Annals of Statistics. 2022-04-01, 50 (2): 726–753. doi:10.1214/21-AOS2125.
- ^ Székely, Gábor J.; Rizzo, Maria L. Energy statistics: A class of statistics based on distances. Journal of Statistical Planning and Inference. 2013-08, 143 (8): 1249–1272. doi:10.1016/j.jspi.2013.03.018.
- ^ Gretton, Arthur; Borgwardt, Karsten M.; Rasch, Malte J.; Schölkopf, Bernhard; Smola, Alexander. A Kernel Two-Sample Test. Journal of Machine Learning Research. 2012, 13 (25): 723–773 [2020-06-26]. (原始内容存档于2022-02-04).