離散程度
在統計學裡,離散程度(英語:statistical dispersion,scatter,spread)或離散度,又稱統計變異性(statistical variability)[1],簡稱 變異、變差(variation)、變率,是指一個分布或隨機變數的拉伸或壓縮程度[2]。習慣上,「離散」常用來描述數據分布[3],而「變異」(指:變異數、方差)更常用來描述隨機變數的變異程度[4]。[需要解釋]用以描述離散程度或變異的量主要有變異數、標準差、變異係數和四分位距等。
離散程度與集中趨勢相對,因此,離散度就是指各個變量值與集中趨勢的偏離程度。
衡量
衡量離散程度的值,通常是非負實數:當衡量值取零時,表示分布集中在同一個值上;隨著衡量值的增加,隨機變數的取值越來越分散。
部分描述離散程度的量是帶單位的,並且,這些量的單位與隨機變數本身的單位相同。也就是說,如果隨機變數的單位是公尺或秒,則這些量的單位也是公尺或秒。這些量舉例如下:
此外,也有一些無因次量:
另外,還有一些帶單位的量,但是他們的單位和隨機變數本身的單位不同:
可解釋性
變差的可解釋性,通常是對於一個隨機變數而言的。當觀測到隨機變數的一些取值(例如訓練集中的標籤可視作是一個隨機變數的一些觀測值),需要推斷隨機變數服從的分布時,就會遇到這個問題。一般而言,推斷有限觀測值的隨機變數服從的分布的過程,即是建立模型的過程。
假設有隨機變數及其服從的真實分布。則對於該隨機變數的觀測值,可計算其變差(以變異數表示);對於分布,亦可計算其變差。則是相對該隨機變數的可解釋變異(英語:explainable variation),其餘的部分則是不可解釋變異(英語:unexplainable variation)。為了衡量不可解釋變異,可引入不可解釋變異分數(英語:fraction of unexplainable variation)。不可解釋變異亦稱為統計雜訊。
假設是模型給出的隨機變數的分布。則對於該預測分布,我們可以計算器變異(以變異數表示)。則是該模型相對該隨機變數的已解釋變異(英語:explained variation),其餘部分則是未解釋變異(英語:unexplained variation)。同樣,為了衡量未解釋變異,可引入未解釋變異分數(英語:fraction of unexplained variation)。
參考資料
- ^ 賀睿傑. 統計活動視角下的高中生統計學習研究[D]. 華東師範大學, 2020.
- ^ NIST/SEMATECH e-Handbook of Statistical Methods. 1.3.6.4. Location and Scale Parameters. www.itl.nist.gov. U.S. Department of Commerce. [2022-11-14]. (原始內容存檔於2022-11-14).
- ^ 米小琴. 统计计算与分析. 清華大學出版社有限公司. 2004: 68–75. ISBN 9787302064343.
- ^ 安德森. 王峰 , 編. 商务与经济统计. 中信出版社. 2003: 202. ISBN 9787800738753.