IEEE 754

IEEE二进制浮点数算术标准（IEEE 754）是20世纪80年代以来最广泛使用的浮点数运算标准，为许多CPU与浮点运算器所采用。这个标准定义了表示浮点数的格式（包括负零-0）与反常值（denormal number），一些特殊数值（（无穷（Inf）与非数值（NaN）），以及这些数值的“浮点数运算符”；它也指明了四种数值舍入规则和五种例外状况（包括例外发生的时机与处理方式）。

IEEE 754规定了四种表示浮点数值的方式：单精确度（32位）、双精确度（64位）、延伸单精确度（43位元以上，很少使用）与延伸双精确度（79位元以上，通常以80位实现）。只有32位模式有强制要求，其他都是选择性的。大部分编程语言都提供了IEEE浮点数格式与算术，但有些将其列为非必需的。例如，IEEE 754问世之前就有的C语言，现在包括了IEEE算术，但不算作强制要求（C语言的float通常是指IEEE单精确度，而double是指双精确度）。

该标准的全称为IEEE二进制浮点数算术标准（ANSI/IEEE Std 754-1985），又称IEC 60559:1989，微处理器系统的二进制浮点数算术（本来的编号是IEC 559:1989）^[1]。后来还有“与基数无关的浮点数”的“IEEE 854-1987标准”，有规定基数为2跟10的状况。现在最新标准是“ISO/IEC/IEEE FDIS 60559:2020”。

在六、七十年代，各家电脑公司的各个型号的电脑，有着千差万别的浮点数表示，却没有一个业界通用的标准。这给数据交换、电脑协同工作造成了极大不便。IEEE的浮点数专业小组于七十年代末期开始酝酿浮点数的标准。在1980年，英特尔公司就推出了单片的8087浮点数协处理器，其浮点数表示法及定义的运算具有足够的合理性、先进性，被IEEE采用作为浮点数的标准，于1985年发布。而在此前，这一标准的内容已在八十年代初期被各电脑公司广泛采用，成了事实上的业界工业标准。加州大学伯克利分校的数值计算与电脑科学教授威廉·卡韩被誉为“浮点数之父”。

浮点数剖析

一个浮点数 (Value) 的表示其实可以这样表示：

${\texttt {Value}}={\texttt {sign}}\times {\texttt {exponent}}\times {\texttt {fraction}}$

也就是浮点数的实际值，等于符号位（sign bit）乘以指数偏移值（exponent bias）再乘以分数值（fraction）。

以下内容是IEEE 754对浮点数格式的描述。

本文表示位元的约定

把W个位元（bit）的数据，从内存地址低端到高端，以0到W−1编码。通常将内存地址低端的位元写在最右边，称作最低有效位（Least Significant Bit, LSB），代表最小的位元，改变时对整体数值影响最小的位元。声明这一点的必要性在于X86体系架构是小端序的数据存储。

对于十进制整数N，必要时表示为N₁₀以与二进制的数的表示N₂相区分。

对于一个数，其二进制科学计数法表示下的指数的值，下文称之为指数的实际值；而根据IEEE 754标准对指数部分的编码的值，称之为浮点数表示法指数域的编码值。

整体呈现

二进制浮点数是以符号数值表示法的格式存储——最高有效位被指定为符号位（sign bit）；“指数部分”，即次高有效的e个位元，存储指数部分；最后剩下的f个低有效位的位元，存储“有效数”（significand）的小数部分（在非规约形式下整数部分默认为0，其他情况下一律默认为1）。

指数偏移值

指数偏移值（exponent bias），即浮点数表示法中指数域的编码值，等于指数的实际值加上某个固定的值，IEEE 754标准规定该固定值为 $2^{e-1}-1$ ^[2]，其中的 $e$ 为存储指数的位元的长度。

以单精度浮点数为例，它的指数域是8个位元，固定偏移值是 $2^{8-1}-1=128-1=127$ 。此为有号数的表示方式，单精度浮点数的指数部分实际取值是从-126到127（-127和128被用作特殊值处理，见下方“非规约形式的浮点数”和“特殊值”）。例如指数实际值为 $17_{10}$ ，在单精度浮点数中的指数域编码值为 $144_{10}$ ，即 $144_{10}=17_{10}+127_{10}$ 。

采用指数的实际值加上固定的偏移值的办法表示浮点数的指数，好处是可以用长度为 $e$ 个位元的无符号整数来表示所有的指数取值，这使得两个浮点数的指数大小的比较更为容易，实际上可以按照字典次序比较两个浮点表示的大小。

这种移码表示的指数部分，中文称作阶码。

规约形式的浮点数

如果浮点数中指数部分的编码值在 $0<{\textrm {exponent}}\leqslant 2^{e}-2$ 之间，且在科学表示法的表示方式下，分数（fraction）部分最高有效位（即整数码）是 $1$ ，那么这个浮点数将被称为规约形式的浮点数。“规约”是指用唯一确定的浮点形式去表示一个值。

由于这种表示下的尾数有一位隐含的二进制有效数字，为了与二进制科学计数法的尾数（mantissa）相区别，IEEE754称之为有效数（significant）。

举例来说，双精度 (64-bit) 的规约形式浮点数在指数偏移值的值域为 $00000000001$ (11-bit) 到 $11111111110$ ，在分数部分则是 $000.....000$ 到 $111.....111$ (52-bit)

非规约形式的浮点数

如果浮点数的指数部分的编码值是0，分数部分非零，那么这个浮点数将被称为非规约形式的浮点数。一般是某个数字相当接近零时才会使用非规约型式来表示。 IEEE 754标准规定：非规约形式的浮点数的指数偏移值比规约形式的浮点数的指数偏移值小1。例如，最小的规约形式的单精度浮点数的指数部分编码值为1，指数的实际值为-126；而非规约的单精度浮点数的指数域编码值为0，对应的指数实际值也是-126而不是-127。实际上非规约形式的浮点数仍然是有效可以使用的，只是它们的绝对值已经小于所有的规约浮点数的绝对值；即所有的非规约浮点数比规约浮点数更接近0。规约浮点数的尾数大于等于1且小于2，而非规约浮点数的尾数小于1且大于0。

除了规约浮点数，IEEE754-1985标准采用非规约浮点数，用来解决填补绝对值意义下最小规格数与零的距离。（举例说，正数下，最大的非规格数等于最小的规格数。而一个浮点数编码中，如果exponent=0，且尾数部分不为零，那么就按照非规约浮点数来解析）非规约浮点数源于70年代末IEEE浮点数标准化专业技术委员会酝酿浮点数二进制标准时，Intel公司对渐进式下溢出（gradual underflow）的力荐。当时十分流行的DEC VAX机的浮点数表示采用了突然式下溢出（abrupt underflow）。如果没有渐进式下溢出，那么0与绝对值最小的浮点数之间的距离（gap）将大于相邻的小浮点数之间的距离。例如单精度浮点数的绝对值最小的规约浮点数是 $1.0\times 2^{-126}$ ,它与绝对值次小的规约浮点数之间的距离为 $2^{-126}\times 2^{-23}=2^{-149}$ 。如果不采用渐进式下溢出，那么绝对值最小的规约浮点数与0的距离是相邻的小浮点数之间距离的 $2^{23}$ 倍，可以说是非常突然的下溢出到0。这种情况的一种糟糕后果是：两个不等的小浮点数X与Y相减，结果将是0。训练有素的数值分析人员可能会适应这种限制情况，但对于普通的程序员就很容易陷入错误了。采用了渐进式下溢出后将不会出现这种情况。例如对于单精度浮点数，指数部分实际最小值是（-126），对应的尾数部分从 $1.1111\ldots 11$ , $1.1111\ldots 10$ 一直到 $0.0000\ldots 10$ , $0.0000\ldots 01$ ， $0.0000\ldots 00$ 相邻两小浮点数之间的距离（gap）都是 $2^{-126}\times 2^{-23}=2^{-149}$ ；而与0最近的浮点数（即最小的非规约数）也是 $2^{-126}\times 2^{-23}=2^{-149}$ 。

特殊值

这里有三个特殊值需要指出：

如果指数是0并且尾数的小数部分是0，这个数±0（和符号位相关）
如果指数 = $2^{e}-1$ 并且尾数的小数部分是0，这个数是±∞（同样和符号位相关）
如果指数 = $2^{e}-1$ 并且尾数的小数部分非0，这个数表示为非数（NaN）。

以上规则，总结如下：

形式	指数	小数部分
零	0	0
非规约形式	0	大于0小于1
规约形式	$1$ 到 $2^{e}-2$	大于等于1小于2
无穷	$2^{e}-1$	0
NaN	$2^{e}-1$	非0

32位单精度

单精度二进制小数，使用32个位元存储。

位元长度：	1	8	23
名称：	S	Exp	Fraction
位元编号：	31	30至23 偏正值（实际的指数大小+127）	22至0位编号（从右边开始为0）

S为符号位，Exp为指数码，Fraction为有效数码。指数部分即使用所谓的偏正值形式表示，偏正值为实际的指数大小与一个固定值（32位的情况是127）的和。采用这种方式表示的目的是简化比较。因为，指数的值可能为正也可能为负，如果采用补码表示的话，全体符号位S和Exp自身的符号位将导致不能简单的进行大小比较。正因为如此，指数部分通常采用一个无符号的正数值存储。单精度的指数部分是−126～+127加上偏移值127，指数值的大小从1～254（0和255是特殊值）。浮点小数计算时，指数值减去偏正值将是实际的指数大小。

单精度浮点数各种极值情况：

类别	正负号	实际指数	有偏移指数	指数域	尾数域	数值
零	0	-127	0	0000 0000	000 0000 0000 0000 0000 0000	0.0
负零	1	-127	0	0000 0000	000 0000 0000 0000 0000 0000	−0.0
1	0	0	127	0111 1111	000 0000 0000 0000 0000 0000	1.0
-1	1	0	127	0111 1111	000 0000 0000 0000 0000 0000	−1.0
最小的非规约数	*	-126	0	0000 0000	000 0000 0000 0000 0000 0001	±2⁻²³ × 2⁻¹²⁶ = ±2⁻¹⁴⁹ ≈ ±1.4×10^-45
中间大小的非规约数	*	-126	0	0000 0000	100 0000 0000 0000 0000 0000	±2⁻¹ × 2⁻¹²⁶ = ±2⁻¹²⁷ ≈ ±5.88×10^-39
最大的非规约数	*	-126	0	0000 0000	111 1111 1111 1111 1111 1111	±(1−2⁻²³) × 2⁻¹²⁶ ≈ ±1.18×10^-38
最小的规约数	*	-126	1	0000 0001	000 0000 0000 0000 0000 0000	±2⁻¹²⁶ ≈ ±1.18×10^-38
最大的规约数	*	127	254	1111 1110	111 1111 1111 1111 1111 1111	±(2−2⁻²³) × 2¹²⁷ ≈ ±3.4×10³⁸
正无穷	0	128	255	1111 1111	000 0000 0000 0000 0000 0000	+∞
负无穷	1	128	255	1111 1111	000 0000 0000 0000 0000 0000	−∞
NaN	*	128	255	1111 1111	非全0	NaN
* 符号位可以为0或1 .

64位双精度

双精度二进制小数，使用64个位元存储。

位元长度：	1	11	52
名称：	S	Exp	Fraction
位元编号：	63	62至52 偏正值（实际的指数大小+1023）	51至0位编号（从右边开始为0）

S为符号位，Exp为指数码，Fraction为有效数码。指数部分即使用所谓的偏正值形式表示，偏正值为实际的指数大小与一个固定值（64位的情况是1023）的和。采用这种方式表示的目的是简化比较。因为，指数的值可能为正也可能为负，如果采用补码表示的话，全体符号位S和Exp自身的符号位将导致不能简单的进行大小比较。正因为如此，指数部分通常采用一个无符号的正数值存储。双精度的指数部分是−1022～+1023加上1023，指数值的大小从1～2046（0（2进位全为0）和2047（2进位全为1）是特殊值）。浮点小数计算时，指数值减去偏正值将是实际的指数大小。

浮点数的比较

浮点数基本上可以按照符号位、指数域、尾数域的顺序作字典比较。显然，所有正数大于负数；正负号相同时，指数的二进制表示法更大的其浮点数值更大。

浮点数的舍入

任何有效数上的运算结果，通常都存放在较长的寄存器中，当结果被放回浮点格式时，必须将多出来的位元丢弃。有多种方法可以用来执行舍入作业，实际上IEEE标准列出4种不同的方法：

舍入到最接近：舍入到最接近，在一样接近的情况下偶数优先（Ties To Even，这是默认的舍入方式）：会将结果舍入为最接近且可以表示的值，但是当存在两个数一样接近的时候，则取其中的偶数（在二进制中是以0结尾的）。
朝+∞方向舍入：会将结果朝正无限大的方向舍入。
朝-∞方向舍入：会将结果朝负无限大的方向舍入。
朝0方向舍入：会将结果朝0的方向舍入。

浮点数的运算与函数

标准运算

下述函数必须提供:

加减乘除（Add、subtract、multiply、divide）。在加减运算中负零与零相等： $-0.0=0.0$
平方根（Square root）： ${\sqrt {x}}\geq 0(x\geq 0)$ ，另规定 ${\sqrt {-0.0}}=-0.0$
浮点余数。返回值 $x-(round(x/y)*y)$ 。
近似到最近的整数 $round(x)$ 。如果恰好在两个相邻整数之间，则近似到偶数。
比较运算. -Inf <负的规约浮点数数<负的非规约浮点数< -0.0 = 0.0 <正的非规约浮点数<正的规约浮点数< Inf；
特殊比较： -Inf = -Inf, Inf = Inf, NaN与任何浮点数（包括自身）的比较结果都为假，即 (NaN ≠ x) = false.

建议的函数与谓词

copysign(x, y): copysign(x, y)返回的值由x的不带符号的部分和y的符号组成。因此abs(x)等于copysign(x, 1.0)。copysign可以对NaN正确操作，这是少有的几个可以对NaN像普通算术一样操作有效的函数之一。C99新增了copysign函数。
−x:从涵义上指将x的符号反转。当x是±0或者NaN时，其涵义可能不同于0-x.
scalb(y, N):计算y×2^N（N是整数），无需再计算2^N。C99中对应的函数名是scalbn.
logb(x):计算x = 1.a×2ⁿ（x ≠ 0, a ∈[0, 1)）中的n. C99新增了logb和ilogb函数。
nextafter(x,y):沿y方向找最邻近x的可表达浮点数。比如nextafter(0, 1)得到的是最小可表达的正数。C99新增了nextafter函数。
finite(x):判断x是否有限，即−Inf < x < Inf. C99新增了isfinite函数。
isnan(x):判断x是否是一个NaN，这等价于"x ≠ x". C99新增了isnan函数。
x <> y:仅当x < y或者x > y时才为True，其涵义是NOT（x = y）。注意这不同于"x ≠ y"。
unordered(x, y):当x与y无法比较大小时为True，比如说x或者y是一个NaN. C99中对应的函数名是isunordered.
class(x):区分x的浮点数类属：发信NaN、静默NaN、-Inf、负的规约浮点数，负的非规约浮点数，-0.0,0.0，正的非规约浮点数，正的规约浮点数，Inf。

精度

在二进制，第一个有效数字必定是“1”，因此这个“1”并不会存储。

讨论一

单精和双精浮点数的有效数字分别是有存储的23和52个位，加上最左手边没有存储的第1个位，即是24和53个位。

\log 2^{24}=7.22

\log 2^{53}=15.95

由以上的计算，单精和双精浮点数可以保证7位和15位十进制有效数字。

讨论二

C++语言标准定义的浮点数的十进制精度(decimal precision)：十进制数字的位数，可被(浮点数)表示而值不发生变化^[3]。C语言标准定义的浮点数的十进制精度为：十进制数字的位数q，使得任何具有q位十进制数字的浮点数可近似表示为b进制的p位数字并且能近似回十进制表示而不改变这q位十进制数字^[4]。

但由于相对近似误差不均匀，有的7位十进制浮点数不能保证近似转化为32位元浮点再近似转化回7位十进制浮点后保持值不变：例如8.589973e9将变成8.589974e9。这种近似误差不会超过1位元的表示能力，因此(24-1)*std::log10(2)等于6.92，下取整为6，成为std::numeric_limits<float>::digits10以及FLT_DIG的值。std::numeric_limits<float>::max_digits10的值为9，含义是必须9位十进制数字才能区分float的所有值；也即float的最大表示区分度。

类似的，std::numeric_limits<double>::digits10或DBL_DIG是15， std::numeric_limits<double>::max_digits10是17。

例子

以下的C++程序，概略地展示了单精和双精浮点数的精度。

#include <iostream>

int main () {
    std::cout.precision(20);
    float a=123.45678901234567890;
    double b=123.45678901234567890;
    std::cout << a << std::endl;
    std::cout << b << std::endl;
    return 0;
}

// Xcode 5.1
// Output:
// 123.456787109375
// 123.45678901234568059
// Program ended with exit code: 0

外部链接

IEEE 754 references
Let's Get To The (Floating) Point by Chris Hecker
What Every Computer Scientist Should Know About Floating-Point Arithmetic by David Goldberg（页面存档备份，存于互联网档案馆） - a good introduction and explanation.
IEEE 854-1987（页面存档备份，存于互联网档案馆） History and minutes
Converter
Another Converter
Converter as MS-Windows program
Comparing doubles in C++
An Interview with the Old Man of Floating-Point（页面存档备份，存于互联网档案馆）
Coprocessor.info : x87 FPU pictures, development and manufacturer information

参考文献

^ Codes. [2007-04-30]. （原始内容存档于2006-09-23）（英语）.
^ 参见有符号数处理的Excess-N
^ 原文：Number of base 10 digits that can be represented without change
^ 原文：number of decimal digits, q, such that any floating-point number with q decimal digits can be rounded into a floating-point number with p radix b digits and back again without change to the q decimal digits.

[1] Codes. [2007-04-30]. （原始内容存档于2006-09-23）（英语）.

[2] 参见有符号数处理的Excess-N

[3] 原文：Number of base 10 digits that can be represented without change

[4] 原文：number of decimal digits, q, such that any floating-point number with q decimal digits can be rounded into a floating-point number with p radix b digits and back again without change to the q decimal digits.

[1]

[2]

[3]

[4]