学过编程语言的都知道,浮点型是有精度问题的。(说人话它实际值与我们想要存入的的值是有细微误差的)。接下来我的讲解将让你对于浮点型的了解更加深入。
废话不多说,先看一个例子。(基于C语言)
c语言中浮点型有两种
1.单精度浮点型(float)
2.双精度浮点型(double)
先看一段代码
#include <stdio.h>
int mian(){
float a = 0.1f; //以单精度浮点型的方式初始化 单单一个小数,是会被默认为double类型的。
double b = 0.1;
printf("%.30f\n",a);//以单精度浮点型输出并保留30位小数
printf("%.30lf\n"); //以双精度浮点型输出并保留30位小数
}
输出结果
单单从结果上看,同是浮点型,double 和 float也是有区别的,而且可以看出double比float精度要高。
接下来我来给大家解释一下浮点型为什么表现出这样的特性呢。
首先看一段话
浮点数在计算机内部的表现方法:
根据国际标准IEEE(电气和电子工程协会)754,任意一个二进制浮点数V可以表示成下面的形式:
(-1)^S* M * 2^E
(-1)^s表示符号位,当S=0,V为正数;当s=1,V为负数。
M表示有效数字,大于等于1,小于2。
2^E表示指数位。
举例来说:十进制的5.0,写成二进制是101.0,相当于1.01*2^2。那么,按照上面v的格式,可以得出s = 0, M = 1.01, E = 2。
十进制的-5.0,写成二进制是-101.0,相当于-1.01*2^2。那么,S = 1,M = 1.01, E = 2。
接下来我将用画图的方式给未来大🐮们讲解一下这个标准。
EEE 754规定:对于32位的浮点数,最高的1位是符号位s,接着的8位是指数E,剩下的23位为有效数字M。
如图:
(-1)^S* M * 2^E
IEEE 754对有效数字M和指数E,还有一些特别规定。前面说过,1< M(有效数字)<2,也就是说,M可以写成 1.xxxxxx 的形式,其中Xxxxxx表示小数部分。
IEEE 754规定,在计算机内部保存M时,默认这个数的第一位总是1,因此可以被舍去,只保存后面的xxxx部分。比如保存1.01的时候,只保存01,等到读取的时候,再把第一位的1加上去。这样做的目的,是节省1位有效数字。(最初设计计算机的那帮人物,总是想方设法更有效的利用计算机)
以32位浮点数为例,留给M只有23位,将第一位的1舍去以后,等于可以保存24位有效数字。(这样精度也就提高了, 数据相对更精确)。
至于指数E,情况就比较复杂。
首先,E为一个无符号整数(unsigned int )这意味着,如果E为8位,它的取值范围为0-255;如果E为11位,它的取值范围为0~2047。但是,我们知道,科学计数法中的E是可以出现负数的,所以IEEE 754规定,存入内存时E的真实值必须再加上一个中间数,对于8位的E,这个中间数是127;对于11位的E,这个中间数是1023。比如,2^10的E 是10,所以保存成32位浮点数时,必须保存成10+127=137,即10001001。(再比如十进制0.5 = (-1)^0 * 1.0 * 2^-1 所以保存成32位浮点数时,必须保存成 -1 + 127 = 126,即 01111110)。
回归文章最初,我们以十进制0.1为例
我们可以通过进制转换工具知道:如图
转换结果我们又可以写成1.100110011.... * 2^-4 (对应于标准 S = 0,M = 1.100110011.... , E(真实值) = -4 )
因为E的标准 所以E在内存中存储的是 -4 + 127 = 123 对应的二进制 01111011
所以在内存中十进制0.1以单精度浮点型(float)被存储为:如图
重点:有效数字M末尾一位是要根据情况进位的(后一位为1则截断的位置要进位)
对于有效数字M其实就是如下图(这串数字是十进制的0.1在二进制中的表现方式)
到此我们对于单精度浮点数如何存就已经讲完了,接下来就是取出来。
对于取:指数E从内存中取出还可以再分成三种情况:
E不全为0或不全为1
这时,浮点数就采用下面的规则表示,即指数E的计算值减去127(或1023),得到真实值,再将有效数字M前加上第一位的1。比如:0.5(1/2)的二进制形式为0.1,由于规定正数部分必须为1,即将小数点右移1位, 则为1.0*2^(-1),其阶码为-1+127=126, 表示为01111110,而尾数1.0去掉整数部分为0,补齐0到23位 00000000000000000000000,则其二进制表示形式为:
0 01111110 00000000000000000000000
E全为0 (真实值 + 127 == 0 )
这时,浮点数的指数E等于1-127(或者1-1023)即为真实值,有效数字M不再加上第一位的1,而是还原为 0。xxxxxx的小数。这样做是为了表示土0,以及接近于0的很小的数字。(真实值 为-127 也就是 2^-127 这个数非常非常的小)
E全为1 (真实值 + 127 == 255)
这时,如果有效数字M全为0,表示正负无穷大(正负取决于符号位s)(真实值 为128 也就是 2^128 这个数非常非常的大)
此时我们回归文章开头。
#include <stdio.h>
int mian(){
float a = 0.1f; //以单精度浮点型的方式初始化 单单一个小数,是会被默认为double类型的。
double b = 0.1;
printf("%.30f\n",a);//以单精度浮点型输出并保留30位小数
printf("%.30lf\n"); //以双精度浮点型输出并保留30位小数
}
输出结果
十进制0.1以单精度浮点型(float)存储:
我们计算一下这个二进制。
S = 0
E = 真实值 + 127 = (二进制)01111011 = 123 真实值 - 4
M = 1.10011001100110011001101 ( 1.有效数字)
代入标准公式 (-1)^S* M * 2^E = 2^-4 * M = 0.000110011001100110011001101(二进制)
转换为十进制
对比转换结果(四舍五入)和我们输出的第一行是一致的
至此单精度浮点型在内存上的本质就讲完了。而对于双精度浮点型是雷同的。仅仅只是E(指数位)和M(有效数字)的位数不同。
如图:
可以看到双精度的有效数字位数非常的长有52位,这也就是双精度浮点型更精确的原因所在。
而对于双精度浮点型的存与单精度浮点型存取换汤不换药,所以我坚信你通过单精度的例子能够明白双精度如何存取。我就不再赘述。
这是我第一次写博客,如果在布局排版或者其它方面有什么让您感到不舒服的地方,欢迎您指出,或者文章有讲的不好或者错误的地方,请您不吝赐教,指出我的错误,这将对我提供很大的帮助,谢谢!