浮点型深度解刨

发布于:2022-10-14 ⋅ 阅读:(302) ⋅ 点赞:(0)

        学过编程语言的都知道,浮点型是有精度问题的。(说人话它实际值与我们想要存入的的值是有细微误差的)。接下来我的讲解将让你对于浮点型的了解更加深入。

        废话不多说,先看一个例子。(基于C语言)

c语言中浮点型有两种

1.单精度浮点型(float)

2.双精度浮点型(double)

先看一段代码



#include <stdio.h>


int mian(){

    float a = 0.1f; //以单精度浮点型的方式初始化 单单一个小数,是会被默认为double类型的。
    double b = 0.1; 

    printf("%.30f\n",a);//以单精度浮点型输出并保留30位小数
    printf("%.30lf\n"); //以双精度浮点型输出并保留30位小数

}

输出结果

 单单从结果上看,同是浮点型,double 和 float也是有区别的,而且可以看出double比float精度要高。

接下来我来给大家解释一下浮点型为什么表现出这样的特性呢。

首先看一段话 

浮点数在计算机内部的表现方法:

根据国际标准IEEE(电气和电子工程协会)754,任意一个二进制浮点数V可以表示成下面的形式:

(-1)^S* M * 2^E

(-1)^s表示符号位,当S=0,V为正数;当s=1,V为负数。

M表示有效数字,大于等于1,小于2。

2^E表示指数位。

举例来说:十进制的5.0,写成二进制是101.0,相当于1.01*2^2。那么,按照上面v的格式,可以得出s = 0, M = 1.01, E = 2。

十进制的-5.0,写成二进制是-101.0,相当于-1.01*2^2。那么,S = 1,M = 1.01, E = 2。

接下来我将用画图的方式给未来大🐮们讲解一下这个标准。

EEE 754规定:对于32位的浮点数,最高的1位是符号位s,接着的8位是指数E,剩下的23位为有效数字M。

如图:

 

(-1)^S* M * 2^E

IEEE 754对有效数字M和指数E,还有一些特别规定。前面说过,1< M(有效数字)<2,也就是说,M可以写成 1.xxxxxx 的形式,其中Xxxxxx表示小数部分。

IEEE 754规定,在计算机内部保存M时,默认这个数的第一位总是1,因此可以被舍去,只保存后面的xxxx部分。比如保存1.01的时候,只保存01,等到读取的时候,再把第一位的1加上去。这样做的目的,是节省1位有效数字。(最初设计计算机的那帮人物,总是想方设法更有效的利用计算机)

以32位浮点数为例,留给M只有23位,将第一位的1舍去以后,等于可以保存24位有效数字。(这样精度也就提高了, 数据相对更精确)。

至于指数E,情况就比较复杂。

首先,E为一个无符号整数(unsigned int )这意味着,如果E为8位,它的取值范围为0-255;如果E为11位,它的取值范围为0~2047。但是,我们知道,科学计数法中的E是可以出现负数的,所以IEEE 754规定,存入内存时E的真实值必须再加上一个中间数,对于8位的E,这个中间数是127;对于11位的E,这个中间数是1023。比如,2^10的E 是10,所以保存成32位浮点数时,必须保存成10+127=137,即10001001。(再比如十进制0.5 = (-1)^0 * 1.0 * 2^-1  所以保存成32位浮点数时,必须保存成  -1 + 127 = 126,即 01111110)。

回归文章最初,我们以十进制0.1为例

我们可以通过进制转换工具知道:如图

 

 

转换结果我们又可以写成1.100110011.... * 2^-4 (对应于标准 S = 0,M = 1.100110011.... , E(真实值) = -4 )

因为E的标准 所以E在内存中存储的是 -4 + 127 = 123   对应的二进制 01111011

 

所以在内存中十进制0.1以单精度浮点型(float)被存储为:如图

重点:有效数字M末尾一位是要根据情况进位的(后一位为1则截断的位置要进位)

对于有效数字M其实就是如下图(这串数字是十进制的0.1在二进制中的表现方式)

 

到此我们对于单精度浮点数如何存就已经讲完了,接下来就是取出来。

对于取:指数E从内存中取出还可以再分成三种情况:

E不全为0或不全为1
这时,浮点数就采用下面的规则表示,即指数E的计算值减去127(或1023),得到真实值,再将有效数字M前加上第一位的1。比如:0.5(1/2)的二进制形式为0.1,由于规定正数部分必须为1,即将小数点右移1位, 则为1.0*2^(-1),其阶码为-1+127=126, 表示为01111110,而尾数1.0去掉整数部分为0,补齐0到23位 00000000000000000000000,则其二进制表示形式为:

0 01111110 00000000000000000000000 

E全为0 (真实值 + 127 == 0 )

这时,浮点数的指数E等于1-127(或者1-1023)即为真实值,有效数字M不再加上第一位的1,而是还原为 0。xxxxxx的小数。这样做是为了表示土0,以及接近于0的很小的数字。(真实值 为-127  也就是 2^-127 这个数非常非常的小)

E全为1 (真实值 + 127 == 255)

这时,如果有效数字M全为0,表示正负无穷大(正负取决于符号位s)(真实值 为128  也就是 2^128 这个数非常非常的大)

此时我们回归文章开头。



#include <stdio.h>


int mian(){

    float a = 0.1f; //以单精度浮点型的方式初始化 单单一个小数,是会被默认为double类型的。
    double b = 0.1; 

    printf("%.30f\n",a);//以单精度浮点型输出并保留30位小数
    printf("%.30lf\n"); //以双精度浮点型输出并保留30位小数

}

输出结果

十进制0.1以单精度浮点型(float)存储:

我们计算一下这个二进制。

S = 0

E = 真实值 + 127 = (二进制)01111011 = 123   真实值 - 4

M = 1.10011001100110011001101 ( 1.有效数字) 

代入标准公式  (-1)^S* M * 2^E  =  2^-4 * M =  0.000110011001100110011001101(二进制)

转换为十进制

对比转换结果(四舍五入)和我们输出的第一行是一致的

至此单精度浮点型在内存上的本质就讲完了。而对于双精度浮点型是雷同的。仅仅只是E(指数位)和M(有效数字)的位数不同。

如图:

可以看到双精度的有效数字位数非常的长有52位,这也就是双精度浮点型更精确的原因所在。

而对于双精度浮点型的存与单精度浮点型存取换汤不换药,所以我坚信你通过单精度的例子能够明白双精度如何存取。我就不再赘述。

        这是我第一次写博客,如果在布局排版或者其它方面有什么让您感到不舒服的地方,欢迎您指出,或者文章有讲的不好或者错误的地方,请您不吝赐教,指出我的错误,这将对我提供很大的帮助,谢谢!

本文含有隐藏内容,请 开通VIP 后查看