详解:HTTP/HTTPS协议

发布于:2024-12-06 ⋅ 阅读:(91) ⋅ 点赞:(0)

HTTP协议

一.HTTP是什么

HTTP,全称超文本传输协议,是一种用于分布式、协作式、超媒体信息系统的应用层协议。HTTP往往是基于传输层TCP协议实现的,采用的一问一答的模式,即发一个请求,返回一个响应。

Q:什么是超文本?

A:文本就是HTML,css等,超文本更厉害,内容不仅有文本有的,还可以有图片视频音频等二级制数据。

Q:什么是应用层协议,什么是传输层协议?

TCP/IP协议是传输层协议,简单来说,这个协议只管传输,像是一个搬运工,不管对数据的加工和处理。而HTTP协议是应用层协议,其不关心内容是怎么传输的,只关心数据加工处理等操作。

二.HTTP协议格式

我们可以使用Fiddler等抓包工具来获取HTTP请求或响应的报文内容。

1.请求

下面是我们访问哔哩哔哩时的请求(太多展示不过来,删除了一部分,但不影响):

首行由三部分组成:方法+url+协议版本

header:请求的属性,冒号分割的键值对;每组属性之间使用\n分隔;遇到空行表示header部分结束,即body和header中间是有一行空行的,上面也特意展示出了这个细节。

Body:空行后面的内容都是Body;Body允许为空字符串;如果Body存在,则在header中会有⼀个 Content-Length属性来标识Body的长度;body可以是空的。

2.响应

我们对服务器发起请求,服务器会给我们响应,紧接着上面的访问哔哩哔哩的例子:

首行由三部分组成:版本号+状态码+状态码解释。

header:请求的属性,冒号分割的键值对;每组属性之间使用\n分隔;遇到空行表示header部分结束,即body和header中间是有一行空行的,上面也特意展示出了这个细节。

Body:空行后面的内容都是Body;Body允许为空字符串;如果Body存在,则在header中会有⼀个 Content-Length属性来标识Body的长度;如果服务器返回一个html页面,那么html页面内容就是在body中;body可以是空的。

三.HTTP请求

下面对上面请求报文内容中出现内容进行介绍。

1.url介绍

首先介绍一下url是什么。

url,全称统一资源定位符,也就是大家所谓的网址。下面是url的常见结构:

协议名:这个协议不一定的http协议,还可以是其他协议;可以省略,省略默认是http。

登录信息:一般省略,现在网站进行身份认证一般不通过url进行。

服务器地址:服务器的ip地址或域名,两者可以通过DNS域名解析系统完成相互转换。

端口号:区分应用程序,可以省略。

带层次的文件路径:用于访问某个主机上某个程序管理的某些资源,可以省略。

查询字符串:对访问资源的补充说明,使用键值对结构,键值对之间使用&分隔.键和值之间使用=分隔;可以省略,省略后相当于/. 。

片段标识符:主要用于页面内跳转,可以省略。

从上面我们可以看到一些特殊字符在url中已经被使用了,如果我们还想使用这些字符的话就要进行转义了。

转义的规则如下:将需要转码的字符转为16进制,然后从右到左,取4位(不足4位直接处理),每2位做一位,前面加上%,编码成%XY格式。

2.方法(method)

方法告诉服务器我们这次请求想要干什么。

方法 说明 支持的HTTP协议版本
GET 获取资源 1.0、1.1
POST 传输实体主体 1.0、1.1
PUT 传输文件 1.0、1.1
HEAD 获取报文首部 1.0、1.1
DELETE 删除服务器指定资源 1.0、1.1
OPTIONS 返回服务器所⽀持的请求⽅法 1.0
TRACE 回显服务器端收到的请求 1.0
CONNECT 要求用隧道协议连接代理 1.0
LINK 建立和资源之间的联系 1.0
UNLINK 断开连接关系 1.0

1)GET方法

使用的最多。首行的第一部分为GET;URL的查询字符串(query string)可以为空;body部分为空,如果需要GET给服务器发送一些数据,通过查询字符串传递过去。

2)POST方法

使用的比较少。首行的第一部分为POST;URL的查询字符串一般为空;body一般不为空。典型应用场景:登录和上传。

补充:GET和POST的区别:

两者没有本质区别,经常能够混用。从两个单词的语义可以得到GET的获取数据,而POST是提交数据;GET的body一般为空,需要传递的数据通过query string传递,POST的query string一般为空,需要传递的数据通过body传递;GET请求一般是幂等的,POST请求一般是不幂等的(如果多次请求得到的结果⼀样,就视为请求是幂等的);GET可以被缓存,POST不能被缓存。

3.报头(header)

header中使用了键值对结构,下面是报头种类:

1)Host:表示服务器主机的地址和端口;

2)Content-Length:表示body中的数据长度;

3)Content-Type:表示请求的body中的数据格式;

4)User-Agent:表示浏览器/操作系统的属性;

5)Referer:表示这个页面是从哪个页面跳转过来的;

6)Cookie:

Cookie是浏览器运行网页在本地硬盘存储数据的一种机制,这个数据可能是客户端(网页)自行通过JS写入的,也可能来自于服务器(服务器在HTTP响应的header中通过Set-Cookie字段给浏览器返回数据)(反正是程序员自行定义的),Cookie是按照键值对的方式来存储数据的,Cookie是按照域名维度来组织的。

每个不同的域名下都可以有不同的Cookie,不同网站之间的Cookie并不冲突。

浏览器保存了Cookie后,在后续给服务器发送请求的时候就会把这些Cookie键值对放到请求的header中传给服务器。一个典型的应用场景是登录认证,为什么不用每次来CSDN都要重新输入一遍账号密码,答案就在这。

四.状态码

用来表示访问一个页面的结果。下面是一些常见的状态码:

状态码 状态码解释 介绍
200 OK 表示访问成功
404 Not Found 没有找到资源
403 Forbidden 访问被拒绝,比如一些需要权限的页面
405 Method Not Allowed 不支持所有方法
500 Internal Server Error 服务器出现内部错误
504 Gateway Timeout 请求超时
302 Move temporarily 临时重定向
301 Moved Permanently 永久重定向

总结:

类别 原因
1XX informational(信息性状态码) 接收的请求正在处理
2XX Success(成功状态码) 请求正常处理完毕
3XX Redirection(重定向状态码) 需要进行附加操作以完成请求
4XX Client Error(客户端错误状态码) 服务器无法处理请求
5XX Server Error(服务器错误状态码) 服务器处理请求出错

HTTPS

一.HTTPS是什么

HTTPS是HTTP+SSL/TLS,本质也是应用层协议,只不过是在HTTP上加一个加密层。如果我们单使用HTTP协议进行通讯,黑客运营商等可以通过控制设备来获取我们的传输的数据,这是有很大的安全隐患的。因此我们引入了加密层来保证我们传数据是安全的。

二.HTTPS的工作过程

1.对称加密

对称加密就是通过同一个“密钥”,能把明文转化成密文,也能把密文转成明文。如果我们使用对称加密,那么我们双方都要知道密钥是什么。由于一个服务器要为很多个客户端提供服务,大家每个人都使用一个单独的密钥不太可能,那我们就需要在传输的时候把密钥也传过去。

但这又引出了一个新的问题,传输的时候传密钥,不就是把保险柜密码贴在保险柜上嘛,没用。因此我们要传密钥的话要对密钥进行加密。但问题又来了,给密钥加密了,那么密钥要谁解密呢?如果在传一个密钥,那不就成套娃了嘛,无穷无尽,密钥套密钥,最终总会有一个密钥没有被加密。

所以说我们要引入非对称加密。

2.非对称加密

非对称加密要用到两个密钥,一个公钥,一个私钥。公钥可以对明文加密,私钥可以对密文解密,反过来也是可以的,私钥可以对明文加密,公钥可以对密文解密。但这个方法有一个缺点就是效率太低了。

对此我们使用了对称加密和非对称加密的结合版。使用 非对称加密 去加密 对称加密 的密钥。

你以为这个就安全了吗?这里就要介绍一下中间人攻击力了。先给大家举一个生活中的例子。我们知道车钥匙通过向车发送电波可以控制车门的开关。我们怎么实现没有车钥匙也能打开车。

当车主人按下开门的按钮时,我们可以通过电波仪器收集车钥匙发送的电波,这时车主人可能以为刚刚没按上,一般会再按一次。这时,我们收集这次的开门电波,并将上次的开门电波发给车。这样我们就可以一直持有一个有效开门电波,可以把车主的车给开走了(bushi)。这就属于中间人攻击。

在非对称加密中,黑客可以劫持网络设备,当客户端通过网络设备向服务器获取公钥的时候,黑客可以截取这条信息,并自己生成一对公钥和私钥,将自己生成的公钥发回客户端。同时网络设备给服务器发请求获取公钥,服务器返回后将这个真公钥保存好。

客户端会将数据通过我们给它的假公钥加密,到了网络设备后,黑客可以通过自己生成的假密钥进行解密,这样就知道了客户端发送的数据是什么。我们再通过刚刚获得的真公钥加密数据与服务器通讯。服务器就会误以为黑客是客户端,将数据发给了网络设备,这样信息就泄露了。

那么没有办法了吗?其实不然,我们引入证书

证书是由第三方认证机构给服务器颁发的。在服务器搭建的时候,将服务器的域名、公钥等信息发给第三方认证机构生成数字证书,证书上记录了第三方认证机构和服务器的信息(域名、公钥)和数字签名(本质是校验和)。

数字签名是怎么产生的?认证机构会生成一对公钥(pub2)和私钥(pri2),使用证书中的关键信息生成校验和,再使用私钥(pri2)对这个校验和进行加密。

客户端获得证书后进行下面两次处理:

1)使用同样是算法对证书中的字段进行处理,获得校验和1;

2)通过认证机构提供的公钥(pub2)对数字签名进行解密,得到校验和2;

对比校验和1和校验和2是否相等,如果相等,说明证书没有被修改过;如果不相等,说明证书被人修改了。

Q:我们怎么保证我们用的公钥不是黑客生成的?

A:认证机构的公钥不是通过网络传输的,而是操作系统内置的。

Q:如果黑客修改了证书上的公钥呢?

A:如果修改了,那么校验和1就会变,与校验和2匹配不上。

Q:如果黑客自己伪造一个证书呢?

A:服务器在申请证书的时候会提交域名,域名会不同。


网站公告

今日签到

点亮在社区的每一天
去签到