网站首页 > 技术教程 正文
HTTP(HyperText Transfer Protocol)是超文本传输协议。它是应用层协议,同其他应用层协议一样,是为了实现某一类具体应用的协议,并由某一运行在用户空间的应用程序来实现其功能。 HTTP 是一种协议规范,这种规范记录在文档上,为真正通过 HTTP 进行通信的 HTTP 的实现程序。
HTTP 包含命令和传输信息,不仅可用于Web 访问,也可用于其他因特网,内联网应用系统之间的通信,从而实现各类应用资源超媒体访问的集成。
HTTP 也是一个客户端、服务器端请求和应答的标准(TCP)。客户端是终端用户,服务器端 是网站。通过使用 Web 浏览器、网络爬虫或其他工具,客户端发起一个到服务器上指定端口(默 认端口为 80)的 HTTP 请求。当在浏览器的地址框中输入一个 URL 或是单击一个超级链接时, URL 就确定了要浏览的地址。浏览器通过超文本传输协议(HTTP),将 Web 服务器上站点的网页 代码提取出来,并翻译成漂亮的网页。
HTTP 是基于客户 / 服务器模式,且面向连接的。HTTP 定义了 Web 客户端如何从 Web 服务器 请求 Web 页面,以及服务器如何把 Web 页面传送给客户端。HTTP 采用了请求 / 响应模型。客户 端向服务器发送一个请求,请求中包含请求的方法、URL、协议版本、请求头部和请求数据。服 务器以一个状态行作为响应,响应的内容包括协议的版本、成功或错误代码、服务器信息、响应 头部和响应数据。
典型的 HTTP 请求 / 响应的处理步骤如下:
(1)客户端与 Web 服务器建立连接:一个 HTTP 客户端,通常是浏览器,与 Web 服务器的 HTTP 端口(默认为 80)建立一个 TCP 连接。例如,https://www.baidu.com。
(2)客户端向 Web 服务器发送 HTTP 请求:通过 TCP 连接,客户端向 Web 服务器发送一个 文本的请求,该请求头由请求行、请求头部、空行和请求数据四部分组成。
(3)Web 服务器接收请求并返回相应的文件作为应答:Web 服务器解析请求,定位请求资源。 服务器将资源复本写到 TCP,由客户端读取。一个响应头由状态行、响应头部、空行和响应数据 四部分组成。
(4)客户端与 Web 服务器关闭连接:如果 connection 模式为 close,则服务器主动关闭 TCP 连 接,客户端被动关闭连接,释放 TCP 连接;如果 connection 模式为 keep-alive,则该连接会保持一 段时间,在该时间内可以继续接收请求。 (5)客户端浏览器解析 HTML 内容:客户端浏览器首先解析状态行,查看请求是否成功的状 态代码。然后解析每一个响应头,客户端浏览器读取响应数据 HTML,根据 HTML 的语法对其进 行格式化,并在浏览器窗口中显示。
HTTP/1.1 中共定义了 8 种方法来以不同方式操作指定的资源。GET 和 POST 是最常见的 HTTP 方法。此外,还包括 DELETE、HEAD、OPTIONS、PUT、TRACE 和 CONNECT 方法。 这里介绍一下常用的 HTTP 方法,其对爬取网页有很大的作用。
(1)GET 请求方式:使用 GET 方法时,请求参数和对应的值附加在 URL 后面,利用一个“?” 11 Scrapy 网络爬虫知识介绍 第 2 章 代表 URL 的结尾及附带参数的开始,参数用 key=value 键值对的方式书写,参数和参数之间用“&” 符号隔开。一般 GET 请求参数的大小受限,最大不超过 1024。由于参数明文地显示在了 URL 上面, 因此不太适合传递私密的数据。
(2)POST请求方式:POST方法将请求参数封装在HTTP请求的请求体中,以名称/值的形式出现, 可以传输大量的数据,在 URL 中看不到具体的请求数据,比较安全,适合数据量大的数据发送。 POST 请求一般用于表单数据的提交或上传文件。
HTTP 状态码由 3 个十进制数字组成,第一个十进制数字定义了状态码的类型,后两个十进制 数字没有分类的作用。HTTP 状态码表示请求是否被理解或被满足。HTTP 状态码共分为 5 种类型:
(1)1xx :信息性状态码,表示接收的请求正在处理。
(2)2xx :成功状态码,表示请求已被成功地接收并处理。
(3)3xx :重定向状态码,表示需要进行附加操作才能完成请求。
(4)4xx :客户端错误状态码,表示请求有语法错误或请求无法实现
(5)5xx :服务器错误状态码,表示服务器在处理请求的过程中发生了错误。
下面是常见的 HTTP 状态码:
(1)200 :客户端请求成功。
(2)301 :永久性重定向。该状态码表示请求的资源已被分配了新的 URL,以后应使用资源 现在所指的 URL。
(3)303 :该状态码表示由于请求对应的资源存在着另一个 URL,应使用 GET 方法定向获取 请求的资源。
(4)400 :服务器未能理解请求。
(5)403 :对被请求页面的访问被禁止。
(6)404 :服务器无法找到被请求的页面。
(7)500 :服务器发生不可预期的错误,即内部服务器错误。
(8)503 :请求未完成。服务器临时过载或宕机,不能处理客户端的请求。一段时间后可能会 恢复正常。
猜你喜欢
- 2024-10-02 网络请求返回HTTP状态码(404,400,500)
- 2024-10-02 那些代表性的HTTP状态码,你还只知道404吗?快来看看吧
- 2024-10-02 重温HTTP,你到底做了什么? 重温张柏芝引用2008
- 2024-10-02 最近发现室友看电脑鬼鬼祟祟,利用python几行代码窥探室友电脑
- 2024-10-02 Kong Gateway 身份验证 gateway登录验证
- 2024-10-02 HTTP请求状态码 请求失败状态码为412
- 2024-10-02 一文读懂HTTP常见状态码 http常见状态码
- 2024-10-02 http 请求方法以及返回状态码的类型和含义
- 2024-10-02 HTTP状态码常见的网站错误代码大全
- 2024-10-02 趣味图解HTTP状态码的含义 位置度标注及含义图解
你 发表评论:
欢迎- 最近发表
-
- 函数公式的7大潜规则,这次给你讲透了
- 数据逆向查找不止有vlookup,你该知道的三种逆向查询操作
- Vlookup函数怎么一次查找能返回多个结果?
- vlookup函数的嵌套你用过吗?一次可以引用3个表格的数据
- Vlookup函数的新用法,查询合并单元格,很多Excel高手都不知道
- 分明有数据,公式也没错,为什么vlookup还是会返回错误值
- 条件判断还在用if函数就out了,vlookup函数模糊查询一键完成
- EXCEL函数 VLOOKUP函数 HLOOKUP函数
- excel中vlookup函数的用法(excel中vlookup函数公式)
- 自动获取vlookup函数的第三参数,再也不用一列一列的数了
- 标签列表
-
- sd分区 (65)
- raid5数据恢复 (81)
- 地址转换 (73)
- 手机存储卡根目录 (55)
- tcp端口 (74)
- project server (59)
- 双击ctrl (55)
- 鼠标 单击变双击 (67)
- debugview (59)
- 字符动画 (65)
- flushdns (57)
- ps复制快捷键 (57)
- 清除系统垃圾代码 (58)
- web服务器的架设 (67)
- 16进制转换 (69)
- xclient (55)
- ps源文件 (67)
- filezilla server (59)
- 句柄无效 (56)
- word页眉页脚设置 (59)
- ansys实例 (56)
- 6 1 3固件 (59)
- sqlserver2000挂起 (59)
- vm虚拟主机 (55)
- config (61)
本文暂时没有评论,来添加一个吧(●'◡'●)