HTTP消息由客户端到服务器的请求和服务器到客户端的响应组成。请求消息和响应消息都是由开始行(对于请求消息,开始行就是请求行,对于响应消息,开始行就是状态行),消息报头,空行(只有CRLF的行),消息正文(可选)组成。

HTTP消息报头包括通用报头、请求报头、响应报头、实体报头。每一个报头域都是由名字+“:”+空格+值组成,消息报头域的名字是大小写无关的。

1       请求消息格式

HTTP请求内容由三部分组成:请求行、消息头(报头)、可选的请求正文(信息体)

1.1    请求行格式:

请求行必须是放在所有内容的最前面,并且必须以换行回车符结束,格式如下:

Method<空格>Request-URI<空格>HTTP/Version<换行回车符>

1.2    Method:

表示对于Request-URI完成的方法,这个字段是大小写敏感的,有OPTIONS、GET、HEAD、POST、PUT、DELETE、 TRACE。方法GET和HEAD应该被所有的通用WEB服务器支持,其他所有方法的实现是可选的。GET方法取回由Request-URI标识的信息。 HEAD方法也是取回由Request-URI标识的信息,只是可以在响应时,不返回消息体。POST方法可以请求服务器接收包含在请求中的实体信息,可以用于提交表单,发送消息等

1.3    Request-URI:

遵循URI格式,在此字段为星号(*)时,说明请求并不用于某个特定的资源地址,而是用于服务器本身

1.4    HTTP/Version

表示支持的HTTP版本,例如为HTTP/1.1。CRLF表示换行回车符。

2       响应消息格式

HTTP响应内容也是由三个部分组成:响应(状态)行、消息报头、响应正文,响应行必须是放在所有内容的最前面,并且必须以换行回车符结束

2.1    响应行格式:

HTTP/Version<空格>Status-Code<空格>Reason-Phrase<换行回车符>

2.2    HTTP/Version

表示支持的HTTP版本,例如为HTTP/1.1。

2.3    Status- Code

是一个三位数字组成的结果代码(状态码)。Status-Code的第一个数字定义响应的类别,后两个数字没有分类的作用。第一个数字可能取5个不同的值:

1xx:信息响应类,表示接收到请求并且继续处理

2xx:处理成功响应类,表示动作被成功接收、理解和接受

3xx:重定向响应类,为了完成指定的动作,必须接受进一步处理

4xx:客户端错误,客户请求包含语法错误或者是不能正确执行

5xx:服务端错误,服务器不能正确执行一个正常的请求

 

常见状态代码、状态描述、说明:

200 OK       //客户端请求成功

400 Bad Request   //客户端请求有语法错误,不能被服务器所理解

401 Unauthorized //请求未经授权,这个状态代码必须和WWW-Authenticate报 头域一起使用

403 Forbidden   //服务器收到请求,但是拒绝提供服务

404 Not Found   //请求资源不存在,eg:输入了错误的URL

500 Internal Server Error //服务器发生不可预期的错误

503 Server Unavailable   //服务器当前不能处理客户端的请求,一段时间后,可能恢复正常

2.4    Reason-Phrase

状态描述,主要用于帮助用户理解。

3       通用头域

通用头域包含请求和响应消息都支持的头域,通用头域包含Cache-Control、 Connection、Date、Pragma、Transfer-Encoding、Upgrade、Via。对通用头域的扩展要求通讯双方都支持此扩展,如果存在不支持的通用头域,一般将会作为实体头域处理。

3.1    Cache-Control头域

Cache -Control指定请求和响应遵循的缓存机制。在请求消息或响应消息中设置 Cache-Control并不会修改另一个消息处理过程中的缓存处理过程。请求时的缓存指令(值)包括no-cache、no-store、max-age、 max-stale、min-fresh、only-if-cached,响应消息中的指令包括public、private、no-cache、no- store、no-transform、must-revalidate、proxy-revalidate、max-age。各个消息中的指令含义如下:

Public:指示响应可被任何缓存区缓存。

Private:指示对于单个用户的整个或部分响应消息,不能被共享缓存处理。这允许服务器仅仅描述当用户的部分响应消息,此响应消息对于其他用户的请求无效。

no-cache:指示请求或响应消息不能缓存

no-store:用于防止重要的信息被无意的发布。在请求消息中发送将使得请求和响应消息都不使用缓存。

max-age:指示客户机可以接收生存期不大于指定时间(以秒为单位)的响应。

min-fresh:指示客户机可以接收响应时间小于当前时间加上指定时间的响应。

max-stale:指示客户机可以接收超出超时期间的响应消息。如果指定max-stale消息的值,那么客户机可以接收超出超时期指定值之内的响应消息。

3.2    Date头域

Date头域表示消息发送的时间,时间的描述格式由rfc822定义。例如,Date:Mon,31Dec200104:25:57GMT。Date描述的时间表示世界标准时,如果换算成本地时间,需要知道用户所在的时区。

3.3      Pragma头域

Pragma头域用来包含实现特定的指令,最常用的是Pragma:no-cache。在HTTP/1.1协议中,它的含义和Cache- Control:no-cache相同。

3.4    Range头域

Range头域可以请求实体的一个或者多个子范围。例如:

表示头500个字节:bytes=0-499

表示第二个500字节:bytes=500-999

表示最后500个字节:bytes= -500

表示500字节以后的范围:bytes=500-

第一个和最后一个字节:bytes=0-0,-1

同时指定几个范围:bytes=500-600,601-999

但是服务器可以忽略此请求头,如果无条件GET包含Range请求头,响应会以状态码206(PartialContent)返回而不是以200 (OK)。

4       请求头域:

允许客户端向服务器传递关于请求或者关于客户机的附加。请求头域可能包含下列字段Accept、Accept-Charset、Accept- Encoding、Accept-Language、Authorization、From、Host、If-Modified-Since、If- Match、If-None-Match、If-Range、If-Range、If-Unmodified-Since、Max-Forwards、 Proxy-Authorization、Range、Referer、User-Agent。对请求头域的扩展,要求通讯双方都支持,如果存在不支持的请求头域,一般将会作为实体头域处理。

4.1    Host头域

Host头域指定请求资源的Intenet主机和端口号,必须表示请求url的原始服务器或网关的位置。HTTP/1.1请求必须包含主机头域,否则系统会以400状态码返回。

4.2    Referer头域

Referer 头域允许客户端指定请求uri的源资源地址,这可以允许服务器生成回退链表,可用来登陆、优化cache等。也允许废除的或错误的连接由于维护的目的被追踪。如果请求的uri没有自己的uri地址,Referer不能被发送。如果指定的是部分uri地址,则此地址应该是一个相对地址。

4.3      User-Agent头域

User-Agent头域的内容包含发出请求的用户信息。

5       请求消息头示例:

GET http://www.ebdoor.com:80/ HTTP/1.0

Host: www.ebdoor.com

Accept:*/*

Pragma: no-cache

Cache-Control: no-cache

Referer: http://www.ebdoor.com/

User-Agent:Mozilla/4.0(…)

Range:bytes=554554-

 

消息体….

 

上例第一行表示HTTP客户端(可能是浏览器、下载程序)通过GET方法获得指定URL下的文件。绿色的部分表示请求头域的信息,兰色的部分表示通用头部分。

6       响应头域

响应头域允许服务器传递不能放在状态行的附加信息,这些域主要描述服务器的信息和 Request-URI进一步的信息。响应头域包含Age、Location、Proxy-Authenticate、Public、Retry- After、Server、Vary、Warning、WWW-Authenticate。对响应头域的扩展要求通讯双方都支持,如果存在不支持的响应头域,一般将会作为实体头域处理。

6.1    Location响应头域

Location响应头用于重定向接收者到一个新URI地址。

6.2    Server响应头域

Server响应头包含处理请求的原始服务器的软件信息。此域能包含多个产品标识和注释,产品标识一般按照重要性排序。

7       实体内容

指在头域结束空行后的所有内容,请求消息和响应消息都可以包含实体信息,实体可以是一个经过编码的字节流,它的编码方式由实体头域中的Content-Encoding或Content-Type定 义,它的长度由Content-Length或Content-Range定义。

8       实体头域

实体头域描述实体的信息,实体头包括Allow、Content- Base、Content-Encoding、Content-Language、 Content-Length、Content-Location、Content-MD5、Content-Range、Content-Type、 Etag、Expires、Last-Modified、extension-header。extension-header,允许客户端定义新的实体头,但是这些域可能无法被接受方识别。

8.1    Content-Type实体头

Content-Type实体头用于向接收方指示实体的介质类型,指定HEAD方法送到接收方的实体介质类型,或GET方法发送的请求介质类型 Content-Range实体头

8.2    Content-Range

指示了整个实体的长度。在服务器向客户返回一个部分响应,它必须描述响应覆盖的范围和整个实体长度。一般格式:

Content-Range:bytes-unit<空格>first-byte-pos-last-byte-pos/entity-legth

例如,传送头500个字节次字段的形式:Content-Range:bytes0- 499/1234如果一个http消息包含此节(例如,对范围请求的响应或对一系列范围的重叠请求),Content-Range表示传送的范围,

8.3    Content-Length

表示实际传送的字节数。只有当浏览器使用持久HTTP连接时才需要这个数据。如果你想要利用持久连接的优势,可以把输出文档写入 ByteArrayOutputStram,完成后查看其大小,然后把该值放入Content-Length头,最后通过 byteArrayStream.writeTo(response.getOutputStream()发送内容。

8.4    Allow

服务器支持哪些请求方法(如GET、POST等)。

8.5    Content-Encoding

文档的编码(Encode)方法。只有在解码之后才可以得到Content-Type头指定的内容类型。利用gzip压缩文档能够显着地减少HTML文档的下载时间。Java的GZIPOutputStream可以很方便地进行gzip压缩,但只有Unix上的Netscape和Windows上的IE 4、IE 5才支持它。因此,Servlet应该通过查看Accept-Encoding头(即request.getHeader(“Accept- Encoding”))检查浏览器是否支持gzip,为支持gzip的浏览器返回经gzip压缩的HTML页面,为其他浏览器返回普通页面。

8.6      Expires

一个条件GET,只有改动时间迟于指定时间的文档才会返回,否则返回一个304(Not Modified)状态。应该在什么时候认为文档已经过期,从而不再缓存它。

9       响应消息示例:

HTTP/1.0 200 OK

Date:Mon,31Dec200104:25:57GMT

Server:Apache/1.3.14(Unix)

Content-type:text/html

Last-modified:Tue,17Apr200106:46:28GMT

Content-length:4359

Content-range:bytes554554-40279979/40279980

 

响应消息体…

 

上例第一行表示HTTP服务端响应一个GET方法。绿色的部分表示响应头域的信息,兰色的部分表示通用头部分,红色的部分表示实体头域的信息。

 

西南三少整理于2008-1-17

Tagged on:

2 thoughts on “HTTP 协议的内容格式

发表评论