web协议进化史

摘要[TOC]

本文中的实例，大部分是用Python实现的

常用web服务器[TOC]

Apache
Nginx的重要分支
- 开源Nginx
- Nginx官方推出的收费产品：Nginx+（在原生Nginx上增加了很多功能）
- 在国内，Nginx还有一个重要的fork版本：Tengine
- Nginx还有一个广受欢迎的bundle版本：Openresty
PHP-FPM
- PHP的FastCGI管理器
Uwsgi & Gunicorn
- Python的WSGI服务器
Tomcat
- Java的Servlet引擎

并发模型（强烈建议阅读）[TOC]

Apache的并发模型，请参考：http://blog.jobbole.com/91920/
Nginx的并发模型，请参考：http://blog.csdn.net/chosen0ne/article/details/7304192

协议进化史[TOC]

CGI -> Apache Mod_* -> FastCGI -> (Servlet、WSGI等)

CGI协议[TOC]

CGI是一个非常古老的协议，因为性能问题，现在基本没人使用CGI了。同时，出于安全性考虑，Nginx并不支持运行外部程序，所以Nignx原生是不支持CGI的，为了测试，我们先安装支持CGI的Apache（本文是在CentOS7下测试的）：

sudo yum install -y httpd httpd-devel httpd-tools

Apache的默认配置文件在：/etc/httpd/conf/httpd.conf。下面看一些主要配置：

ServerRoot
它是目录树的根，配置文件中所有的相对路径都是相对该路径的。该路径不能以/结尾。
Listen
用来指定Apache将要绑定的ip地址和端口。比如Listen 80;、Listen 127.0.0.1:80;。
可以指定多次，也就是绑定多个socket。
LoadModule
在使用某个模块的功能之前，应该使用LoadModule foo_module modules/mod_foo.so指令加载它。静态编译的模块（可以通过httpd -l列出），无需在此指定。

主服务器 配置：
接下来的这些指令用来设置主服务器所使用的配置，主服务器负责处理所有没有被任何虚拟主机处理的请求。同时，这些配置也负责为虚拟主机的配置提供默认值。
这些指令也可以出现在<VirtualHost>标签中，此时，它们会覆盖从主服务器继承来的默认值。

ServerAdmin
用来指定管理员的邮箱。在一些Apache生成的页面中，会用到这个地址。
ServerName
设置服务器用于辨识自己的主机名和端口号。当没有指定ServerName时，服务器会尝试对ip地址进行逆向查询来推断主机名。如果没有指定端口号，服务器会使用接收请求的那个端口。
为了防止在启动期间出现问题，最好显示的指定ServerName。
如果IP地址没有绑定域名的话，那么应该使用ip地址。
DocumentRoot（相当于Nginx的root指令）
虚拟根目录。如果其值不是绝对路径，那么假定其为相对于ServerRoot的路径。
在没有指定Alias这类指令的情况下，服务器会将请求的URI附加到DocumentRoot后，以构成文档的路径。
<Directory>
用于封装一组指令，使之对目录及其子目录生效。语法是：<Directory Directory-path>...</Directory>。
其中Directory-path既可以是常规路径，也可以是正则表达式，当它是正则表达式时，应该放在“~”后面，在正则表达式中，可以使用Unix Shell中的元字符：
- ?表示任意单个字符
- *表示任意字符序列
- [...]用于匹配字符集中的任一字符
<Files>
提供基于文件名的访问控制，与<Directory>和<Location>类似。
<IfModule>
根据指定的模块是否启用，而决定指令是否生效。
Options
控制在目录中使用哪些服务器特性。
语法是：Options [+|-]option1 [+|-]option2 ...。
option的取值如下：
- None表示不开启任何特性
- All表示除了MultiViews之外的所有特性（默认值）
- ExecCGI表示允许mod_cgi执行CGI可执行程序
- FollowSymLinks表示允许在目录中使用符号链接
- Indexes当一个URI映射到一个目录时，并且该目录没有指定DirectoryIndex(例如：index.html)时，那么会返回由mod_autoindex生成的目录列表
- ...
- 更多请移步参考文档1
.htaccess文件
是一种改变（比如覆盖，新增）目录的配置的方式。
更多请移步参考文档2
AllowOverride
用于指定 允许在.htaccess文件中使用的指令类型。
- None表示完全忽略.htaccess文件（可提升性能）
- All表示所有具有.htaccess作用域的指令都可以出现在.htaccess文件中
- AuthConfig表示允许使用与认证授权相关的指令
- FileInfo表示允许使用控制文档类型的指令、控制文档元数据的指令、mod_rewrite中的指令、mod_actions中的Action指令
- ...
- 更多请移步参考文档1
Alias（别名，相当于Nginx的alias指令）
用于将URI映射到文件系统的指定区域。比如：
Alias /images/poweredby.png /usr/share/httpd/noindex/images/poweredby.png
Alias /webpath/ /full/filesystem/path/
ScriptAlias
用来指定哪些目录包含服务端脚本。它跟Alias指令类似，只不过目标目录中的文档会当作CGI可执行程序来执行，而不是想Alias一样直接将文档发送给客户端。比如：
ScriptAlias /cgi-bin/ "/var/www/cgi-bin/"
ErrorDocument（相当于Nginx的error_page指令）
用来指定当服务器出现错误的时候，给客户端什么样的应答，比如：

# Customizable error responses come in three flavors:
# 1) plain text 2) local redirects 3) external redirects
#
# Some examples:
#ErrorDocument 500 "The server made a boo boo."
#ErrorDocument 404 /missing.html
#ErrorDocument 404 "/cgi-bin/missing_handler.pl"
#ErrorDocument 402 http://www.example.com/subscription_info.html

<Location>
提供了基于URI的访问控制。与<Directory>指令类似。
语法是：<Location URI>...</Location>。
URI既可以是常规字符串，也可以是正则表达式，当它是正则表达式的时候，应该放在“~”后面。
<LocationMatch>等价于正则表示形式的<Location>。
<VirtualHost>
请移步参考文档4

下面我们先看一个CGI的例子：

Apache的配置文件如下：

# /etc/httpd/conf/httpd.conf

ServerRoot "/etc/httpd"
Listen 8081
User apache
Group apache

ServerAdmin jordan23nbastar@yeah.net
ServerName 47.52.166.98:8081

Include conf.modules.d/*.conf

<IfModule alias_module>
    ScriptAlias /cgi-bin/ "/var/www/cgi-bin/"
</IfModule>

ErrorLog "logs/error_log"
LogLevel warn
<IfModule log_config_module>
    LogFormat "%h %l %u %t \"%r\" %>s %b \"%{Referer}i\" \"%{User-Agent}i\"" combined
    CustomLog "logs/access_log" combined
</IfModule>

<IfModule mime_magic_module>
    MIMEMagicFile conf/magic
</IfModule>

<IfModule mime_module>
    TypesConfig /etc/mime.types
    AddType application/x-compress .Z
    AddType application/x-gzip .gz .tgz
    AddType text/html .shtml
    AddOutputFilter INCLUDES .shtml
</IfModule>

CGI脚本是(/var/www/cgi-bin/test.py)：

#! /usr/bin/env python

import os
import sys 
import json

print "Content-Type: application/json"
print

d = {}
d["pid"] = os.getpid()
d["command_line_args"] = sys.argv[1:]
d["stdin"] = sys.stdin.read()
d["environment"] = dict([(str(k), str(v))
    for k, v in os.environ.iteritems()])

print json.dumps(d, indent=2)

chmod a+x /var/www/cgi-bin/test.py

启动Apache：

sudo systemctl restart httpd.service

调用接口：

[root@iZj6chejzrsqpclb7miryaZ nginx]# curl http://timd.cn:8081/cgi-bin/test.py?is_index
{
  "environment": {
    "CONTEXT_DOCUMENT_ROOT": "/var/www/cgi-bin/", 
    "SERVER_SOFTWARE": "Apache/2.4.6 (CentOS)", 
    "CONTEXT_PREFIX": "/cgi-bin/", 
    "SERVER_SIGNATURE": "", 
    "REQUEST_METHOD": "GET", 
    "SERVER_PROTOCOL": "HTTP/1.1", 
    "QUERY_STRING": "is_index", 
    "PATH": "/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin", 
    "HTTP_USER_AGENT": "curl/7.29.0", 
    "SERVER_NAME": "timd.cn", 
    "REMOTE_PORT": "47284", 
    "SERVER_PORT": "8081", 
    "SERVER_ADDR": "172.31.238.196", 
    "DOCUMENT_ROOT": "/etc/httpd/htdocs", 
    "SCRIPT_FILENAME": "/var/www/cgi-bin/test.py", 
    "SERVER_ADMIN": "jordan23nbastar@yeah.net", 
    "HTTP_HOST": "timd.cn:8081", 
    "SCRIPT_NAME": "/cgi-bin/test.py", 
    "REQUEST_URI": "/cgi-bin/test.py?is_index", 
    "HTTP_ACCEPT": "*/*", 
    "GATEWAY_INTERFACE": "CGI/1.1", 
    "REMOTE_ADDR": "47.52.166.98", 
    "REQUEST_SCHEME": "http", 
    "UNIQUE_ID": "Wk7v0hrJnREyoIubeYkhzAAAAAA"
  }, 
  "stdin": "", 
  "pid": 21243, 
  "command_line_args": [
    "is_index"
  ]
}
[root@iZj6chejzrsqpclb7miryaZ nginx]# curl http://timd.cn:8081/cgi-bin/test.py?is_index
{
  "environment": {
    "CONTEXT_DOCUMENT_ROOT": "/var/www/cgi-bin/", 
    "SERVER_SOFTWARE": "Apache/2.4.6 (CentOS)", 
    "CONTEXT_PREFIX": "/cgi-bin/", 
    "SERVER_SIGNATURE": "", 
    "REQUEST_METHOD": "GET", 
    "SERVER_PROTOCOL": "HTTP/1.1", 
    "QUERY_STRING": "is_index", 
    "PATH": "/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin", 
    "HTTP_USER_AGENT": "curl/7.29.0", 
    "SERVER_NAME": "timd.cn", 
    "REMOTE_PORT": "47286", 
    "SERVER_PORT": "8081", 
    "SERVER_ADDR": "172.31.238.196", 
    "DOCUMENT_ROOT": "/etc/httpd/htdocs", 
    "SCRIPT_FILENAME": "/var/www/cgi-bin/test.py", 
    "SERVER_ADMIN": "jordan23nbastar@yeah.net", 
    "HTTP_HOST": "timd.cn:8081", 
    "SCRIPT_NAME": "/cgi-bin/test.py", 
    "REQUEST_URI": "/cgi-bin/test.py?is_index", 
    "HTTP_ACCEPT": "*/*", 
    "GATEWAY_INTERFACE": "CGI/1.1", 
    "REMOTE_ADDR": "47.52.166.98", 
    "REQUEST_SCHEME": "http", 
    "UNIQUE_ID": "Wk7v2NJfx11vvtodsSxwwwAAAAU"
  }, 
  "stdin": "", 
  "pid": 21246, 
  "command_line_args": [
    "is_index"
  ]
}

我们可以看到两次的pid是不一样的。
下面简单介绍一下CGI的整个执行流程：

Apache收到HTTP请求之后，会解析请求，其中请求行、请求头会被解析成CGI风格的变量，比如REQUEST_METHOD、REQUEST_URI等
Apache fork一个子进程，执行CGI程序（CGI程序必须是一个可执行程序），并将CGI变量以环境变量的形式传递给CGI程序、将isindex参数以命令行参数的形式传递给CGI程序、将请求体以标准输入的形式传递给CGI程序。同时Apache会捕获CGI程序的标准输出，并将其作为响应传递给客户端（因此在CGI程序中，不能随意的向标准输出打印调试信息，但是可以将日志等打印到标准错误输出，并进行重定向。最典型的案例就是，PHP程序员经常将var_dump信息打印到页面。）
CGI程序执行完毕之后，Apache会销毁该进程

综上，可以看出，CGI的执行模式是：fork-execute-destroy，这正是其性能低下的原因。

当使用Python开发CGI程序的时候，可以使用wsgiref模块。

Apache的mod_*模块[TOC]

Apache mod_*模块的本质就是将各种脚本语言（比如PHP、Perl、Python等）的解释器内嵌到Apache中，这样会获得两方面的好处：

不必像CGI那样每次都创建解释器实例，然后执行脚本，最后再销毁解释器实例，进而提升性能
之前编写的CGI程序，可以方便的进行迁移

但是，随之也引来了坏处：

每个子进程都持有一个解释器实例：所有被同一个子进程处理的请求共享该解释器实例；并且解释器实例与子进程共用地址空间，所以存在安全隐患，比如处理脚本内存泄漏时，会殃及Apache
在worker模式中，每个子进程有多个线程，所以处理脚本必须是线程安全的

非常值得说明的是：Openresty也是将Lua解释器或LuaJIT解释器以模块的方式嵌入到Nginx中，进而使得Nginx有运行Lua脚本的能力。并且，Nginx官方最近推出了nginScript，其本质是将（他们自研的）JS解释器嵌入到Nginx，它通过融入JavaScript代码，对NGINX的配置语法进行扩展，以便实现复杂的配置。

接下来，我们以Apache的mod_wsgi为例，进行一下实践。mod_wsgi模块可以支持任何实现WSGI标准的Python应用程序。

1，安装mod_wsgi
可以参考PYPI的说明。
鄙人是通过pip install mod_wsgi安装的，然后将/path/to/site-packages/mod_wsgi/server/mod_wsgi-py27.so拷贝到/etc/httpd/modules下。
2，编写WSGI应用程序

# /etc/httpd/wsgi.py

import os
import threading

counter = 0 

def application(environment, start_response):
    global counter
    counter = counter + 1 

    response = "pid is: %d, thread is: %d, counter is: %d" % ( 
        os.getpid(), threading.currentThread().ident, counter)
    length = len(response)
    writer = start_response("200 OK", [("Content-Length", str(length))])
    return [response]

3，配置Apache
本例中使用的mpm模式是worker模式：

# /etc/httpd/conf/httpd.conf

ServerRoot "/etc/httpd"
Listen 8081
User apache
Group apache

ServerAdmin jordan23nbastar@yeah.net
ServerName 47.52.166.98:8081

Include conf.modules.d/*.conf


LoadModule wsgi_module modules/mod_wsgi.so
<IfModule wsgi_module>
    WSGIScriptAlias /wsgi /etc/httpd/wsgi.py
    WSGIPythonPath /etc/httpd/
</IfModule>
<Files /etc/httpd/wsgi.py>
    Require all granted
</Files>

<IfModule mpm_worker_module>
    ServerLimit     1
    StartServers    1
    MaxSpareThreads 20
    MinSpareThreads 15
    ThreadsPerChild 25
</IfModule>


ErrorLog "logs/error_log"
LogLevel info
<IfModule log_config_module>
    LogFormat "%h %l %u %t \"%r\" %>s %b \"%{Referer}i\" \"%{User-Agent}i\"" combined
    CustomLog "logs/access_log" combined
</IfModule>

<IfModule mime_magic_module>
    MIMEMagicFile conf/magic
</IfModule>

<IfModule mime_module>
    TypesConfig /etc/mime.types
    AddType application/x-compress .Z
    AddType application/x-gzip .gz .tgz
    AddType text/html .shtml
    AddOutputFilter INCLUDES .shtml
</IfModule>

4，重启Apache，并测试一下

[root@iZj6chejzrsqpclb7miryaZ httpd]# systemctl restart httpd

[root@iZj6chejzrsqpclb7miryaZ httpd]# curl http://127.0.0.1:8081/wsgi
pid is: 14938, thread is: 140189502514944, counter is: 1

上面的例子中，使用的是mod_wsgi的嵌入模式，用到的指令包括：

1，WSGIScriptAlias URL-path file-path|directory-path [ options ]
与Alias指令类似，都是将URL映射到本地文件系统的特定区域。当第二个参数是目录的时候，那么会把它当作包含WSGI脚本的目录；当第二个参数是文件的时候，那么会把它当作WSGI脚本（它会被mod_wsgi的wsgi-script handler处理）。
比如：

WSGIScriptAlias /wsgi-scripts/ /web/wsgi-scripts/

那么，请求http://www.example.com/wsgi-scripts/name 会导致服务器运行 /web/wsgi-scripts/name应用程序。
再比如：

WSGIScriptAlias /name /web/wsgi-scripts/name

那么，请求http://www.example.com/name 会导致服务器运行 /web/wsgi-scripts/name应用程序。

2，WSGIPythonPath directory|directory-1:directory-2:…
用于添加Python的模块搜索路径，多个路径之间用:分隔（windows上用;分隔）。
除了嵌入模式，mod_wsgi还支持后台模式（非常值得动手实践一下）。更多关于mod_wsgi的配置和运行模式的资料，请参考：
参考文档8
参考文档9

FastCGI协议[TOC]

PHP目前最常用的部署方式就是Nginx + PHP-FPM。FPM的全称是FastCGI Process Manager。故名思意，PHP-FPM就是PHP-CGI进程的管理器。
前面已经提及，CGI性能低的原因是：每次请求都要Fork-Execute-Destroy。而FastCGI进程是常驻（long-live）的，一旦启动，它会一直存在，不必每次请求都fork一次。

一般情况下，FastCGI的完整执行流程是：

FastCGI进程管理器初始化自身，并创建若干个FastCGI进程，之后等待Web服务器的连接
- FastCGI进程管理器在初始化的时候，会监听FastCGI Socket，同时会将标准输入复制成FastCGI Socket
- FastCGI进程，应该先从标准输入的文件描述符创建Socket，然后getpeername，如果返回ENOTCONN错误，则表示该Socket是一个FastCGI Socket
Web服务器收到HTTP请求之后，连接FastCGI Socket
FastCGI进程accept Web服务器的连接，Web服务器使用FastCGI协议将CGI变量和标准输入数据发送给FastCGI进程
FastCGI进程处理完成后，会将标准输出，标准错误输出通过同一连接发送给Web服务器
FastCGI进程等待处理下一个来自Web服务器的请求

值得额外说明的是：在Web服务器的配置中，需要正确的设置FastCGI参数 SCRIPT_FILENAME ，否则会导致“Primary script unknown”之类的错误，该代表CGI脚本的完整路径。

接下来看一个Nginx + spawn-fcgi + Python flup的例子：

Nginx配置

server {
    listen 8081;
    server_name test.timd.cn;

    location / { 
        fastcgi_pass 127.0.0.1:9091;
        include fastcgi_params;
    }   
}

Python程序

#! /usr/bin/env python

from flup.server.fcgi import WSGIServer

def application(enviroment, start_response):
    response = "just test for fastcgi"
    length = len(response)
    start_response("200 OK", [
            ("Content-Length", str(length))
        ])  
    return [response]

if __name__ == "__main__":
    WSGIServer(application).run()

启动Nginx
启动spawn-fcgi

chmod a+x fastcgi.py
spawn-fcgi -f ./fastcgi.py -a 0.0.0.0 -p 9091 -F 4 -n

-F：用来指定子进程数
-f：用来指定fastcgi应用程序的文件名（文件必须是可执行的）
-a：用来指定绑定的IP地址
-p：用来指定要监听的端口
-n：表示前台运行

测试：

[root@iZj6chejzrsqpclb7miryaZ ~]# curl http://127.0.0.1:8081
just test for fastcgi

spawn-fcgi是从lighttpd脱离出来的，其一个不能容忍的缺点是：当它fork出的FastCGI进程被杀死后，它不会重启一个新的。

Python的WSGI标准[TOC]

PEP 3333详尽的描述了WSGI标准。感兴趣的童鞋，可以点击链接阅读英文原稿。不爱阅读英文文档的盆友，也可以看下这篇比较不错的中文文档。

=====下面开始我的表演=====
WSGI的全称是Web Server Gateway Interface。它是一个描述：

Web服务器如何与Web应用程序进行通信
Web应用程序如何串联起来共同处理一个请求

的标准。
因为HTTP只能处理字节，所以WSGI应用程序返回的响应必须是字节，不能是unicode。在Python中，字节是指str（In Python2X）或bytes（In Python3X）。

WSGI包含三面的标准：

Server/GateWay端
Application/Framework端
WSGI中间件

1，WSGI应用程序

是一个可调用对象
接受两个参数：
- environment：包含CGI变量以及WSGI变量，比如：
  - HTTP_*：HTTP请求头
  - wsgi.errors：当应用程序出现异常时，可以写往这里
  - wsgi.input：可以从这里读取HTTP请求体
- start_response：
  - 是一个可调用对象
  - 接受三个参数：
    - status：HTTP状态码，比如“200 OK”
    - response_headers：响应头列表，它是一个包含若干个二元组的列表
    - exc_info：（可选）当应用程序出现异常时，应该将该参数设置为sys.exc_info()
  - 返回一个write可调用对象，应用程序可以通过write(body_data)传递数据（不建议，只是为了向前兼容）
返回一个可迭代对象
应用程序必须在write(body_data)或第一次返回数据数据之前，调用start_response。这是因为前两者对应的是body数据，而start_response对应的是响应行和响应头

2，WSGI服务器

每次收到HTTP请求时，都会调用一次WSGI应用程序。过程是：
- 设置好应用程序所需的两个参数
- 调用应用程序
- 迭代应用程序的返回结果，并将其返回给客户端

3，WSGI中间件

对于WSGI服务器来说，它相当于WSGI应用程序；对于WSGI应用程序来说，它相当于WSGI服务器。

4，注意事项

应用程序可以缓冲响应体，但是禁止服务器缓冲任何响应体
如果设置了Content-Length头，那么多返回数据或少返回数据，都可能导致错误；如果没有设置Content-Length头，那么服务器在响应完成之后，会关闭链接

5，例子

# test_wsgi.py
from wsgiref.simple_server import make_server

def application(environment, start_response):
    response = "just for test wsgi"
    start_response("200 OK", [])
    
    error = environment.get("wsgi.errors")
    error.write("test for error\n")

    for i in range(5):
        yield response + "\n"

class Middleware:
    def __init__(self, app):
        self._app = app 

    def __call__(self, environment, start_response):
        if environment.get("PATH_INFO") == "/test":
            start_response("200 OK", []) 
            return ["this is test\n"]
        return self._app(environment, start_response)

if __name__ == "__main__":
    httpd = make_server("0.0.0.0", 8081, Middleware(application))
    httpd.serve_forever()

uWSGI是一个既支持uwsgi协议，又支持http协议的WSGI服务器，它使用C编写的，性能非常好，功能也很全面。Gunicorn是一个用Python编写的WSGI服务器，它只支持http协议。在Python世界中，基本只在两者之间进行选择。

Java的Servlet规范[TOC]

Servlet是Java程序和Servlet引擎交互的接口规范。该规范用于：

告诉 Web服务器和应用服务器提供商，如何开发符合标准的Servlet引擎
告诉开发者如何编写能够运行在符合标准的Servlet引擎中的Web应用程序

这个是在gitbook上找到的一篇Servlet 3.1规范的中文翻译。PDF版本，可以点此下载。

参考文档[TOC]

参考文档1：Apache httpd.conf配置详解
参考文档2：.htaccess文件
参考文档3：Apache配置文件中的<Directory>、<Files>、<FilesMatch>、<Location>、<LocationMatch>的示例
参考文档4：Apache 配置虚拟主机三种方式
参考文档5：并发与并行的区别
参考文档6：wsgiref — WSGI Utilities and Reference Implementation
参考文档7：Apache下Worker模式MPM参数分析
参考文档8：mod_wsgi官方文档
参考文档9：mod_wsgi的两种模式
参考文档10：深入理解FastCGI协议以及在PHP中的实现