Tornado 自身是不支持大文件上传的。对于接收到的文件,它会把文件内容保存在内存里,而不是像 PHP 那样保存在临时文件里。这样对于大文件,问题很明显了——内容不够。所以,Tornado 上传文件的大小限制在 100M 以下了。Tornado 官方建议使用 nginx 的上传模块来处理文件上传。但是,我这个服务连 nginx 都没用的,不想为了这个还专门跑个 nginx。
于是,我尝试性地写了这么几百行代码。POST 上传的数据是multipart/form-data
格式的,没有找到对应的 RFC,就对照着 HttpFox 显示的实际上传数据和 tornado 已有的代码进行修改。我理解的multipart/form-data
格式是这样子的:
首先,在请求头里指定Content-Type: multipart/form-data; boundary=---------------------------12724806401896502337880080173
,其中 boundary 的值是浏览器生成的,它用来分隔上传的不同文件。请求体一开始便是添加了--
前缀的这个 boundary。刚开始我没太注意前边的横线多了两个,造成接收到的数据不对。在之后是\r\n
,然后是和请求头格式一致的信息,如:
Content-Disposition: form-data; name="file"; filename="name.txt" Content-Type: application/octet-stream
Content-Disposition
中指明了文件对应表单的域名以及上传的文件名。文件名的编码看来没有定论,我的火狐用的是 UTF-8 编码。这些信息之后又是\r\n\r\n
,然后是文件内容。还好这文件内容没有经过任何编码,直接保存即可。完了之后,如果还有下一个域的数据,那么在一个\r\n
后就是类似的格式,否则在\r\n
后是带--
前缀和--
后缀的 boundary。Tornado 的代码暗示数据结尾的\r\n
是可选的。
整个格式是这样子的:
-----------------------------12724806401896502337880080173 Content-Disposition: form-data; name="file"; filename="name.txt"" Content-Type: application/octet-stream This is file content. -----------------------------12724806401896502337880080173 Content-Disposition: form-data; name="file"; filename="c" Content-Type: text/plain Another file content. -----------------------------12724806401896502337880080173--
所以,要把数据保存到临时文件里去,不需要担心怎么进行流式解码了,只要确定了文件数据的起始和结束就好。为了做到这个,我只好每次都将读到的数据的最后一段长度为带前缀的 boundary 的长度加一的部分保存下来与下次读到的数据合并再处理,以此保存每段数据都是检查过 boundary 的。再加上一是为了防止\r\n
被打断,下次找到 boundary 后取它前边的数据时出错。这个 edge case 还是今天写这文章时才想到,又花了不少时间测试。
最后记下 md5sum 的用法。计算 md5 时,把输出重定向到文件,校验时直接md5sum -c md5文件
就可以了,不需要人工对比。
又,netcat 很好用。Arch 下使用 OpenBSD 版 netcat 发送 HTTP 请求的命令是:
nc.openbsd -q0 localhost 4322 < post
Ubuntu 现在默认的 netcat 就是 OpenBSD 版,所以直接用nc
命令就可以了。