获取远程大文件部分内容的方法
【需求】
取远程文件的一部分,文件是以换行隔开,并且这个文件可能比较大
【第一次的方案】
这是我的第一个方案,也是很傻很天真却正确的方案,
这个在当时没有考虑到文件会比较大,而且也没有考虑下载时间过长,导致程序出错!
解决方案是使用PHP中的file()函数,这样会得到一个以行为单位的数组,然后是对这个数组的处理
file函数也可以使用file_get_contents代替,只是需要使用explode函数处理一下。
【优化后的方案】
由于我们所要取的数据不是全部,只是其中的一部分,我们可以只取其中的一部分,
开始使用fseek函数定位文件指针,只是它不支持URL地址
后来想到文件下载中的断点续传,在HTTP协议中存在Range字段,
Range是在 HTTP/1.1(http://www.w3.org/Protocols/rfc2616/rfc2616.html)里新增的一个 header field,也是现在众多号称多线程下载工具(如 FlashGet、迅雷等)实现多线程下载的核心所在。
Range 的规范定义如下:
ranges-specifier = byte-ranges-specifier
byte-ranges-specifier = bytes-unit “=” byte-range-set
byte-range-set = 1#( byte-range-spec | suffix-byte-range-spec )
byte-range-spec = first-byte-pos “-” [last-byte-pos]
first-byte-pos = 1*DIGIT
last-byte-pos = 1*DIGIT
一些其它介绍可以移步:http://minms.blogbus.com/logs/39569593.html
或者直接查看RFC
我们使用文件记录上次访问的位置,下次直接从这个位置访问
使用PHP的fsockopen函数实现获取大文件部分内容的代码如下:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 | <?PHP header("Content-type:text/html;charset=UTF-8"); $host = "downloads.php.net"; $port = 80; $path = "/johannes/php-5.3.1RC1.tar.bz2"; $start = 0; $length = 100; $content = get_remote_content($host, $port, $path, $start, $length); $content_length = strlen($content); if (!empty($content)) { $file = array(); if (preg_match("/Content-Length:.?(\d+)/", $content, $matches)) { $header_length = $matches[1]; $content = substr($content, $content_length - $header_length); if (!empty($header_length)) { // 更新start,可能需要记录当前位置 $start = $start + $header_length; } } } echo $content; //echo xdebug_time_index(); die(); /** * 获取远程文件内容 * @param <type> $host 主机 * @param <type> $port 端口 * @param <type> $path 路径 * @param <type> $start 开始位置 * @return <type> 远程部分内容 */ function get_remote_content($host, $port = 80, $path = "/", $start = 0, $length = -1) { $fp = fsockopen($host, $port, $errno, $errstr); if (!$fp) { return false; } $range = $start . "-"; if ($length != -1) { $range .= $start + $length; } $out = "GET " . $path . " HTTP/1.1\r\n"; $out .= "Host: " . $host . "\r\n"; $out .= "Range:bytes=" .$range . "\r\n"; // 取start之后的内容 $out .= "Connection: Close\r\n\r\n"; fwrite($fp, $out); $buffer = ''; while (!feof($fp)) { $buffer .= fgets($fp, 4096); } return $buffer; } |