月度归档:2012年02月

如何在用户中断时停止程序的运行

当我们以WEB的方式运行PHP脚本时,默认情况下,即使你关闭当前页面,程序也会继续执行,直接程序结束或超时。如果我们想在用户关闭页面或点击了停止页面运行时就中断程序,我们需要做些什么呢?上周和小毅同学讨论了这个问题,从而也引出了今天我们这篇文章。

我们知道HTTP协议是基于TCP/IP协议,对于一个PHP页面的请求就是一个HTTP请求(假设我们是Apache服务器),从而会创建TCP连接,当用户中断请求时,会给服务器一个abort状态。这个abort状态就是今天我们要讲的关键点。

在PHP中有一个函数与abort状态有关:ignore_user_abort函数
ignore_user_abort() 函数设置与客户机断开时是否会终止脚本的执行。它返回 user-abort 之前设置的布尔值。它的参数可选。如果设置为 true,则忽略与用户的断开,如果设置为 false,会导致脚本停止运行。

PHP 不会检测到用户是否已断开连接,直到尝试向客户机发送信息为止。因此如果我们只是使用echo语句,可能无法如实的看到abort的效果,因为PHP在输出时会有一个缓存,如果要刷新缓存,则可以使用flush() 函数。

如下代码t.php:

ignore_user_abort(TRUE);
set_time_limit(50);
 
while (1) {
    echo $i++, "\r\n";    
    flush();
 
    $fp = fopen("data.txt", 'a');
    fwrite($fp, $i . " \r\n");
    fclose($fp);
 
    sleep(1);
}

在浏览器中执行这段代码,过了大概两秒后,关闭请求的页面,50秒后,你会发现在data.txt文件中写入了至少50个数。这表示我们的中断操作是无效的。
如果我们改一下,把第一句改为:ignore_user_abort(FALSE);,重复上面的操作,你会发现,只写入了极少的数字,这表示我们的中断操作有效了。
现在通过ignore_user_abort函数,我们实现了用户中断就马上停止程序的操作。这里有一个问题,即我们需要不停的flush,通过flush函数来更新连接状态,当状态为abort时,程序根据ignore_user_abort的设置来判断是否中断程序。除此之外,我们也可以使用直接获取连接状态来check连接状态,并对特定的状态作出处理,如下代码:

ignore_user_abort(FALSE);
set_time_limit(50);
 
while (1) {
 
    echo $i++, "\r\n";
    flush();
 
     if (connection_status() != CONNECTION_NORMAL) {
        break;
    }
 
    $fp = fopen("data.txt", 'a');
    fwrite($fp, $i . ":" . connection_status() . " \r\n");
    fclose($fp);
 
    sleep(1);
}

这里的connection_status函数的作用是获取连接的状态,当连接的状态非normal时,我们就中断循环,从而也达到了中断程序的操作。这个示例与前面的示例不同之处在于中断操作是由我们自己控制,而不是通过flush操作直接exit。如果在用户中断后还有一些其它的操作,这种方式会更合适一些。当然,这里的flush操作依旧不可少,我们还是需要通过这个函数做check操作。

ignore_user_abort函数和connection_status函数都实现了我们的目的,这两个函数的实现有没有关联?我们在ext/standard/basic_functions.c文件中找到这两个函数的实现如下:

/* {{{ proto int connection_aborted(void)
 
Returns true if client disconnected */
PHP_FUNCTION(connection_aborted)
{
    RETURN_LONG(PG(connection_status) & PHP_CONNECTION_ABORTED);
}
/* }}} */
 
/* {{{ proto int connection_status(void)
Returns the connection status bitfield */
PHP_FUNCTION(connection_status)
{
    RETURN_LONG(PG(connection_status));
}
/* }}} */
 
/* {{{ proto int ignore_user_abort([string value])
Set whether we want to ignore a user abort event or not */
PHP_FUNCTION(ignore_user_abort)
{
    char *arg = NULL;
    int arg_len = 0;
    int old_setting;
 
    if (zend_parse_parameters(ZEND_NUM_ARGS() TSRMLS_CC, "|s", &arg, &arg_len) == FAILURE) {
        return;
    }
 
    old_setting = PG(ignore_user_abort);
 
    if (arg) {
        zend_alter_ini_entry_ex("ignore_user_abort", sizeof("ignore_user_abort"), arg, arg_len, PHP_INI_USER,     PHP_INI_STAGE_RUNTIME, 0 TSRMLS_CC);
    }
 
    RETURN_LONG(old_setting);
}
/* }}} */

connection_status函数直接返回PG(connection_status)的值,

ignore_user_abort函数重新设置PG(ignore_user_abort)的值,

不管是因为缓存满自动调用或通过flush函数调用的flush操作,其最终都会根据连接状态判断是否执行php_handle_aborted_connection函数,如果是abort状态,则执行。

其代码如下:

/* {{{ php_handle_aborted_connection
*/
PHPAPI void php_handle_aborted_connection(void)
{
    TSRMLS_FETCH();
 
    PG(connection_status) = PHP_CONNECTION_ABORTED;
    php_output_set_status(0 TSRMLS_CC);
 
    if (!PG(ignore_user_abort)) {
        zend_bailout();
    }
}
/* }}} */

在PG(ignore_user_abort)为假时,即不忽略用户的中断行为时,如果调用了此函数,则使用zend_bailout函数跳出程序直接exit。

在默认情况下ignore_user_abort为0,即不忽略用户的中断行为。

如果你是ubuntu的默认apache环境下,可能上面的代码会无效。这是由于此环境下的apache开启了zip,在没有达到预定的大小时,服务器不会与客户端通信,从而也就无法获取客户端的状态,即使使用了flush函数也是一样。

PHP中计算字符串相似度的函数

上次reeze提到similar_text函数,这个真心没用过。
在手册上查找其说明如下:
similar_text — 计算两个字符串的相似度
int similar_text ( string $first , string $second [, float &$percent ] )
$first 必需。规定要比较的第一个字符串。
$second 必需。规定要比较的第二个字符串。
$percent 可选。规定供存储百分比相似度的变量名。

两个字符串的相似程度计算依据 Oliver [1993] 的描述进行。注意该实现没有使用 Oliver 虚拟码中的堆栈,但是却进行了递归调用,这个做法可能会导致整个过程变慢或变快。也请注意,该算法的复杂度是 O(N**3),N 是最长字符串的长度。

比如我们想找字符串abcdefg和字符串aeg的相似度:

$first = "abcdefg";
$second = "aeg";
 
echo similar_text($first, $second);

结果输出3.如果想以百分比显示,则可使用它的第三个参数,如下:

$first = "abcdefg";
$second = "aeg";
 
similar_text($first, $second, $percent);
echo $percent;

这里的相似度的算法是什么呢?本来是想看看Oliver[1993]对于这个算法的具体描述,各种google后,只找到这是从Ian Oliver1993年出版的书《Programming classics: implementing the world’s best algorithms》中记载,没有找到这本书的电子版。

直接代码,在string.c文件中我们找到了similar_text的实现PHP_FUNCTION(similar_text),其最终调用php_similar_cha获取两个字符串的相似度,如下代码:

static int php_similar_char(const char *txt1, int len1, const char *txt2, int len2)
{
    int sum;
    int pos1, pos2, max;
 
    php_similar_str(txt1, len1, txt2, len2, &pos1, &pos2, &max);
    if ((sum = max)) {
        if (pos1 && pos2) {
            sum += php_similar_char(txt1, pos1, txt2, pos2);
        }
        if ((pos1 + max < len1) && (pos2 + max < len2)) { 
             sum += php_similar_char(txt1 + pos1 + max, len1 - pos1 - max, 
                                               txt2 + pos2 + max, len2 - pos2 - max);
        }
    }
 
    return sum;
}

首先我们看php_similar_str函数的作用,从函数名和参数名我们可以大致猜测它的作用是求两个字符串的相似子串,具体代码如下:

static void php_similar_str(const char *txt1, int len1, const char *txt2, int len2, int *pos1, int *pos2, int *max)
{
    char *p, *q; 
    char *end1 = (char *) txt1 + len1;
    char *end2 = (char *) txt2 + len2;
    int l;
 
    *max = 0;
    for (p = (char *) txt1; p < end1; p++) {
        for (q = (char *) txt2; q < end2; q++) {
            for (l = 0; (p + l < end1) && (q + l < end2) && (p[l] == q[l]); l++); //我是分号
            if (l > *max) {
                *max = l;
                *pos1 = p - txt1;
                *pos2 = q - txt2;
            }
        }
    }
}

真心很直白的三重循环,求两个字符串的最大相似子串的长度,以及这两个子串相等的开始位置。

在了解了php_similar_str的作用后,回到php_similar_char函数。这是一个很直白的二分算法。以当前两个字符串的最大相似子串的位置为分隔,向两边二分查找相似子串,最终得到所有的相似子串长度的总和,这也就是我们这个函数的相似度算法:从最长子串开始,依次统计所有的子串长度。

那么这里的百分比是如何计算的呢?

在PHP_FUNCTION(similar_text)的函数体中,如下代码:

sim = php_similar_char(t1, t1_len, t2, t2_len);
 
if (ac > 2) {
    Z_DVAL_PP(percent) = sim * 200.0 / (t1_len + t2_len);
}

sim是相似度的值,百分比是直接 sim * 200 / 两个字符串的长度。

关于那本书:

名称 Programming classics: implementing the world’s best algorithms
作者 Ian Oliver
出版商 Prentice Hall, 1993
出处: 密歇根大学
数字化处理时间 2007年11月15日
ISBN 0131004131, 9780131004139
页数 386 页
这里也许可以下载到

http://filecom.net/8EMrrcoyc8/

http://ebooks-files.org/download/programming-classics-implementing-the-worlds-best-algorithms.html

再读《程序员修炼之道》总结

虽然这本书的中文译名很文艺,但是内容确实值得一看,又花了一个星期的早晨将这本《程序员修炼之道》看了一遍,这次对于每个小节都写了些笔记和摘抄,也许是错的,也许没有什么道理,只是当时的感触和想到的。内容整理如下:

1、我的源码让猫给吃了: 责任、风险、应急备案、不要找借口,真诚

2、软件的熵:破窗户理论、酒与污水理论

3、石头汤与煮青蛙: 好的愿景和目标、不谋全局者不足以谋一域

4、足够好的软件:细化非功能性需求、过早优化是万恶之源

5、你的知识资产:养成学习的习惯,知识上的投资总能得到最好的回报

6、交流: 准备好你的交流

7、 重复的危害:DRY原则

8、正交性:高内聚,低耦合;模块化,组件化

9、可撤销性:良好的抽象接口让我们更灵活

10、曳光弹:让程序先跑起来

11、原型与便笺:为了学习,可看不可用。

12、领域语言: 语言会影响你思考问题的方式,合适的才是好的。

13、估算:估算会加深对需求的理解,

14、纯文本的威力:自描述,可读

15、shell游戏:GUI局限了用户的思维,但也提供了一些方便

16、强力编辑:选你所爱的,爱你所选的

17、源码控制:记住过去,人生要是有版本控制会是一个怎样的结果?

18、调试:调试是为了解决问题,心态很重要, 反思BUG产生的原因

19、 文本操纵:懂一门脚本语言

20、代码生成器:参数化模板,预处理,关注变化的地方

21、按合约设计: DBC,鸭子类型?找出业务规则并封装规则的变化

22、死程序不说谎: switch语句中的default子句的存在是为了让我们发现何时发生了不可能的事情,暴露错误,早崩溃

23、断言式编程:有选择的使用和开启

24、何时使用异常:将异常用于异常的问题

25、怎样配平资源: 处理资源要有始有终,尽量在分配的地方释放

26、 解耦与得墨忒耳法则:最少知识原则,不要和陌生人说话,对象的任何方法都应该只调用它自身、传入此方法的参数、它创建的对象以及它直接持有的组件

27、源程序设计:配置,将变化量放到元数据

28、时间耦合:并发的本质问题之一是时间

29、它只是视图:MVC

30、黑板:mediator模式

31、靠巧合编程: 知道你在做什么,把代码写扎实

32、算法速率:随时记得优化代码,优化要把握度

33、重构:习惯重构,自动测试是比较理想的状况

34、易于测试的代码: 测试文化,你和用户,总有一个人测

35、邪恶的向导:弄清楚向导干了什么

36、需求之坑:将商业策略与实际的需求分开, 问下为什么!需求是需要

37、解开不可能解开的谜题: 确定真正的约束所在

38、等你准备好:构建原型

39、规范陷阱:需求和规范都要有一些抽象,留一些空间

40、圆圈与箭头:取众家之长,形成自己的工作习惯

41、注重实效的团队:个人的原则也适用于团队

42、无处不在的自动化:让计算机去重复,它会比我们做得更好

43、无情的测试:早测试,道是无情却有情

44、全都是写:文档和代码同样重要

45、极大的期望:步子别跨太大,否则会扯到

46、傲慢欲偏见:署名,打上你的标记,树立你的品牌。