深入理解PHP内核(一)

6年以前 | 阅读数：825 次 | 编程语言：PHP

PHP作为一门简单而强大的语言，能够提供很多Web适用的语言特性。从实践出发，继弱类型变量原理探究后，本文继续带领大家深入理解php内核。

最近，和一个网友交流的时候，给我提了一个非常奇怪的问题。那就是，在一个运算中，加了一个引用之后，发现性能慢了一万倍。在我的脑海里面，引用是一个非常容易出错的问题，特别是PHP里面的引用，有非常多的陷阱。因为，以前专门研究过这一块PHP的源代码，所以，我可以比较清晰的解析引用到底是怎么一回事，希望，读了我这篇文章，能彻底理解这个问题。如果，有任何疑问，或者有一些你想了解的问题，可以给我留言。

先来看一段代码:


    class RefferTest
    {
     private $data;
     private $testKey;
     function __construct()
     {
      $key = "hello";
      $this->data[$key] = range(0, 10000);
      $this->testKey = $key;
     }
     function reffer($key)
     {
      $reffer = &$this->data[$key];
      return count($reffer);
     }
     function noreffer($key)
     {
      return count($this->data[$key]);
     }
     function test()
     {
      $t1 = microtime(true);
      for ($i = 0; $i < 5000; $i++)
      {
       $this->reffer($this->testKey);
      }
      $t2 = microtime(true) - $t1;
      var_dump("reffer: " . round($t2, 4));
      $t1 = microtime(true);
      for ($i = 0; $i < 5000; $i++)
      {
       $this->noreffer($this->testKey);
      }
      $t2 = microtime(true) - $t1;
      var_dump("noreffer: " . round($t2, 4));
     }
    }
    $test = new RefferTest();
    $test->test();

如果你完这个代码，能说出，为了reffer 和 noreffer会差一万倍的性能，那下面的也就没有必要往下看了。这篇博客针对的是，PHP的新手。你可以运行一下这个代码试试看，的确差了一万倍。当然，那个网友遇到的问题的代码要比上面的复杂，上面的代码是我为了说明问题，特意简化的。或许你已经从代码里面看出问题了，但是，至于为什么会这样。我想，还是有必要分析一下。这样，以后，在使用PHP的时候，才不会犯相同的错误。

PHP为了减少复制，采用了一种copy on writer的机制。我想，这是一种非常常见的机制，你也一定听说过。比如，gcc 的 stl string 的实现，就是采用这样的机制，字符串赋值，不是真正的复制，而且，在修改的时候才会进行复制。我们先来举个最简单的例子：


     $a = str_repeat("", );
      $b = $a;
      $a[] = "";

$a 是一个非常大的字符串，如果 $b = $a 的时候，进行复制，那要耗费很多内存和 cpu，这样非常的不划算，万一，下面的代码并不修改$a 和 $b 那复制根本没有必要。当然，$a 在后面又被修改了，这个时候，必须进行复制了，否则就不符合逻辑了。但是，现在问题来了，怎么知道，$a 在修改的时候，要进行复制呢，必须要有这样一个标记。方法就是采用引用计数。引用计数还被用来进行内存的管理。

基本的流程是这样的：

1: 创建一个变量，可以保存 10000 个 0 的这样一个字符串。

2: 创建一个变量符号 a ，这个变量符号引用这个变量。注意，变量符号和变量不是一回事情，这两者是分离的。

如果从C语言的角度来说，PHP大概完成这样一件事情：


      char *varname = "a";
      size_t varname_len = strlen(varname);
      zend_hash_add(EG(active_symbol_table), varname, varname_len + , &var;, sizeof(zval*), NULL);

active_symbol_table 是PHP的一个符号表，所有能访问到的变量都在这个里面，他是一个哈希表。var 这个变量，保存了 10000 个 0 这个字符串。而且是zval的结构，zval的结构如下：


    typedef struct _zval_struct {
     zvalue_value value;
     zend_uint refcount;
     zend_uchar type;
     zend_uchar is_ref;
    } zval;
    typedef union _zvalue_value {
     long lval;
     double dval;
     struct {
      char *val;
      int len;
     } str;
     HashTable *ht;
     zend_object_value obj;
    } zvalue_value;

zvalue_value 是一个联合，可以保存 long， double，字符串，哈希表（PHP Array），还有就是对象。也就是所有的PHP的类型。 zval 其实就是对 zvalue_value ，加入了类型type 和引用is_ref，引用计数refcount三个功能。这就是PHP中的普通变量。要是用PHP做比较大型的东西，就会发现，内存占用非常厉害。就是因为，他一个变量不是传统C语言的那个变量了，它加了很多东西。

好了，第一句完成了，下面是第二句。第二句很简单，会产生一个新的变量符号b，把他加入 active_symbol_table ，但是不会增加新的一个变量，而只是，refcount++。赋值就完成了。如图：

首先我们要注意的是，a ，b 只是一个符号，他是active_symbol_table 表里面的一个key，都有一个指针指向一个zval，所以，a 和b 在 C语言层面上是完全一致的。我们就得出PHP变量第一定律：

PHP变量第一定律：如果两个变量指向同一个zval，那么这两个变量是无差别的。也就是说，任何对a 的操作相对b 都是对称的。这里的对称，是这样理解的。就是镜子中的你，而不是等同。比如，对 a 进行赋值，a 就会产生 copy。同样的，如果对b进行赋值，也会进行相同的操作，那就是b产生一个copy。也就是说，a 和b的行为是一样的。

第三句，当writer发生的时候，PHP会判断一下refcount 是否大于2，如果大于2，那么就复制一下zval，然后，把原来那个zval refcount--。这就是copy on writer 的全部了，你一定觉得，这一切你都是非常的熟悉，你都懂。

但是，PHP不仅仅是copy on writer 这样简单，它还有一个引用的问题。引入引用的概念，这样，问题就变的有些复杂了。因为，引用这个标记，意思就是说，writer 的时候，你也不需要复制。这样，会修改原来的那个变量。从我们在学校里面以前经常学习的哲学上来说，这是一对矛盾。他们是对立的，又是统一的，各有各的用处。所谓，存在的就是合理的。

好，下面我们来看看这对矛盾，我们只考虑两种组合的情况。多种组合都是类似的。两种组合的话，就是赋值在前，引用在后。

或者引用在前，赋值在后。我们会分别讨论，先来看：就是赋值在前，引用在后的情况。


      $a = ;
       $b = $a;
       $c = &$a;

$b = $a, 是copy on writer 行为的赋值。而 $c 和 $a 是引用赋值。我们假设在上面这样的情况下，我们可以用一个zval表示，也就是不需要复制，那么情况是这样的：

根据我们的PHP变量第一定律，那，就是说，a，b，c的操作是对称的，但是非常明显，对 b 操作要产生复制行为，而对a操作不会产生复制，操作行为不相同，和第一定律矛盾。也就是说，要使得上面的操作没有矛盾，必须，进行分离。分离的原则就是，谁制造矛盾，谁复制。显然是第三句话，$c = &$a; 在制造矛盾。所以，内部变量的复制过程如下图：

上面情况是赋值在前，引用在后的情况。还有一种情况是，引用在前赋值在后：


     $a = ;
       $b = &$a;
       $c = $a;

按照PHP变量的第一定律，a，b，c 必须进行分离，才能保证定律的正确。可以发现，b 和 a 明显是一伙人，就是说，b 和 a 的操作是对称的，他们可以指向同一个zval ，而c 的行为和 a，b 不一样，改变c 需要进行复制。看到这里，我想，如果你看懂了的话，为什么刚开始，贴出来的那段代码的，那个两个count差异如此之大，你也应该明白了。当我和那个网友讨论的时候，它最后说，那这样的话，PHP设计的不好，我完全可以，$c先不进行复制，等c被write 了，再进行复制。看来要说懂一个东西，还是一件很难的事情，好好想想那个PHP第一定律吧。你可以假设不进行分离，c指向同一个zval，所以，c 和 a，b的行为是一样的，是is_ref = 1，所以，c 不会进行复制。最后一种内部执行情况可以用下图表示：

我以前也进行搞混这个引用，现在，你可以用那个第一定律来分析所有的情况了。PHP内核分析的文章，以后我还会写一些，如果你想深入了解PHP的某些方面，可以给我留言。

最后再补充一点，也是一个隐性的错误。


    function count_bigarray()
    {
     global $bigarray;
     return count($bigarray);
    }

这里，没有显示的引用，但是这里隐藏了一个引用。PHP会自动创建一个引用全局变量 $bigarray 的代码，如果你在这里使用count，那么这个效率会非常的慢。最好直接通过$GLOBAL 数组进行引用。

下面文章将给大家介绍深入理解php内核二之SAPI探究，希望大家继续关注哦。

PHP分页显示制作详细讲解

PHP · 发表于 6年以前 · 阅读量：10234

发送邮件

Shell · 发表于 2年以前 · 阅读量：4043

SSH 登录失败：Host key verification failed

Shell · 发表于 6年以前 · 阅读量：4038

获取IMSI

JAVA · 发表于 6年以前 · 阅读量：3773

双位运算符

JavaScript · 发表于 5年以前 · 阅读量：3747

文件下载

JAVA · 发表于 6年以前 · 阅读量：3735

年的日历图

Python · 发表于 5年以前 · 阅读量：3720

将二进制数据转为16进制以便显示

JAVA · 发表于 6年以前 · 阅读量：3710

提取后缀名

Python · 发表于 5年以前 · 阅读量：3696

贪吃蛇

JAVA · 发表于 6年以前 · 阅读量：3693

PHP自定义函数获取搜索引擎来源关键字的方法

PHP · 发表于 6年以前 · 阅读量：3488

获取IMEI

JAVA · 发表于 6年以前 · 阅读量：3480

Java生成UUID

JAVA · 发表于 6年以前 · 阅读量：3395

让你成为最历害的git提交人

Shell · 发表于 6年以前 · 阅读量：3187

在Zeus Web Server中安装PHP语言支持

PHP · 发表于 6年以前 · 阅读量：3185

Yii2汉字转拼音类的实例代码

PHP · 发表于 6年以前 · 阅读量：3151

再谈PHP中单双引号的区别详解

PHP · 发表于 6年以前 · 阅读量：3109

Python 2与Python 3版本和编码的对比

Python · 发表于 6年以前 · 阅读量：3092

Android执行Shell

JAVA · 发表于 5年以前 · 阅读量：3072

指定应用ID以获取对应的应用名称

JAVA · 发表于 6年以前 · 阅读量：3072