序列化和json
【序列化的概念】
序列化是将对象状态转换为可保持或可传输的格式的过程。与序列化相对的是反序列化,它将流转换为对象。这两个过程结合起来,可以轻松地存储和传输数据。
将对象的状态信息转换为可以存储或传输的窗体的过程。 在序列化期间,对象将其当前状态写入到临时或持久性存储区。以后,可以通过从存储区中读取或反序列化对象的状态,重新创建该对象。
通常,对象实例的所有字段都会被序列化,这意味着数据会被表示为实例的序列化数据。这样,能够解释该格式的代码有可能能够确定这些数据的值,而不依赖于该成员的可访问性。类似地,反序列化从序列化的表示形式中提取数据,并直接设置对象状态,这也与可访问性规则无关。 对于任何可能包含重要的安全性数据的对象,如果可能,应该使该对象不可序列化。如果它必须为可序列化的,请尝试生成特定字段来保存不可序列化的重要数据。如果无法实现这一点,则应注意该数据会被公开给任何拥有序列化权限的代码,并确保不让任何恶意代码获得该权限。
【JSON的概念】
JSON,JavaScript Object Notation,一种更轻、更友好的用于接口(AJAX、REST等)数据交换的格式。 JSON是结构化数据串行化的文本格式,作为XML的一种替代品,用于表示客户端与服务器间数据交换有效负载的格式。它是从ECMAScript语言标准衍生而来的。JSON的设计目标是使它成为小的、轻便的、文本的,而且是JavaScript的一个子集。
【长度的比较】
如下一段代码,显示了对数组和对象编码后生成的字符串及其长度
class Foo { public $int = 1; public $bool = TRUE; public $array = array(array(1), 2 => 'test', 'string'); public function test($flag) { echo $flag, 'test function for Foo <br />'; } public static function output($str) { echo $str, '<br />'; } public static function compare_serialize_and_json($data) { $serialize_str = serialize($data); self::output('序列化后的值:' . $serialize_str . "; length=" . strlen($serialize_str)); $json_str = json_encode($data); self::output('JSON后的值:' . $json_str . "; length=" . strlen($json_str)); } } $test_data = array('wwww' => 0, 'phppan' => 1, 'com' => 2); //序列化数组 echo '数组:<br />'; Foo::compare_serialize_and_json($test_data); $foo = new Foo(); echo '对象:<br />'; Foo::compare_serialize_and_json($foo);
输出:
数组: 序列化后的值:a:3:{s:4:"wwww";i:0;s:6:"phppan";i:1;s:3:"com";i:2;}; length=52 JSON后的值:{"wwww":0,"phppan":1,"com":2}; length=29 对象: 序列化后的值:O:3:"Foo":3:{s:3:"int";i:1;s:4:"bool";b:1;s:5:"array";a:3:{i:0; a:1:{i:0;i:1;}i:2;s:4:"test";i:3;s:6:"string";}}; length=111 JSON后的值:{"int":1,"bool":true,"array":{"0":[1],"2":"test","3":"string"}}; length=63
很明显的长度区别,serialize在编码后大概是json的两倍。
原因:
- serialize后字符串包含了子串的长度,这可能是速度方面的优化,典型的空间换时间,但是它本身还是太重了。
- serialize有更加详细的类型区分,而json只有四种类型,并且是以简单的符号表示。
【速度的比较】
以代码说明问题,如下比较速度的代码:
$max_index = 10; ini_set("memory_limit","512M"); $array = array_fill(0, 1000000, rand(1, 9999)); echo 'serialize:<br />'; $start = xdebug_time_index(); for ($i = 0; $i < $max_index; $i++) { $str = serialize($array); } $end = xdebug_time_index(); echo $end - $start, '<br />'; echo 'json:<br />'; $start = xdebug_time_index(); for ($i = 0; $i < $max_index; $i++) { $str = json_encode($array); } $end = xdebug_time_index(); echo $end - $start, '<br />'; unset($array, $str);
输出:
serialize: 9.5371007919312 json: 1.4313209056854
serialize的速度在大数据量的情况下比json差了快一个数量级。
从上面两点看,json不管是在速度还是在生成的字符串的大小上都比serialize要好,那为什么serialize还要存在呢? 原因在下面这个点:实现的功能。
【处理对象】
如下代码:
header("Content-type:text/html;charset=utf8"); class Foo { public function test($flag) { echo $flag, 'test function for Foo <br />'; } } $foo = new Foo(); echo '反序列化测试:<br />'; $foo->test(1); $serialize_str = serialize($foo); $obj = unserialize($serialize_str); $obj->test(2); $foo->test(1); $json_str = json_encode($foo); $obj = json_decode($json_str); $obj->test(2); die();
输出:
反序列化测试: 1test function for Foo 2test function for Foo 1test function for Foo ( ! ) Fatal error: Call to undefined method stdClass::test()
json无法处理对象方法等数据。
【使用范围】
- 序列化使用serialize,特别是对象的存储。这是其存在的意义。
- 与对象无关的数据存储可以使用json,如包含大量数字的数组等。只是当遇到这种情况,我们需要做的可能是重构数据库了。
- 数据交换时使用JSON,这也是其定义所在。
- 目前JSON是能用于UTF-8编码的数据。