标签归档:读书笔记

构建可扩展的WEB站点读书笔记

关键字

WEB、可扩展、架构体系结构、开发、测试、数据、优化、负载均衡、监控、规划

第1章 绪论

WEB站点包含的是页面数据,而WEB应用程序则是由具备分离交付机制的数据组成的。 一个WEB应用至少包括硬件和软件。 好的应用体系结构的关键在于开始的规划。

第2章 WEB应用程序体系结构

系统架构分层,一如OSI的七层,各司其职,确保每层都能很好的完成自己的职责。 每个层的功能都只建立在同层或较低层所提供的功能之上。 层内通常都是自我完备,自制的。层与层的交互通过接口实现, 但是会产生一些问题,层与层之间的交互会增加额外的消耗,并且分层会给调试带来困难。

作者认为WEB应用分为展现层(CSS),标记层(html),页面逻辑层,业务逻辑层,持久化层。 如果采用多语言编程,就会被分层。此时,关键问题是如何在层间进行有效的交互。 分层将导致分工的出现,分工将使技术方向更加明确。

由于小系统到大系统的一个步骤是将展现层分离出来,这需要三步:

  1. 将逻辑代码从标记代码中分离出来
  2. 将标记代码划分成一个文件对应一个页面
  3. 切换到模板系统

页面逻辑和业务逻辑的分离最为简易的方法是函数分组。

** 忘记那些微不足道的性能调整,在97%的情况下,不成熟的优化是罪恶之源** WEB应用包括硬件和软件。硬件需要考虑经费、操作系统、软件、空间、容灾、容量规划、冗余、网络……

第3章 开发环境

三条不成文的规则,它能帮助你避开从小规模应用程序迁移到大型应用程序时常常遇到的问题。

  1. 使用源码控制 版本控制,版本控制软件
  2. 使用单步创建 开发环境、筹备环境和生产环境分离。每次版本发布都需要经过开发,提交和测试,部署三个环节。 对于配置文件,可以以文件合并,覆盖变量的方式使用开发环境、生产环境的db配置等分离。 对于发布操作,建议统一出口,由专人管理或者由专人兼职管理
  3. 跟踪程序缺陷 问题跟踪系统,跟踪缺陷、特性、操作、支持请求。

在项目不同的阶段建议更新副本,我理解的是建立项目的基线。

编码规范:对同一小组的人而言,对一种编码风格达成共识,远比找到完美的风格更重要。

第4章 国际化、本地化和Unicode

国际化(i18n)是为应用程序添加输入、处理、输出国际文本的能力。 本地化(L10n)是为特定地址提供定制的应用程序的过程。

统一编码字符集.国际化是WEB应用本地化的先决条件。除了我们在程序中经常见到的多语言外, 本地化还包括语言、地区、时区、日期和时间格式、数字显示、货币的其它设定等。 本地化一般包括三种方法:

  1. 字符串替换 如gettext的类库
  2. 多个模板集合
  3. 多个前端

第5章 数据一致性和安全性

数据完整性是工程应用程序成功的关键。可行的数据完整性策略基于一个基本的原则:应用程序的内部数据是有用的。 换句话说,引入的数据在边界处被过滤,以过滤后的结果存储。个人想法:在应用程序内部的各层之间也应该基于这样一个前提条件, 在把数据引入到当前层之前需要对数据进行处理。

对于数据是否转义,作者建议坚持使用一种方式即可,不能混合使用。 过滤和安全可以在各层实现,在数据库层,对于特定用户的权限要区分,只需要读权限的,就只给读权限,秉承权限最小化原则。

第6章 电子邮件

通过为用户提供额外的获取及发布数据的途径,可以拓展Web应用程序的可用性。 电子邮件是异步的,能够实现交互,可以为应用程序拓展异步操作。 可以使用现有技术在应用程序中实现电子邮件机制,不需要重复发明轮子。这是程序员的美德之一:懒惰。

电子邮件的方案一般包括两种:

  1. 将邮件直接传给应用程序
  2. 把邮件传输到本地的POP或IMAP 收件箱,然后应用程序周期性的读取收件箱中的邮件并处理。 这里就产生了一个需求:邮件解析。关注附件,注意字符集编码,过滤不相关内容,识别用户。

第7章 远程服务

本章涉及WEB应用程序中在两个或多个组件之间交换数据的协议、格式和策略的问题。 远程服务小组的首要规则就是不能依赖服务。第二条:服务可能会失败。

套接字: 所有使用TCP或UDP发送的数据都使用了socket连接。当我们执行socket的I/O操作时,都需要在每一步明确的检查失败。 HTTP: 基于XML-RPC、SOAP和REST的服务全部都用HTTP进行基本的传输。HTTP作为高层协议的传输层是相当理想的。 HTTP是无状态、无连接的协议,基于连接-请求-断开连接的语义。在HTTP请求中使用Authorization标头,从而触发http协议的认证功能。 在PHP中可以使用fscokopne函数构造http请求。

远程服务冗余性:系统组件链中的任一组件都可能出现故障,对于故障的不同的情况需要使用不同的表述来说明。 面向用户的组件,往往倾向于使用专门的软件或硬件负载平衡器来处理在线故障转移。

当一个系统中的异构组件之间交换数据时,需要定义两个元素。首先需要媒介和协议,然后是交换数据所需要的元素,就是数据格式 XML的解析有两种主流方式:SAX和DOM](). XML和HTTP都很好,但并不是银弹。有时轻型协议和格式对于特定的问题是更好的解决方案。 在使用XML交换数据时需要考虑内存使用、网络速度、解析速度、写入速度等。 如果没有合适的,自己构建一个协议吧,但是要记住:要避免做任何复杂和费时的事情,努力把工作建立在他人的现有工作成果之上。

第8章 瓶颈

本章讨论了在瓶颈产生前和它们已经影响到系统时,找出和修改体系结构中瓶颈的技术。 所谓的瓶颈就是程序中耗时最多的部分。瓶颈可能从CPU、I/O、网络I/O、内存、数据库等方面着手查找原因 其中磁盘速度是I/O的主要限制因素。 一般来说,WEB应用程序都会有缓存,包括文件缓存,内存缓存等等,有的应用有一层甚至几层的缓存。 有些数据适宜使用缓存,这种一般是读多写少。 在做数据库设计时可以有一定的冗余,到一定规模后,逆范式必不可少。

第9章 扩展WEB应用程序

可扩展的系统有三个简单特性:

  • 系统能够容纳使用率的增加
  • 系统能够容纳数据集的增加
  • 系统可维护

可扩展性与语言无关,与特定的技术无关,与XML无关,并且页面逻辑和业务逻辑的分享对于可扩展性来说也不是必需的。

扩展硬件平台,可以垂直扩展,但其最终会爱到限制,成果较高。可以水平扩展,以不断添加更多硬件的方式实现,以常规机器为主。 然而水平扩展会带来维护成本和管理成本的增加。

冗余:机器都会发生故障,唯一保证故障状态下正常服务的办法就是有多个硬件备份。 所有备份的各类可能是冷备份、热备份和完全热备份。其中完全热备份最为推荐。 扩展PHP:PHP和HTTP一样,是无状态的。PHP将数据集的增长的责任下放到了存储层,这样就能随心所欲地进行扩展。

负载平衡:

  • DNS负载均衡 这是最简单的方法,它是在DNS区域(zone)中为应用程序的域创建不止“一条”记录。 优点:简单,易实现; 缺点:向池中添加和移除机器比较缓慢,无法实现精确控制,不能定制均衡方式
  • 硬件方式的负载均衡 优点:添加和移除机器生效快,能很好的处理故障问题,自动检测自动分流;缺点:价格较贵,可配置性较差
  • 软件方式的负载均衡 通过运行在常规机器上的服务软件来完成负载均衡。应该配置两个或多个进行冗余。

第四层的负载均衡的形式是使用循环(round robin)算法,并且其高度算法也包含定制的度量值。 第七层的负载平衡器检测包括第七层的消息,检查HTTP请求自身。 对于特定应用领域的大型程序,可能需要把应用的服务划分成一个或者多个透明的集群。 有点类似于树结构。

作者在论述Mysql扩展这部分非常精彩,值得多看。包括对Mysql的结构和各个存储引擎的介绍。一些关键点都讲出来了。 Mysql复制有三种方式:

  1. 三主从复制
  2. 从主从复制扩展出来的树状复制
  3. 主主复制 对于自增ID的处理比较麻烦,可以考虑将一个表只放在一个库,也可以去掉自增ID. 它有一个不足之处:任何时候都不存在一份“真实的”数据副本。

复制虽然提供了冗余,提供了扩展,但是它会存在复制失败,复制延迟的情况。当复制延迟时,可以使用同步复制或降低负载,或者自己实现某种技术。 在一定的上下文中可以考虑使用分区扩展。 联合是横向扩展在数据为领域的等价物。

存储扩展:考虑合适的文件系统,协议,使用RAID.

要为给定的组件提高 性能,可以在它的前端添加一个缓存,以减少请求数。如HTTP协议等都有类似缓存的功能。 缓存可以缓存数据,缓存HTTP请求。

第10章 统计数据、监测与警告

数据来源:服务器日志文件分析、负载平衡器 监控应用程序、监控网络带宽,监控Mysql,监控其它软件,将所有的信息收集后,进行汇总,分析,按照需求定制数据的展示。

检查包括资源级别监测,阈值检查,低位检查。

第11章 APIs

数据订阅源:RSS、RDF、Atom等。

读后感

总体来说,这是一本务实的书,或者说这是一本讲术的书。 在一定的时间维度里,这本书有较大的阅读价值。

读完此书后,它对我的作用如下:

  1. 理顺了整个WEB应用的开发流程
  2. 介绍了一些工具和完善了我的知识体系结构
  3. 让我认清了在项目管理和日常中一些工作的意义

Python核心编程读书笔记:第4章,Python对象

第四章学习笔记
【4.1 python对象】
1、Python使用对象模型来存储数据。构造任何类型的值都是一个对象。
2、所有的python对象都拥有三个特性:身份,类型和值;这三个特性在对象创建的进修就被赋值了,除了值以外,其它两个都是只读的。但是某些类的类型也是可以改变的。
3、Python使用句点(.)标记法来访问属性

【4.3 其他内建类型】
1、通过调用type()函数你能够得到特定对象的类型信息
2、当使用Python扩展的切片语法时,就会创建切片对象
3、省略对象用于扩展切片语法中,起记号作用
4、xrange()函数是range()的兄弟版本,用于需要节省内存使用或range()无法完成的超大数据集场合

【4.5 标准类型操作符】
1、Python中多个比较操作可以在同一行进行,求值顺序为从左到右

1
3 < 4 < 7(3 < 4) and (4 < 7)相同

这说明其本质上是多个隐式的and连接起来的多个表达式

2、比较操作是针对对象的值进行的。
3、foo1 = foo2 = 4.3 创建一个4.3的数字对象,然后将这个对象的引用赋值给foo1和foo2,foo1和foo2指向同一个对象
4、Python是通过传递引用来处理对象
5、Python提供了is 和is not 操作符来测试两个变量是否指向同一个对象 如: a is b 等价于 id(a) == id(b)
6、整型和字符串对象是不可变对象,所以Python会很高效的缓存它们,但是在没有任何引用指向它时,这个字符串所占的空间会被回收

【4.6 标准类型内建函数】
1、type()接受一个对象作为参数,并返回它的类型,它的返回值是一个类型对象
2、cmp()用于比较两个对象obj1和obj2。如果是用户自定义对象,cmp()会调用访类的特殊方法__cmp__()。
3、str()和repr()和反引号操作符(“)可以方便地以字符串的方式获取对象的内容、类型、数值属性等信息。
repr()和“做提完全一样的事情,它们返回一个对象的“官方”的字符串,绝大多数情况下可以eval()重新得到该对象,而str()致力于生成一个对象的可读性好的字符串表示 。
4、Python不支持方法或函数重载
5、布尔比较总是返回True或False
6、所有的内建类型都是类,在这基础上,所有的所谓内建转换函数都成了工厂函数,虽然它们看上去有点像函数,实质上他们是类。当调用它们时,实际上是生成了该类型的一个实例,就像工厂生产货物一样。

【4.8 标准类型的分类】
1、字符串是一个自我包含的文字类型
2、以存储模型为标准的类型分类,标量/原子类型(数值,字符串)和容器类型(列表,元组、字典)
3、以更新模型为标准的类型分类,可变类型(列表、字典)和不可变类型(数字,字符串,元组)
4、以访问模型为标准的类型分类,直接访问(数字),顺序访问(字符串,列表,元组)和映射访问(字典)

【4.9 不支持的类型】
1、Python的整型实现等同于C语言的长整型
2、Python的浮点类型实际上是C语言的双精度浮点类型

Python核心编程读书笔记:第二章,快速入门

第二章学习笔记
【2.1 使用print输出】
print调用str()函数显示对象
print默认在输出的内容后面添加回车,如果不想输出回车,在输出内容后面添加逗号,如果要输出多个内容,使用逗号连接,不过如果带逗号的print语句会在输出的元素之间自动添加一个空格
print与字符串格式操作符(%)结合使用,可实现字符串操作功能(这一点和C语言的printf()函数非常相似)

【2.2 程序输入和raw_input()内建函数】
raw_input读取标准输入,并将读取到的数据赋值给指定的变量,如:

1
2
3
user = raw_input('please input name')
print user
help(raw_input)

Help on built-in function raw_input in module __builtin__:

raw_input(…)
raw_input([prompt]) -> string
raw_input从标准输入读取一个字符串并自动删除串尾的换行字符

【2.3 注释】
单行注释: Python使用#符号标示注释,从#开始,直到一行结束的内容都是注释
多行注释:使用三个单引号或双引号
文档注释:
函数内部的第一行开始的字符串为 DocStrings
DocStrings 一般为多行
DocString 为三引号扩起来的多行字符串
第一行为概述
第二行为空行
第三行开始是详细描述
DocStrings 的存在证明了函数也是对象
函数的 __doc__ 属性为该 DocStrings
例如 print printTest.__doc__ 为打印 printTest 函数的 DocStrings
如下所示代码:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
#!/usr/bin/python
# -*- coding: utf-8 -*-
u"""文档注释 文档字符串"""
 
import sys
__author__ = "phppan"
__date__ = "$2010-8-1 17:54:58$"
 
def printTest(string):
    u'''
        printTest 函数注释 文档字符串
        注释第二行
    '''
    print string
 
if __name__ == "__main__":
 
    printTest('hello world')
    printTest(__doc__)  #单行注释
    '''
多行注释
    '''
    printTest(printTest.__doc__)
    print __date__
    print __author__

中文注释问题:
Python里有两种字符串,一种是Unicode字符串,一种是一般的字符串。
Python里字符串的encode函数负责将unicode字符串转化为另外一种Unicode编码形式。
decode函数负责将一般的字符串进行解码,结果为unicode编码。还有一点是unicode()负责将一般的字符串解码为指定格式的unicode字符串。
如果字符串是这样定义:s=’中文’
如果是在utf8的文件中,该字符串就是utf8编码,如果是在gb2312的文件中,则其编码为gb2312。
如果字符串是这样定义:s=u’中文’
则该字符串的编码就被指定为unicode了,即python的内部编码
isinstance(s, unicode) #用来判断是否为unicode

print会对输出的文本做自动的编码转换, print转换的目的编码和环境变量有关,Windows XP是转换为gbk的。可以使用用locale模块的getdefaultlocale方法获得当前环境的编码。而print在输出时会把字符串自动转换为这种编码。

【2.4 操作符】
对于一些数据类型,有些操作符是被重载了的,比如字符串和列表
对于不等于操作符,python支持两种 != 和 <>,建议使用 !=
合理使用括号,增强代码的可读性

【2.5 变量和赋值】
类C语言
以字母开头,可以是数字、字母或下划线
大小写敏感
不需要预先声明变量的类型,变量的类型和值在赋值那一刻被初始化
不支持自增1和自减1操作符

【2.6 数字】
Python支持5种数字类型:有符号整形、长整型、布尔、浮点和复数
其中长整型类似于java中的BigInteger类型,它仅受限于用户计算机的虚拟内存总数
decimal类型需要先导入decimal模块才可以使用

【2.7 字符串】
Python中字符串被定义为引号之间的字符集合。Python支持成对的单引号、双引号和三引号
使用索引操作符({[])和切片操作符([:])可以得到子串
字符串有其我有的索引规则:第一个字符的索引是0(和C语言类似),最后一个字符的索引是-1
加号(+)用于字符串连接运算 星号(*)用于字符串重复

【2.8 列表和元组】
从0开始索引,可以存储不同类型的对象
列表元素使用中括号([])包裹,元素的个数和元素的值都可以改变
元组元素使用小括号(())包裹,不可以更改,可以看成是只读的列表

【2.9 字典】
字典是Python中的映射数据类型,工作原理类似于Hash表,可以将其作为PHP的数组使用
字典由键值对构成,几乎所有对象都可以用作键,不过一般使用数字或字符串

【2.10 代码块及缩进对齐】
Python通过缩进对齐表达代码逻辑

【2.11 if语句】
if expression:
if_suite
elif expression2:
elif_suite
else:
else_suite

【2.12 while循环】
while expresion:
while_suite

【2.13 for循环和range()内建函数】
for循环与传统的for循环不同,更像是PHP中的foreach

for eachNum in range(3):
print eachNum

【2.14 列表解析】
[x ** 2 for x in range(4)]
[x ** 2 for x in range(4) if x ** 2 > 1]

【2.15 文件和内建函数file(),open()】
handle = open(filenaem, mode = ‘r’) 返回一个文件句柄

1
2
3
4
5
    filename = raw_input('Enter file name:')
    fobj = open(filename, 'r')
    for eachLine in fobj:
        print eachLine,
    fobj.close()

【2.16 错误和异常】
将代码“封装”在try-except语句当中,就可以增加错误检测及异常处理

【2.17 函数】
一个函数的语法由def关键字及紧随其后的函数名,再加上该函数所需要的参数组成
def function_name([arguments]):
“optional documentation string”
function_suite

函数的参数可以有一个默认值

【2.18 类】
类是面向对象核心,它扮演相关数据及逻辑容器的角色。
定义类:
class ClassName(base_class[es]):
“optional documentation string”
static_memeber_declarations
method_declarations

所有名字开始和结束都有两个下划线的方法都是特殊方法
self是类实例自身的引用
当一个类的实例被创建时,__init__()就会被自动调用

【2.19 模块】
模块是一种组织形式,它将彼此有关系的python代码组织到一个个独立文件当中。模块可以包含可执行代码、函数和类,或者这些东西的组合。
导入模块:import module_name
访问模块函数或模块变量:

1
2
3
    import sys
    sys.stdout.write('hello')
    print sys.platform

【2.20 实用函数】
dir([obj]) 显示对象的属性,如果没有提供参数,则显示全局变量的名字
help([obj]) 以一种整齐美观的形式,,显示对象的文档字符串,如果没有提供任何参数,则会进入交互帮助
int(obj) 将一个对象转化成整形
len(obj) 返回对象的长度
open(fn, mode) 以mode方式打开一个文件名为fn的文件
range([start,]stop[,step]) 返回一个整形列表,起始值为start,结束值为stop -1,start默认值为0,step默认值为1
str(obj) 将一个对象转换为字符串
type(obj) 返回对象的类型(返回值本身是一个type对象)