第一章 信息系统运维概述
1.1 信息系统概述
信息的含义和类型
信息的含义:
- 一般:人们关心的事情的消息或知识。
- 香农(信息论创始人):用来减少随机不确定性的东西(标志着信息科学进入定量研究阶段)。
- 维纳(控制论专家):信息就是信息。
- 一般2:对事物之间相互联系、相互作用的状态的描述。
- 物质、能量、信息互相有区别,又相互依存,信息是人类了解自然及人类社会的凭据。
信息的主要特征: (出题一般通过案例判定,理解性记忆)
- 可传输性:本质特征,可借助载体脱离信源传输,可转换载体而不影响内容。
- 可存储性:积累、加工、应用的基础。
- 可加工性:扩充、压缩、分解、综合、排序等。
- 共享性:共享不会导致原有享用者失去部分或全部信息。
- 时滞性。
- 再生与增值性:再生是信息价值耗尽后,出于某种目的又有新的用途(天气预报案例);增值是在量变的基础上产生了质变(工厂信息案例)。
- 转化性:物质、能量、信息的互相转化。
系统与信息系统
系统的定义: 为了达到某种目的而互相联系的部件的集合。
系统的特征: 整体性、目的性、关联性、层次性(环境-系统-子系统,即一个系统必然被包括在一个更大的系统中)。
信息系统的定义: 由计算机硬件、计算机软件、网络和通信设备、信息资源和信息用户组成的,以处理信息为目的的人机系统。人们构造信息系统来采集、处理、存储和分发数据,为组织运营与决策服务。(可能选择填空)
信息系统的核心要素:
- 技术——基本支撑、物理构成:
- 数据(信息、知识、智慧)
- 硬件(中央处理器、存储器、输入设备、输出设备)
- 软件(基础软件、信息系统软件)
- 通信网络
- 基础设施
- 人
- 组织——隶属并服务的主体
- 技术——基本支撑、物理构成:
信息系统的影响因素: (做题时需要能归类,哪个属于内部,哪个属于外部)
- 内部因素: 战略计划、管理高层、用户需求、IT部门、现行信息化基础(遗留系统的不同步、信息孤岛等现象,带来的系统同步和集成问题)。
- 外部因素: 技术(指的是外部飞速发展的技术,而非公司内部采用的现有技术)、供应商、客户、竞争对手、经济环境、政府。
1.2 信息系统运维
概念
信息系统运维: 基于规范化的流程,以信息系统对象,以例行操作、响应支持、优化改善和咨询评估等为重点,使信息系统运行时愈加安全、可靠、可用和可控,提升信息系统对组织业务的有效支持,实现信息系统价值。
传统运维包含的观点: (强调软件发布这个时间节点,以运维明确为信息系统生命周期的最后一个阶段,侧重软件的运维)
- 泛化的观点:软件交付后围绕它的任何工作。
- 纠错的观点:软件运行中错误的发现和纠正。
- 适应的观点:适应内外环境变化。
- 用户支持的观点:为软件最终用户提供支持。
新的观点: 认为信息系统运维于生命周期中的启动时间被提前,贯穿于生命周期的始终。
不同视角下的信息系统运维
- 管理的视角
- 服务的视角(以客户为中心)
- 安全的视角(重在预防)
- 治理的视角
- 实践的视角(了解、熟悉、精通各类环节以便解决问题)
框架
- 基本目标: (掌握基本目标、内容)
- 安全
- 可靠
- 可用
- 可控
- 内容:
- 例行操作
- 响应支持
- 优化改善
- 咨询评估
- 运维对象:
- 信息技术基础设施(数据、基本网络、网络设备、硬件环境、基本环境)
- 信息系统1, 信息系统2, 等
- 工具
- 流程
- 运维支持要素: (支撑运维工作的软环境)
- 运维管理部门
- 运维管理人员
- 运维管理制度
- 运维管理设施
可维护性
- 定义: 对系统进行维护难易程度的度量。
- 影响系统可维护性的因素: 可理解性、可测试性、可修改性(注意区分第四章中,有5个可的要求)。
- 能间接衡量系统可维护性的特征: 识别问题的时间、管理延迟时间、维护工具的收集时间、分析诊断问题的时间、修改设计说明书的时间、修改程序源代码的时间、局部测试时间、系统测试和回归测试的时间、复查时间、恢复时间。
系统维护工作的特点
- 是否采用结构化开发方法对系统维护工作有极大影响。
- 系统维护要付出很高的代价(非生产性活动,如理解代码功能、接口、性能等,及生产性活动,如分析评价、修改设计等)。
- 系统维护工作对维护人员要求较高(整个过程、每个层次的了解)。
- 系统维护工作的对象是整个系统的配置。
- 系统维护经常遇到很多问题(例如,绝大多数问题是设计阶段造成的,修改牵一发动全身;维护不具备挑战性,吸引力不高等)。
信息系统运维的要求
- 银行业: 可用性要求级别高(持续性、稳定性、不宕机、6个9的要求),安全性要求级别高,数据运维责任重大(实时、高并发,数据集中牵一发动全身)。
- 大型网站: 线上稳定、业务连续(边开发边运维,因此对稳定性、连续性造成挑战),客户体验优先,迫切要求解决峰值运维问题,自动化要求高(业务应用的变更、创新开发、部署上线是相似度极高的重复劳动)。
- 电信行业: 以电信业务运营支持系统(BOSS,融合BSS和OSS)为核心。“全程全网性”的基础设施运维(规模大、结构复杂、跨地域),数据利用和分析的需求强烈(差异化客户服务),运维成本压力大(基础设施固定投资规模大)。
- 政府: 安全级别高,业务的不间断运维需求高,例行运维亟需加强。
- 制造业: 集成运维需求强烈(涉及设计、生产、管理三方面,容易产生信息孤岛,上下游供应链协同要求),运维管理亟待重视,安全运维不可忽视(内网畅通、技术资料保密、知识产权保护)。
1.3 信息系统运维的发展
发展现状
- 三个“二八现象”(应该做到但未做到的):
- 从时间周期看,运维应占据80%。
- 从信息系统效益看,信息系统的“用好”、优化占80%。
- 从资金投入上看,(重开发轻服务)运维要占80%。
- 信息技术基础设施库(IT Infrastructure Library, ITIL)是IT服务管理领域最佳实践的国际标准。
发展阶段(重点)
- (顺序,缩写重点记忆)
- 网络系统管理(Network System Management, NSM): 包含IT基础架构建设和以IT设备为核心的IT基础设施管理,两任务并行且融合。
- IT服务管理(IT Service Management, ITSM): 解决以上缺乏智能互联、资源浪费和效率低下的问题。是对业务信息化流程的梳理,依托于标准和制度。强调以客户为中心,以流程为导向。
- 业务服务管理(Business Service Management, BSM): 强调从业务目标出发优化IT服务,即IT和业务融合。
发展趋势
- 理念层面——运维之道:
- 服务(从技术支持范畴上升为业务服务)
- 敏捷(敏捷运维,需要1自动化工具,2需要DevOps)
- 管理层面——运维之略:
- 业务服务管理 BSM
- IT运维成熟度
- 外包
- 技术层面——运维之术:
- 自动化
- 虚拟化
- 数据化
- 绿色化(节能减排)
1.4 常见的信息系统
- 财务系统:会计信息系统 + 财务信息系统。
- 办公自动化系统(OA):
- 三个阶段:以数据处理为中心的传统MIS系统 → 以工作流为中心 → 以知识管理为中心。
- 特点:用户界面简单美观易操作、流程控制灵活,便于扩展修改、安全措施全面,方便维护管理。
- 业务处理系统(TPS):
- 五个步骤:数据输入、业务处理、文件和数据库处理、文件和报告产生、查询和处理活动。
- 生产管理系统:
- 物料需求计划 MRP、闭环式MRP、制造业全面资源计划与控制系统 MRP-II。
- ERP系统/企业资源计划系统:
- 整合了客户需求、企业内部制造活动、供应商制造资源。
- 核心管理思想:体现对整个供应链资源进行管理的思想。
- 体现精益生产、敏捷生产和同步工程的思想。
- 体现事前计划和事前控制的思想。
- ERP运用成功的标志:系统运行集成化、业务流程合理化、绩效监控动态化、管理改善持续化。
- ERP的四项核心技术:软件体系结构、企业建模(企业战略规划、信息系统战略规划、信息系统实现、信息系统运行维护)、集成框架与平台、工作流。
- 客户关系管理系统(CRM):
- 包括:市场营销管理子系统、销售管理子系统、客户服务和支持管理子系统、伙伴关系管理子系统。
- 人力资源系统(HRIS):
- 包括:输入子系统(记账子系统、人力资源研究子系统、人力资源情报子系统)、输出子系统(人力计划子系统、招聘子系统、人力管理子系统、酬劳子系统、津贴子系统、环境报告子系统)。
第二章 信息系统运维的组织与管理
2.1 信息系统运维的管理
框架
本节首先给出了信息系统运维管理的框架图,其中包含了主体、对象、流程、职能、目标等要素。
- 主体: 信息系统运维外包商、信息系统运维管理部门、信息系统运维管理者。
- 对象: 运维部门和人员、信息系统供应商、信息系统用户、信息系统数据、信息系统软件、信息系统硬件。
- 流程: 资产管理、流程管理、监控管理、外包管理、综合管理、安全管理。这些流程又可以进一步细化为事件管理、事故管理、问题管理、配置管理、变更管理、发布管理、知识管理等主要流程。
- 职能: 信息系统基础设施运维、信息系统软件运维、信息系统数据运维、信息系统安全运维。
- 目标: 安全、可靠、可用、可控、提升效率、降低成本。
- 管理: 通过管理标准、管理制度和管理规范来指导。
- 工具: 用于支持各项运维流程的实施。
流程的目的
- 标准化
- 流程化
- 自动化
主要流程
流程的实现是基于运维管理系统的,且是闭环方式结束。利用运维管理系统固化运维服务工作流程,提供标准的、统一的服务规范,并提供灵活的流程定制功能。
主要流程包括:事件管理、事故管理、问题管理、配置管理、变更管理、发布管理、知识管理。
1. 事件管理
- 概念: 引起或可能引起服务中断或服务质量下降的不符合标准操作的任何活动。(事件相对事故,包括较为常见和广泛的,包括故障,也包括用户的查询请求等。但事故管理一般针对比较严重的故障)
- 目的: 记录、快速处理信息系统运维管理中的突发事件,并进行分级分类,详细记录事件处理的全过程,便于跟踪了解事件的整个处理过程,并对事件处理结果统计分析。
- 涉及的流程: 事故管理、问题管理、变更管理。
- (事件相对事故,包括是较为常⻅和⼴泛的,包括故障,也包括⽤户的查询请求等。但事故管理⼀般针对⽐较严重的故障)
- 事件是指引起或可能引起服务中断或服务质量下降的不符合标准操作的活动。
- 主要活动:
- 事件发生和通告: 事件发生后,配置项以轮询(被动)和通知(主动)两种方式产生通告信息。
- 事件监测和录入
- 事件过滤
- 事件分类:
- 信息类——存入日志文件中
- 告警类——提交给事件关联进一步分析
- 异常类——判定是否提交给事故、问题、变更管理中的一个或多个管理流程处理
- 事件关联: (针对告警类)将告警类事件与一组标准和规则(业务准则)比较。
- 响应选择: (针对告警类)自动响应 / 报警和人为干预。
- 事件关闭:
- 信息类通常不存在关闭状态。
- 自动响应的告警类通常被设备或应用程序所自动触发的另一事件关闭;人为干预的告警类通常在合适的人员或团队处理完毕评估后关闭。
- 异常类通常在成功启动事故、问题或变更管理流程后评估关闭。
- 事件评估: 抽样的方式,重点关注事件是否被正确移交并处理。
2. 事故管理
- 概念: 针对比较严重的故障。(事故管理不包括与中断无关的正常运营指标或服务请求信息,且找根本原因不是事件/事故管理的重点,只需要解决问题、恢复运营)
- 目的: 解决问题、恢复运营。
- 涉及的流程: 事件管理、问题管理、变更管理。
- 利用的工具/知识库: KEDB (已知错误数据库)、CMDB (配置管理数据库)。
- 主要活动:
- 事故识别和记录: 包括事故基本描述、事故状态、事故类型、事故影响度、事故优先级。
- 事故分类和优先级处理: 根据紧急度、影响度决定优先级。
- 初步支持
- 事故升级:
- 职能性升级(水平): 将事故移交给更专业或更具备相关技术知识的同级支持人员或团队。
- 结构升级(垂直): 将事故移交给更高管理层级或更具权限的人员。
- 调查和诊断
- 解决和恢复
3. 问题管理
- 目的: 包括诊断事故根本原因和确定问题解决方案所需的活动,从而防止事故再次发生,减少事故的影响。
- 涉及的流程: 事件管理、事故管理、变更管理。
- 主要活动:
- 问题检测和记录: 包括问题描述、问题状态、问题类型、服务信息、设备信息等。
- 问题分类和优先级处理
- 问题调查和诊断: 提到了时序分析法、KT 决策法、头脑风暴法、石川图法、帕累托分析法等方法用于分析问题原因。
- 创建已知错误记录 (Known Error Record): 记录问题的根本原因和临时的解决方案。
- 解决问题: 确定问题的最终解决方案。
- 关闭问题
- 重大问题评估: 对重大问题进行回顾和分析,吸取经验教训。
4. 配置管理
- 概念: 负责管理服务生命周期过程中对配置项的变更。
- 目的: 维护配置项及其相互关系的准确信息,从而支持其他的服务管理流程。
- 涉及的流程: 事件管理、事故管理、问题管理、变更管理、发布管理。
- 主要活动:
- 管理规划: 规划配置管理的范围、目标、政策和程序。
- 配置识别: 识别需要管理的配置项 (CI),并分配唯一的标识符。
- 配置控制: 管理配置项的基线和版本,控制对配置项的修改。
- 状态记录和报告: 记录配置项的状态变化,并生成报告。
- 确认和审核: 定期验证配置信息的准确性,进行配置审计。
5. 变更管理
- 概念: 负责管理服务生命周期过程中对配置项的变更。
- 目的: 以受控的方式实施变更,降低变更带来的风险,同时快速有效地响应业务需求。
- 涉及的流程: 事件管理、事故管理、问题管理、配置管理、发布管理。
- 主要活动:
- 创建变更请求 (RFC - Request For Change)
- 记录和过滤变更请求: 对变更请求进行初步审查。
- 评审变更: 评估变更的必要性、可行性和潜在影响。
- 授权变更: 根据变更的类型和风险级别,由不同的角色或委员会进行批准。
- 标准变更: 通常有预定的执行流程,不需要得到 CAB(变更咨询委员会 Change Advisory Board)和变更管理者的授权,而直接转交“请求实现”处理。
- 次要变更: 无需 CAB,直接由变更管理者批准实施。
- 实质性变更: 变更管理者根据变更风险、紧急度和影响度决定,是否征求 CAB 成员意见或召开 CAB 会议。
- 重大变更: 必须事先得到 IT 执行委员会评审,再交由 CAB 讨论具体实施方案。
- 变更规划: 制定详细的变更实施计划。
- 协调变更实施: 协调相关人员和资源,执行变更计划。
- 回顾和关闭变更: 评估变更实施的效果,记录经验教训,并关闭变更请求。
6. 发布管理
- 概念: 变更的后继过程,指的是将变更实施到生产环境的过程。
- 目的: 交付、分发并追溯发布中的一个或多个变更(变了要通知发布,让所有人知道)。确保只有经过测试的、正确无误的信息版本才能发布到运行环境中,保证安全可靠,并控制发布风险,避免或减少失败影响。
- 涉及的流程: 配置管理、变更管理、问题管理。
- 主要活动:
- 发布规划: 规划发布的范围、时间表和策略。
- 发布设计、构建和配置: 设计发布包,构建和配置发布内容。
- 发布验收: 对发布包进行测试和验收。
- 试运行规划: 规划发布的试运行。
- 沟通、准备和培训: 向相关人员沟通发布信息,进行必要的准备和培训。
- 发布分发和安装: 将发布包分发到生产环境并进行安装。
7. 知识管理
- 概念: 贯穿整个服务管理生命周期,是服务管理的基础和重要组成部分。
- 目的: 积累和分享运维知识,提高解决问题的效率,支持决策,促进持续改进。
- 涉及的流程: 配置管理、变更管理、问题管理。
- 主要活动:
- 知识识别和分类: 识别需要管理的知识,并进行分类。
- 初始化知识库: 建立知识库系统。
- 知识提交和入库: 收集知识并提交到知识库(提交的知识存入临时知识库,待知识审核人员进行审批)。
- 知识过滤和审核: 对提交的知识进行审核。
- 知识发布和分享: 将审核通过的知识发布到正式知识库,并分享给需要的人员(通过审核的知识转移至正式知识库)。
- 知识维护和评估: 定期更新和评估知识的有效性。
管理流程考法
考查方式主要为概念,但现在越来越多的结合实际使用场景。
运维管理制度
文档列举了常见的运维管理制度,包括:网络管理制度、系统和应用管理制度、安全管理制度、存储备份管理制度、故障管理制度、技术支持工具管理制度、人员管理制度、质量考核制度。并详细说明了网络中心管理制度和运行管理制度(包括日常运行记录制度)的主要内容。
2.2 信息系统运维的组织
任务
运维组织的任务主要包括日常运行管理、运行日志记录和运行情况的检查与评价。
(a) 日常运行管理
日常运行管理是运维组织最基础和核心的任务,涉及对信息系统各种资源的有效管理和维护。
- 数据资源管理:
- 涉及数据收集、数据校验、数据录入、数据处理等活动。
- 数据资源是信息系统最重要的资源。
- 软件资源管理:
- 包括软件采购、软件保存、相关文档保存。
- 软件的分发与安装配置。
- 运行技术支持。
- 对软件的评价与性能检测。
- 对用户的软件使用培训。
- 硬件资源管理:
- 硬件设备的日常检查和维护。
- 硬件故障的分析和排除。
- 硬件的更新、扩充、修复。
- 硬件的适应性维护。
- 系统安全管理:
- 确保系统的可用性(指系统处于可工作状态的时间比例,常以“几个 9”来量化)。
- 确保系统的完整性。
- 确保系统的保密性。
- 确保系统的可控制性。
- 确保系统的可靠性(指系统在一段时间内不发生故障的能力)。
- 信息服务需求管理:
- 管理用户对信息服务的各种需求。
(b) 运行日志记录
- 记录内容包括工作数量、工作效率、质量、维护修改情况、故障情况等。
- 必须重视正常运行时的情况记录,主要靠人工方式记录。
(c) 运行情况的检查与评价
对信息系统运行情况进行检查和评价时,需要考虑以下三个方面:
- 系统是否达到预定目标: 评估系统是否满足了最初设定的目标,并判断是否需要修改这些目标以适应新的情况。
- 系统的适应性、安全性评价: 评估系统对环境变化的适应能力以及系统的安全性。
- 系统的经济效益评价:
- 评估系统的经济效益。
- 评估系统的社会效益(通常是潜在的)。
职责
可以从运维流程和运维对象两种角度划分职责。
- 流程视角下的信息系统运维管理职责: 列出了事件管理、事故管理、问题管理、配置管理、变更管理、发布管理、知识管理等流程中涉及的人员及其职责。
-
运维流程 人员/角色 职责 事件管理 技术和应用管理人员 制定、设计各项规章制度,确保控制事件管理 IT 运维管理人员 事件监控、响应,事故创建 事故管理 事故管理者 监控、管理、开发维护(管理流程)、生成(报告) 一/二/三线支持人员 执行(事故的调查、诊断、解决和恢复等具体任务) 问题管理 问题管理者 组织联络(协调解决问题),开发维护 KEDB(已知错误数据库) 问题解决小组 制定解决问题的方案 配置管理 配置管理者 执⾏标准、制定、评估(配置管理策略和计划),监督配置管理实施 配置管理实施人员 实施(配置识别、配置控制、状态记录和报告等具体任务) 变更管理 变更管理者 接受变更(请求),评估变更,组织召开 CAB 会议(协调评审和授权) 发布管理 发布管理者 协调(发布活动),确保(发布成功),更新知识库 发布团队 设计构建配置(发布包),验收,测试(发布包) 知识管理 知识提交人员 提交、初步归类(知识) 知识管理者 识别、建立、维护、转移(知识) 知识审核人员 审核(提交的知识)
-
- 对象视角下的信息系统运维管理职责: 列出了系统管理、数据、软硬件等对象涉及的人员及其职责。
-
运维对象 人员/角色 职责 系统管理 系统主管人员 组织各方面人员协调完成系统管理任务。 数据 数据收集人员 收集数据。 数据校验人员 在逻辑上保证数据的正确。 数据录入人员 录入数据。 软硬件 软件和硬件操作人员 按照工作规程进行日常运行管理。 程序员 在系统主管人员的组织下,完成软件的修改和扩充,为满足临时要求编写程序。
-
人员的管理
人员管理的内容比较重要,上下午考试都可能涉及。主要包括:
- 明确规定每个人的工作任务和职权范围,即要有明确的授权。
- 对每个岗位的工作要有定期的检查及评价,要有定量和客观的评价指标,即要有检查和评价。
- 对工作人员进行培训,以便提高能力、改善工作质量,从而提高整个系统的效率。
职责任务和绩效评价原则
列出了系统主管人员、数据收集人员、数据校验人员、数据录入人员、硬件和软件操作人员、程序员等的评价标准。
- 系统主管人员的评价标准: 整个应用系统在管理中发挥的作用及其效益。
- 数据收集人员的评价标准: 数据是否准确、完整、及时。
- 数据校验人员的评价标准: 在系统内部发现的不正确数据的数目及比例。
- 数据录入人员的评价标准: 录入的速度和差错率。
- 硬件和软件操作人员的评价标准: 系统是否安全运行。
- 程序员的评价标准: 编写程序的速度和质量。
运维人员管理的意识
服务意识、主动意识、团队意识、学习意识、专业意识、创新意识、安全意识(管理、技术两方面)。
信息系统运行管理制度的建立和实施
网络中心管理制度
- 目的:
- 给网络设备和中心服务器创造良好运行环境,保证信息系统安全运行。
- 防止非法人员进入,保证程序数据安全。
- 管理机房的主要内容:
- 进入人员的资格审查。
- 环境要求。
- 数据安全的环境要求。
- 明令禁止的活动。
- 材料设备进出的管理要求。
- 机房和设备整洁。
- 制度的主要内容:
- 操作人员的操作行为。
- 出入机房人员的规定。
- 机房电力供应。
- 机房温度、湿度、清洁度。
- 机房安全防火。
- 建立计算机病毒预防和处理机制。
- 禁止带电热拔插。
- 专用机房专人负责。
运行管理制度
- 数据备份是保证系统安全的重要措施。
- 重要修改前也要备份。
日常运行记录制度 (比较重要,上下午都考过)
- 运行日记内容:
- 时间
- 操作人
- 运行情况
- 异常情况(发生时间、现象、处理人、处理过程、处理记录文件名、在场人员等)
- 值班人签字
- 负责人签字
- 必须重视正常运行时的记录,主要靠人工方式记录。
运维模式
- 自主运维模式:
- 优点: 容易管控,可根据自身需要进行人员培训。
- 缺点: 人员数量有限,无法对并发的运维提供支持;培训时间长,无法满足工作要求。
- 完全外包运维模式:
- 优点: 充分利用外部经验,快速提供运维能力;人数扩充容易,可应对大规模运维。
- 缺点: 外部人员管控难度大,信息泄露风险高。
- 混合运维模式:
- 优点: 能充分发挥自主运维和外包运维的优势。
- 缺点: 存在两种运维人员,增加了运维工作复杂度,延长了运维流程;需考虑两种人员的职责划分和人员比例,既要保证工作完成,又要让自有运维人员得到充分锻炼。
文档管理
- 意义:
- 良好的文档管理是系统工作连续进行的保障。
- 良好的文档管理是信息系统维护的保证。
- 理解别人精心设计的程序很难,文档不全更难。
- 系统维护时不能依赖系统开发人员。
- 信息系统是一个庞大的系统,且兼容了计算机和业务两方面的专业知识,了解、维护难。
- 良好的文档管理是保证系统内部数据信息安全的关键环节。
- 良好的文档管理是系统各种信息得以充分利用,更好地为管理服务的保证。
- 任务:
- 监督、保证按要求生成各种文档。
- 保证文档安全、保密。
- 保证各种文档得到合理、有效利用。
- 文档管理制度:
- 运行文档包括: 计算机打印输出的各种报告、报表、凭证;存有数据的磁性介质及其他介质;信息系统开发的全套文档资料。
- 内容:
- 存档手续。
- 安全保证措施。
- 文档管理员的职责和权限。
- 文档分类管理办法。
- 文档使用的审批手续。
- 保存期限、销毁手续。
- 保密规定。
故障管理 (重点)
- 信息系统采取的恢复技术对系统可靠性起决定性作用。
- 种类:
- 硬件故障
- 软件故障
- 网络故障(网络硬件故障、网络软件设置故障)
- 人为故障
- 不可抗力和自然灾害
- 故障预防策略:
- 故障约束: 通过预防性约束措施,防止错误发生或在被检测出来前错误的影响范围继续扩大。
- 故障监测: 对系统的信息处理过程和运行状态进行监控与检测,使已发生的错误在一定范围或步骤内被发现。
- 故障恢复: 将系统从错误状态恢复到某个已知的正确状态,并为了减小数据损失而尽可能接近发生系统崩溃的时刻。
常见故障的处理
- 软件故障与处理:
- 系统文件丢失:添加/卸载,重新安装或复制。
- 文件版本不匹配:同一个 DLL 文件不同版本支持。
- 应用程序非法操作:两个程序不同时使用同一段内存,下载补丁,卸载重装。
- 蓝屏错误信息:一般是安装新软件后与系统发生冲突,改变系统设置,更新驱动。
- 系统资源耗尽:重启。
- 计算机病毒破坏:预防为主,安装防火墙软件和系统安全补丁。
- 硬件故障与处理:
- 电源电压不稳定或经常断电引起的故障:使用电源稳压器或不间断电源 UPS。
- 部件之间接触不良引起的故障:更换插槽或擦金手指。
- 由 CMOS 引起的故障:进入 CMOS 装载默认设置。
- 硬件本身的故障:更换新备件。
- 利用以下方法定位: 直接观察法、拔插法、交换法、比较法、原理分析法、高级诊断程序检测法、测量法、综合判断法。(比起此处,第三章讲述了 3 种设施故障诊断方法,记那个,此处熟悉即可)
- 网络故障与处理:
- 分类为:
- 网络硬件故障:网络设备故障、网络设备冲突、设备驱动程序问题。
- 网络软件设置故障:网络协议设置问题、服务安装问题、安装相应的网络用户、网络标识的设置问题、网络应用中的其他故障(广播风暴、网络通讯阻塞等)。
- 网络故障排除顺序与解决办法: 询问网络用户、咨询系统管理人员、整理分类找出若干可能、故障分析、故障点隔离。
- 分类为:
服务器相关故障的解决方案
- 服务器硬盘故障的解决方案:
- 磁盘冗余阵列(RAID):通过其他硬盘备份,提高服务器对硬盘的容错率,但增加了部分硬件资源的开销,加重了主机系统自身负担。
- 存储子系统:数据存储系统从主机系统中分离。
- 虚拟存储技术:存储子系统可以根据用户的实际数据量和实际配备的物理硬盘空间,自动选择一种最佳的 RAID 组合方式进行配置;日后随数据量的增加,可对 RAID 设置自动优化;利用虚拟技术,可将任意大小的物理硬盘先分割成若干细小的部分然后针对这些细小的部分进行优化 RAID 组合,得到精细、灵活的容错和存储性能。
- 服务器系统部件故障的解决方案:
- 采用全硬件冗余的主机硬件系统:两套相同配件,双倍代价一倍性能。
- 多机切换系统:主要为双机备份系统。
- 主机集中存放,双主机连接同一个存储子系统。
- 主机异地存放,双主机分别连接一个存储子系统。
- 其他灵活的设计方案:采用软件的方式获得数据同步。
信息系统容灾的解决方案
- 企业业务数据必须存储在不同地域。
- 在不同地域之间必须建立稳定、冗余的高速网络连接,以保证其网络的可靠性。
故障的记录与报告
- 故障信息搜集与记录: 故障时间、故障现象、故障部位、故障性质(即种类)、故障处理信息。
- 故障分析:
- 根据故障的表征,分清故障的类型和性质,找出故障的根源。
- 通过对统计资料的分析,获取有价值的信息。
- 故障报告: 按规定程序报主管部门,以便派人处理,得到技术支持。
- 硬件故障——设备制造厂商。
- 软件故障——软件开发部门或软件厂商。
- 网络故障——网络服务商。
2.3 信息系统运维的外包
概念
信息系统运维外包(信息系统代维)是指信息系统使用单位将全部或一部分的信息系统维护服务工作,按照规定的维护服务要求,外包委托给专业公司管理。
模式
- 完全外包模式
- 部分外包模式
- 混合运维模式(优点:发挥自主和外包优势;缺点:管理复杂,职责划分,人员比例)
好处
- 有利于提高组织竞争力。
- 提高服务质量、降低故障率。
- 借助专业公司的管理流程和工具软件,降低信息系统运维的成本。
- 降低业务部门隐性成本。
内容
- 桌面支持外包: 涉及员工工作场所使用的信息处理、通信和计算设备的维护管理(办公环境的维护)。
- 业务包括系统初始检查、硬件故障解决、硬件扩容升级、软件系统支持、防病毒系统支持、网络系统支持、日常维护管理、咨询服务。
- 基础设施外包 / IT基础构架外包: 类似IaaS(基础设施即服务),服务提供商提供硬件,客户租用资源。能降低外部危险和数据损失风险,简化内部人员结构,节省人员费用。
- 业务包括系统/服务器维护支持、软件/服务调试、网络系统维护、系统迁移、数据库维护支持、数据存储和容灾管理、安全系统支持、网站支持、咨询服务。
- 应用系统外包: 与ASP(应用服务提供商)和SaaS(软件即服务)接近,PaaS(平台即服务)也是SaaS的一种。考题能分辨哪些业务属于对应分类即可。
风险管理(考题:外包的好处、风险来源、分析、规避要记得,共16个点,上下午都有)
- 风险来源:
- 外部环境的不确定性:政治,自然,市场风险等。
- 运维外包决策的复杂性:可行性研究,外包方选择,权责界定等。
- 运维外包双方的关系复杂性:文化差异,沟通不力,信息泄露,人力资源风险。
- 运维工作本身的复杂性:技术,设备,安全,运维管理,验收风险。
- 风险分析(带来的问题):
- 组织成本有可能增加
- 组织对服务商的依赖和外包合同缺乏灵活性可能降低组织的灵活性
- 可能会泄露组织的商业机密
- 对外包商缺乏恰当的监管。
- 风险评估: 风险矩阵法、层次分析法、蒙特卡罗法、关键风险指标法、压力测试法等。
- 风险规避:
- 核算外包成本,控制额外支出;
- 组织仍需不断学习;
- 签订完整而灵活的外包合同;
- 选择合适的外包商。
故障管理(重点)
信息系统采取的恢复技术对系统可靠性起决定性作用。
- 种类: 硬件故障、软件故障、网络故障(网络硬件故障、网络软件设置故障)、人为故障、不可抗力和自然灾害。
- 故障预防策略: 故障约束、故障监测、故障恢复。
- 常见故障的处理: 软件故障与处理、硬件故障与处理(提到了定位方法,但强调记忆第三章的3种设施故障诊断方法)、网络故障与处理(分类、排除顺序与解决办法)。
- 服务器硬盘故障的解决方案: 磁盘冗余阵列(RAID)、存储子系统、虚拟存储技术。
- 服务器系统部件故障的解决方案: 采用全硬件冗余的主机硬件系统、多机切换系统(双机备份系统)。
- 信息系统容灾的解决方案: 数据必须存储在不同地域,不同地域间建立稳定、冗余的高速网络连接。
- 故障的记录与报告: 故障信息搜集与记录、故障分析、故障报告(向设备制造商、软件开发部门或网络服务商报告)。
2.4 信息系统运维管理标准
- ITIL(信息技术基础设施库): 实施的最大意义在于IT与业务的紧密结合。ITIL V3是当前最佳实践的精髓,引入了生命周期的概念(服务战略、服务设计、服务转换、服务运营、服务改进)。
- COBIT(信息系统和技术控制目标): 重点关注组织需要什么,而非组织需要如何做,不包括具体实施指南和步骤,是控制架构而非具体过程架构。将信息技术过程归并为四个控制域:计划与组织、获取与实施、发布与支持、检测与评估。
2.5 信息系统运维管理系统与专用工具
框架
信息系统运维管理系统是站在运维管理的整体视角,基于运维流程以服务为导向的业务服务管理和运维管理支撑平台,提供统一管理门户,最终帮助运维对象实现信息系统管理规范化、流程化和自动化的全局化管理。
运维管理系统的架构分为:
- (考点:图中层次的顺序、内容)采集层
- 基础层(资产管理)
- 通用服务层(监控管理)
- 对象服务层(流程管理)
- 管理分析层(外包管理、综合管理)
- 表达层(管理门户)。
运维管理系统的主要功能模块
- 资产管理: 实现对各种设备资产信息的维护、统计及资产生命周期管理。分为静态资产信息管理和动态资产信息管理。
- 静态资产信息管理:资产信息维护、资产信息分析统计、资产⽣命周期管理、辅助决策
- 动态资产信息管理:⾃动发现采集、⾃动同步更新
- 流程管理: 实现IT运维管理所需的流程并监控,确保服务质量,支持故障和服务申请的跟踪。
- 目标
- 1)对运维流程进⾏管控,按照服务等级协议(SLA)调⽤必要的资源,保证处理时限,确保服务质量,⽀持对故障和服务申请的跟踪,确保所有的故障和服务申请能够以闭环⽅式结束;
- 2)利⽤运维管理系统固化运维服务的⼯作流程,提供标准的、统⼀的服务规范,提供灵活的流程定制功能。
- 包括事件管理、事故管理、问题管理、配置管理、变更管理、发布管理、知识管理。
- 目标
- 监控管理: 包括对信息系统相关设备的监控管理。
- 分为视图管理、配置管理、故障管理、性能管理。
- 外包管理: 面向信息系统管理者,进行服务的结果控制管理和过程控制管理。
- 分为:结果控制管理、过程控制管理
- 安全管理: 通过信息化手段实现安全管理支撑能力。
- 分为通信及操作管理、访问控制、信息安全事件管理、风险评估和等级保护。
- 综合管理: 在其他管理功能基础上,实现信息系统整体运维信息统计分析,并支持管理决策。
- 分为 统计分析和决策支持(数据、模型、推理、人机交互)。
运维管理系统和专用工具示例
列举了一些运维管理系统(如CA公司的USPSD、HP公司的运维管理平台、北塔的BTIM、开源的Genome)
运维管理专用工具(如ITIL流程管理平台Remedy及其应用、自动化运维操作管理平台Opsware及其子系统SAS、NAS、PAS、配置管理系统及其作用)。
- 1)ITIL流程管理平台Remedy
- 六⼤应⽤程序:BMC Remedy Service Desk \ BMC Remedy Change and Release Management \ BMC Remedy Asset Configuration Management \ BMC Remedy level Management \ BMC Discovery \ BMC Remedy Configuration Management
- 2)⾃动化运维操作管理平台Opsware
- 三⼤⼦系统:服务器⾃动化系统 SAS、⽹络⾃动化系统 NAS、过程⾃动化系统 PAS
(熟悉以上三个⼦系统,Server/network/process)
- 三⼤⼦系统:服务器⾃动化系统 SAS、⽹络⾃动化系统 NAS、过程⾃动化系统 PAS
- 3)配置管理系统
- 作⽤:信息整合、关系映射、流程⽀持、软件库与硬件库(通过DHL和DSL)
2.6 云运维管理
云运维管理尽量实现自动化、流程化,提供个性化视图。与传统IT运维管理的区别在于集中化和资源池化。
功能
包括自服务门户、身份与访问管理、服务目录管理、服务规则管理、资源调度管理、资源监控管理、服务合规审计、服务运营监控、服务计量管理、服务质量管理、服务交付管理、系统管理、管理集成、管理门户。
云运维最终目标
IT能力的服务化供应,并实现云计算的各种特性(共享、自动化、按使用收费、自服务、可扩展等)。
第三章 信息系统设施运维
信息系统设施运维是指支撑信息系统业务活动的信息系统软硬件和环境的运维。
3.1 管理体系
本节给出了设施运维的管理体系框架图,并介绍了设施运维的对象、制度和人员。
- 设施运维对象: 包括基础环境(通信应急设备系统,比较特殊,要记住)、网络(通信线路、通信服务、网络设备、网络软件)、硬件(最关键的是服务器设施)和基础软件(操作系统、数据库系统、中间件、其他支撑系统)。
- 制度: 可以按运维对象(如机房管理制度、网络基础设置管理制度)和按运维过程管理(如设施运维人员和岗位职责管理制度、运维记录管理制度)进行分类。
- 人员: 根据运维对象,列出了管理人员、技术支持人员和具体操作人员所需具备的经验和技能。
3.2 环境管理
这部分详细介绍了计算机机房的环境管理,包括选址、布局、建筑要求、室内装饰要求以及温度、湿度、照明、防尘、防静电、防磁、防雷、防强光有害气体、防水、防鼠等方面的具体要求和措施,并提供了相关的温湿度、照度、眩光限制等级等标准表格。
计算机机房:
- 选址要求: 水源充足、电力稳定可靠、交通通信方便、自然环境清洁,远离粉尘、油烟、有害气体、腐蚀性/易燃/易爆物品,远离强振源和强噪声源,避开强电磁场干扰,选择坚固、宽敞、洁净、通风、有防雷击设施的房间,避开顶层和底层(第二、三层为佳),使用面积不低于60平方米并有附属用房。
- 布局要求: 划分主机房、基本工作间、第一类辅助房间等区域,规定了各区域的面积比例和设备布置原则,以及主机房内通道和设备间的最小距离。
- 建筑要求: 主体结构耐久、抗震、防火,管线宜暗敷,室内布置协调,围护结构满足保温隔热防火要求,门的尺寸保证设备运输方便,宜设单独出入口,装饰材料选择非燃烧或难燃烧材料,设防火分区,安全出口不少于2个。
- 室内装饰要求: 选择气密性好、不起尘、易清洁、变形小的材料,墙壁和顶棚平整避免眩光,铺设活动地板并规定高度,活动地板下地面和四壁可采用水泥砂浆抹灰,吊顶宜选用不起尘的吸声材料,基本工作间和第一类辅助房间选用不起尘易清洁材料。
- 其他措施: 防静电、密闭、防止给排水漫溢和渗漏、消音隔音、隔振、避免阳光直射。
- 温度湿度: 规定了开机和停机时主机房和记录介质库的温度、湿度要求,并解释了温度过高或过低、湿度过高或过低可能带来的影响。
- 照明: 规定了主机房、基本工作间、辅助房间等的照度标准和选择,眩光限制等级划分及适用场所,照度均匀度,故障照明照度,安全出口标志灯照度,以及限制眩光和选择电光源的要求。
- 防尘: 灰尘会影响散热和导致元件潮湿腐蚀。措施包括保持清洁、设吸尘器、不在操作时吸烟、使用防尘罩、定期清除灰尘。
- 防静电: 静电会引起随机故障、击穿元器件、影响人员健康。措施包括保持湿度、铺设防静电地板、设备接地、操作前释放静电、操作时避免穿尼龙衣物。
- 防磁: 注意显示器防磁。措施包括避开电磁场、远离高压线、金属外壳接地屏蔽、定期对显示器消磁。
- 防雷: 安装避雷针,联成统一电气整体并接地,计算机通信电缆芯线和电话线加装避雷器。
- 防强光、有害气体: 反射系数控制在60%以内。
- 防水: 设置套管、防渗漏措施、水封装置。
- 防鼠: 线路使用防鼠材料,禁止放食品饮料。
电气系统:
- 基本要求: 保证计算机系统运行可靠性、设计寿命、信息安全要求和操作人员工作环境。
- 供配电系统: 介绍了提高电网供电质量的注意事项,以及在提高供电系统可靠性时增加UPS(不间断电源)的理想技术措施。同时说明了UPS的作用(提供备用电源、消除电网污染)和缺点。
- 设备选型: 参考《低压配电设计规范》,对专用配电箱的保护和控制电器选型、备用回路、进线断路器、电流电压表、中线和接地端子等提出了要求。
- 机房布线: 介绍了电源进线应采取过电压保护措施,主机房活动地板下部布线宜采用屏蔽导线或电缆,电源线应远离信号线并采取屏蔽措施,照明配线宜穿镀锌薄壁钢管保护。
- 接地系统: 分为系统接地和屏蔽接地,两者共用接地装置时接地电阻按最小值确定。介绍了四种系统接地方式(交流工作接地、安全保护接地、直流工作接地、防雷接地)及接地电阻要求,以及接地方法(接地棒法、埋设铜板)。
空调系统: 应设消声装置,主机房必须维持一定的正压,并规定了主机房与外界的压差。规定了空调系统的新风量应取的三项最大值。
消防与安全系统: 主机房和基本工作间应设二氧化碳或卤代烷灭火系统,吊顶及活动地板下应设置探测器和喷嘴,还应设空气/氧气呼吸器。还包括火灾自动报警系统、灭火系统、门禁系统和闭路监控系统。
系统支撑环境的参照标准: 列举了国际标准、建筑部分参照标准、电力保障部分参照标准和综合布线部分参照标准。
3.3 设施运维的内容
这部分详细介绍了设施运维的四种类型:例行操作运维、响应支持运维、优化改善运维和咨询评估运维。考点大量为选择题,下午题不多,以区分、理解为主。
- 例行操作运维: (24年考过,注意一下)预定的例行服务,获取运维对象状态,发现处理潜在故障,保证设施稳定运行。
- 需要关注的要素及内容: 例行服务范围/内容、指导手册(任务清单、操作步骤、判定标准、记录要求、异常处置流程、报告模板)、与其他服务内容的接口。
- 成果分类: 无形成果(运行状态、状态恢复、潜在风险消除)和有形成果(运行状态记录、异常处理记录、趋势分析建议、其他报告)。
- 例行操作分类: 设施监控、预防性检查和常规操作。
- 设施监控: 通过工具和技术记录分析设备运行状态,及时发现故障。内容包括设备状态、运行状况和变化情况。详细介绍了基础设施、网络设施(拓扑监控、链路监控、端口监控)、硬件设施(状态监控、性能监控、可用性监控)和基础软件(数据库、中间件、应用服务)的监控内容。
- 预防性检查: 根据监控记录和运行状况进行检查及趋势分析,包括性能检查和脆弱性检查。详细列出了基础设施、网络及网络设备、服务器及存储设备、数据库、中间件等的性能检查和脆弱性检查内容。
- 常规操作: 日常运行、维护和保养。详细列出了服务器及存储设备、数据库、中间件等的常规操作内容。
- 响应支持运维: 针对服务请求、故障申报进行的响应性支持服务,包括故障管理、变更管理。
- 需要关注的要素及内容: 明确受理渠道、实施过程记录、有效申请分类和优先级判断(紧急程度、影响范围、重要程度),设置预警/告警机制及升级流程,及时通知进展信息,与其他服务内容的接口。
- 成果分类: 无形成果(状态恢复、运维知识传递)和有形成果(响应支持记录、关键指标数据记录、重大事件分析报告、满意度分析、其他报告)。
- 根据响应的前提不同,分为: 事件驱动响应(由不可预测原因导致,触发条件包括外部事件、自主事件、安全事件)、服务请求响应(由各类服务请求引发的调整或修改)和应急响应。
- 应急响应: 包含应急准备、监测与预警、应急处置、总结改进四个主要环节。详细介绍了每个环节的重点任务,并与日常工作、故障响应、重点时段保证进行对应。同时详细说明了应急准备(组织制度建立、风险评估与改进、事件级别划分、预案制定、培训与演练)、监测与预警(日常监测、记录与报告、核实与评估、预案启动)、应急处置(应急调度、排查与诊断、处理与恢复、升级与信息通报、持续服务与评价、事件关闭)、总结改进(应急事件总结、应急体系的保持、应急准备工作的改进)的具体内容。
- 优化改善运维: 通过调优改进,提高设备性能或管理能力。
- 需要关注的要素及内容: 改善优化方案(目标、内容、步骤、人员、预算、进度、衡量指标、风险预案、回退方案)、方案评审、试运行观察期、遗留问题改进措施、回顾总结、与其他服务内容的接口。
- 成果分类: 无形成果(性能提升、管理水平提升)和有形成果(优化方案、评审记录、变更和发布报告、其他报告)。
- 包括: 适应性改进(偏向被动,在变化环境中可持续运行而实施的改造)、纠正性运维、改善性运维(偏向主动,根据需求或缺陷采取改进措施增强安全性、可用性和可靠性)和预防性运维(监测纠正潜在问题或缺陷,降低风险)。详细列出了这些类型在基础设施、网络设施、硬件设施、基础软件等方面的具体内容。
- 咨询评估运维: 根据系统运行需求,提供咨询评估服务。
- 需要关注的要素及内容: 制定咨询评估计划、编写咨询评估报告(现状评估、访谈调研、需求分析、咨询建议)、报告评审制度、持续跟踪落地执行情况。
- 成果类型: 无形成果(运维对象的衡量评价、规划建议)和有形成果(咨询评估计划、方案和评审记录、其他报告)。
- 包括: 被动型咨询服务和主动性咨询服务。详细列出了在基础设施、网络设备、硬件设备等方面的咨询评估内容(如负荷与承载能力分析、架构变动建议、配置调优分析等)。
3.4 设施的故障判断和修复
本节介绍了设施故障的分类、主要原因与现象、故障排除步骤以及故障诊断方法和修复原则。
- 分类: 按区域划分(机房内故障、机房外故障)和按故障性质(链路故障、配置故障、协议故障、服务器故障)。
- 主要故障原因与现象: 网络链路(通常是硬件或通信介质引起,可通过工具测试)、配置文件和选项、网络协议、服务故障(服务器硬件故障、网络操作系统故障、网络服务故障)。提到了排除硬件故障后应重点检查配置文件和选项故障,以及网络内所有服务或个别服务故障时的检查重点。
- 故障排除步骤: (上下午都考,要能背出内容和顺序)识别故障现象、详细描述故障现象、列举可能原因、缩小搜索范围(检查LED指示灯、系统日志、利用管理软件)、定位错误、故障分析。
- 故障诊断方法: 排除法、对比法、替换法。
- 故障诊断与修复原则: (上下午都考,要能背出内容和顺序)先易后难、先软后硬、先边缘后核心、先链路后设备。
- 注意事项: 保证所有修复操作可恢复(备份、保存快照、留存日志),重视记录。
3.5 信息系统设施运维系统与专用工具
- 系统功能: 资源管理(设备快照、设备视图、设备活动及软件信息、端口分布)、监控管理(基础环境、网络设备、硬件设备、基础软件监控)、故障预警管理(资源预警、网络性能预警、基础软件性能预警)。
- 专业工具: 根据阶段和类型,列举了部署工具(如Kickstart, Cobbler)、配置工具(如Puppet, Chef)、监控工具(如Nagios, Zabbix)、日志分析工具(如Splunk, Graylog),并强调记住工具与类型的对应关系。还列举了其他运维工具(如glpi, Network Notepad, Iometer, Netperf, Unicornscan)。
3.6 云环境下的信息系统设施运维
- 云计算特征: 资源配置动态化、需求服务自助化、网络访问便捷化、服务可计量化、资源虚拟化。
- 优势: 设施运维工作更专业敏捷,设施运维单机故障影响更小,设备运维成本更低。
- 挑战: 设施架构复杂度更高,设施故障可能造成更大范围的损失,运维故障处理难度更大。
- 要求: 整体性要求、自动化规模化要求、数字化要求、智能优化要求。
第四章 信息系统软件运维
信息系统软件是信息系统运行的核心。
4.1 概述
概念
信息系统软件运维是指信息系统软件在开发完成投入使用后,对其进行的改正性维护、适应性维护、完善性维护、预防性维护等软件工程活动。
可维护性
信息系统软件维护工作直接受到软件可维护性的影响。软件可维护性指软件产品被修改的能力,修改包括纠正、改进或软件对环境、需求和功能规格说明变化的适应。
可维护性的度量可以从以下几个方面进行:
- 可理解性
- 可靠性:表明软件系统在给定时间内正确执行的概率,可通过错误统计或程序复杂性预测。
- 可测试性:取决于系统的可理解性、复杂性和设计合理测试用例的难易程度等。
- 可修改性
- 可移植性
维护类型
(此处和设施运维中的优化改善运维差不多:适应性运维、纠正性运维、改善性运维、预防性运维)
- 纠错性维护: 针对发现的错误进行修复。
- 适应性维护: (被动的)为适应硬件更新、系统使用寿命延长等环境变化而进行的维护。
- 完善性维护: (主动的)根据用户需求扩充功能、增加新特性、改进效率等。在系统维护工作中,完善性维护占比较高(达到50%)。
- 预防性维护: 对尚能正常运行但可能发生变化的系统进行维护,为未来修改和调整奠定基础。
信息系统软件运维的体系
信息系统软件运维体系包括需求驱动、运维流程、运维过程、运营支撑要素和运维管理原则。
- 需求驱动: 由用户需求驱动,是软件运维工作的起点,目的是满足用户的改正性、适应性、完善性、预防性需求。
- 运维流程: 运维策划、运维实施、运维检查、运维改进(迭代的循环过程,PDCA)。
- 运维过程: (考的多,重点)日常维护、缺陷诊断与修复、配置管理、变更管理、系统恢复管理、发布管理。
- 运营支撑要素: 应遵从ITIL、ISO20000、ISO27001等标准要求。包括运维管理制度、运维管理部门、运维管理人员(软件运维工程师、系统管理员、技术服务经理)和运维管理设施。
- 运维管理原则: 遵守规章制度、与其他部门协同工作、遵守保密原则、保证数据和系统安全、及时上报无法解决的问题、详细记录运维过程和结果。
趋势——DevOps
解释了运维、开发产生鸿沟的原因(开发不考虑运维影响、沟通不及时、手动修改配置、工具集差异、操作系统差异),并介绍了DevOps的原则(基础设施即代码IaC、持续交付、协作)和价值(产品高效交付、改善组织文化、提高员工参与感)。还提到了DevOps的工具(版本控制软件库、深层模型系统、人工任务自动化)。
4.2 管理
运维的目的是保证信息系统软件正常可靠运行并不断改善提高,充分发挥作用。运维过程是不断满足用户各种维护要求的PCDA循环,关键要素是人员、资源、技术、过程。
- 人员: 人员管理(规划、培训、绩效考核)、岗位设置(管理、技术支持、操作岗位及其职责)、知识技能和经验。
- 资源: 资源配置为运维服务提供保障。包括服务台管理(单一接触点、沟通桥梁、发起者/记录者)、运维工具管理(监控工具、过程管理工具)、知识库管理(技术技能积累、提升解决问题能力、降低依赖、提高团队技能)。
- 技术: 需具备发现和解决问题、风险控制、技术储备及研发、应用新技术和前沿技术的能力。
- 过程: 日常运维、缺陷诊断与修复、配置管理、变更管理、系统恢复管理、发布管理等,详细见4.3。
运维策划
对信息系统软件运维活动的服务内容、组织、资源、标准、改进等进行全局策划。
- 内容: 根据业务定位和管理范围策划运维服务对象的业务内容和要求,形成服务目录。
- 组织: 由业务管理和信息系统运维管理部门共同组成,从功能和技术角度进行控制。
- 资源: 分析人力、环境、财务、技术、时间资源等。
- 标准: 制定运维流程、安全、文档、考核评估体系等标准。
- 改进: 策划如何管理、审核并改进运维服务质量,建立内部审核评估机制。
运维实施
按照整体策划实施,保证制定并执行实施计划,建立客户沟通协调机制,按规范实施并记录,提交满足质量要求的交付物。
运维检查
定期评审运维过程和管理体系,调查客户满意度,检查指标达成情况。
运维改进
建立改进机制,总结分析不符合项,调查分析未达成指标,确定改进措施,制定改进计划并监控评估有效性。
文档管理
运维文档是提供决策支持的载体,应注意文档管理制度化、标准化规范化、落实管理人员、保持一致性和维护可追踪性(按版本控制)。
4.3 过程
本节详细介绍了信息系统软件运维的几个主要过程:
- 日常运维: 主要内容包括监控、预防性检查、常规操作(同设施运维中的例行操作运维)。详细列出了监控内容(CPU、内存、磁盘、进程、服务/端口、日志、资源消耗、数据库连接等)、预防性检查内容(响应时间、病毒查杀、口令安全、日志审计、进程及资源消耗分析等)和常规操作内容(日志清理、启动/停止服务/进程、用户账号管理、密码更新、备份等)。强调日常运行是常规活动,应按规范定时定点启动。还介绍了日常运行、例行测试、例行维护、定期测试维护的流程和关键点。
- 缺陷诊断和修复: 介绍了软件缺陷的严重性(微小、一般、严重、致命)和优先级(最高、较高、一般、低),并区分了与应急响应中事件级别划分的不同。列出了软件缺陷在处理过程中的多种状态(新建、延后处理、已指派、已修复、无法重现、需要更多信息、重新打开、关闭、驳回)。根据软件测试观点,将软件缺陷分为五大类:功能缺陷、系统缺陷、加工缺陷、数据缺陷、代码缺陷,并详细列出了各类缺陷的细分和内容。最后,介绍了缺陷诊断与修复的流程和关键点(初步诊断、异常修复/技术支持、重大缺陷处理申请、报告编制和文档归档)。
- 配置管理: 应用于整个软件工程过程的标识、组织和控制修改的管理技术。关键活动包括配置管理计划、配置与配置项、版本控制、变更控制、配置审计(功能审计、物理审计)、状态报告(区分第二章中的配置管理流程的关键活动)。
- 变更管理: 为适应项目运行过程中各种因素的变化,保证项目目标的实现而对项目计划进行部分或全部变更,并按变更后要求实施的过程。重要用途是控制变更和进行变更度量分析。主要目标是标准化方法和程序、记录配置项变更、降低风险、响应客户需求、确保受控的记录/评估/授权/实施/评审活动(区分第二章中的变更管理流程的目标)。详细介绍了评审变更、评估变更、实施变更的关键点。
- 系统恢复管理: 当软件不能正常工作时,对系统实施恢复安装操作,使其尽快恢复正常稳定运行。属于维修性质的服务管理。关键点包括系统操作员提出申请、维护工程师分析原因、恢复安装前检查/恢复系统后测试、技术服务经理跟踪确认、过程文档存档。
- 发布管理: 变更的后继过程,将变更实施到生产环境。目的是通过项目规划实施变更,确保只有测试过的正确版本才能发布到运行环境,保证安全可靠,并控制发布风险,避免或减少失败影响(区分第二章中的发布管理流程的目的)。
4.4 系统与专用工具
系统功能
信息系统运维系统是以流程、技术、服务为导向的业务服务管理和运维支撑平台。信息系统软件运维的管理内容包括信息系统软件信息采集、信息系统软件监控和信息系统软件分发功能。
专用工具
列举了软件运维不同阶段和类型的专用工具:
- 版本控制工具: 集中式的CVS、SVN,分布式的GIT、Mercurial。
- 构建工具: Ant、Gradle、Maven(将源代码生成可执行程序的自动化工具)。
- 安装部署工具: 自动化批量安装工具(Kickstart、Cobbler、OpenQRM),自动化部署工具(Capistrano、CodeDeploy)。
- 配置管理工具: Ansible、Chef、Puppet、SaltStack。
- 系统监控工具: Datadog、Graphite、Icinga、Nagios、AppDynamics、New Relic。 强调需要记住工具与类型的对应关系,看到案例知道用哪一类工具。还列举了其他运维工具(信息资源管理工具glpi、交互式拓扑绘制工具Network Notepad、存储子系统读/写性能测试工具Iometer、网络性能测试工具Netperf、端口扫描器Unicornscan)。
第五章 信息系统数据资源维护
数据是信息系统管理的对象与结果,是组织生存和发展的重要战略资源。信息系统数据资源维护旨在保障数据资源处于高可用状态,使信息系统可持续稳定高效地运行。
5.1 信息系统数据资源维护体系
本节介绍了信息系统数据资源维护体系的组成要素和管理类型。
信息系统数据资源维护包括: 建立管理制度、规范业务流程、开展运行监控与维护、故障诊断和排除、数据备份和恢复、数据归档和检索等。
运维管理对象: 数据文件(物理表现形式)、数据管理系统(实现数据收集、更新、存储的管理系统,如操作系统、数据库)、存储介质(存储数据的物理载体)。
管理类型: 主要有三类:运行监控、故障响应和数据备份。
- 运行监控: 数据维护人员周期性、预定义的维护活动,及时获取数据资源状态。包括实时监控(利用工具对存储、传输状态和相关设备进行记录和监控,如数据合法性、备份有效性、安全事件等)、预防性检查(根据监控记录、运行条件和状况进行的预先检查和趋势分析,包括数据完整性、数据冗余、数据脆弱性)、常规作业。
- 故障响应: 系统维护管理人员针对服务请求或故障申报进行的响应性支持服务。根据前提不同,可分为事件驱动响应(外部事件、系统事件、安全事件触发)、服务请求响应、应急响应(重大事件、自然灾害、政府行政命令)。
- 数据备份: 对数据产生、存储、备份、分发、销毁等过程的操作,或对数据的应用范围、应用权限、数据优化、数据安全等内容按规定程序进行的例行性作业,如数据备份、数据恢复、数据转换、数据分发、数据清洗等。
- 归档检索: 根据需求对归档数据进行查找,是开展提供利用工作的基本手段和开发归档数据资源的必要条件。
- 数据优化: 通过优化改进提高设备性能或管理能力,如调整数据库索引、空间,增强设备投入或调整备份恢复策略降低数据丢失风险。
管理内容:
- 维护方案: 明确组织体系、职责任务、防范重点、关键环节及可能造成的破坏程度、经济损失度。
- 例行管理: 对数据资源载体(存储介质)、传输转储设备、历史数据进行管理,对数据库管理系统和数据库进行维护、监控、优化,对数据资源进行备份与恢复管理。
- 应急响应: 主要目标是在面临事故和灾难时保障数据高可用性和系统可持续性。需要预先制定应急预案、配置保障措施,并在灾难发生后执行保护与恢复工作。具体包括制定应急故障处理预案/小组/步骤方法、灾难发生后及时采取措施、制定灾难恢复计划并定期演练。
- 数据资源的开发和利用: 对数据资源进行整理分析,利用知识发现工具有目的地挖掘数据,获取新的信息或知识。
5.2 信息系统数据资源例行管理
数据资源例行管理是一种预防性的维护工作,旨在通过周期性监控、检测和保养,及时发现并消除系统运行缺陷或隐患,使系统长期安全、稳定、可靠运行。
- 例行管理计划: 根据信息系统侧重点不同制定,需列出监控检测对象、重要性等级、常规操作方法、频次或周期、正常状态值和报警阈值等。
- 数据资源载体的管理: 存储介质要有明确标识,使用统一命名规范,注明重要信息。管理包括借用、转储、销毁等环节,文档中提供了相应的流程图(借用、转储、销毁管理流程,注意可能考流程顺序)。
- 数据库例行维护(重点): 一般包括健康检查、数据库监测管理、数据库备份与恢复、数据库性能优化等方面。
- 健康检查: 包括数据库日志检查(日志是数据恢复的重要基础)和数据库一致性检查(物理和逻辑一致性,使用DBCC命令)。列出了DBCC语句分类及其执行的任务。
- 数据库监测管理: 从应用可用性、系统资源占用和数据库性能指标三个方面监测数据库应用相关服务。包括数据库基本信息监测(文件系统、碎片、死锁进程)、数据库表空间监测、数据库I/O监测。
- 数据库备份与恢复: 解释了数据备份是将数据和结构等信息复制到其他存储介质。介绍了数据库故障类型及恢复:事务故障(内部逻辑错误或系统错误)、系统故障(软故障,系统停止运转但数据库不破坏)、介质故障(硬故障,外存故障破坏数据库)。
- 数据库性能优化(重点): 空间释放(事务日志文件管理)、表的重构(针对更新频繁的表)、索引重建(针对频繁插入/更新/删除操作的表)、数据分片(将海量数据分布在多个存储设备上实现并行读写)。
- Oracle数据库监控: 通过系统自带语句或监控软件进行监控。详细列出了监控内容和相应的SQL语句/视图名称,包括:检查数据库基本状况(实例状态、在线日志状态、表空间状态、数据文件状态、无效对象、回滚段状态)、检查相关资源使用情况(初始化参数值、数据库连接情况、系统磁盘空间、表空间使用情况、扩展异常对象、system表空间内容、对象的下一扩展与表空间最大扩展值)、检查数据库备份结果(重点,检查备份日志信息、备份卷文件产生时间、Oracle用户的Email)、检查数据库性能(等待事件、性能差的SQL、等待时间最多的系统等待事件、运行很久的SQL、消耗CPU最高的进程、碎片程度高的表、表空间的I/O比例、文件系统的I/O比例、死锁及处理)、检查数据库CPU、I/O、内存性能(使用top、free -m、iostat、uptime命令,检查僵死进程、行链接/迁移、定期做统计分析、缓冲区命中率、共享池命中率、排序区、日志缓冲区)、检查数据库安全性(系统安全日志信息、用户修改密码)、其他检查(crontab任务、Oracle Job失败、数据量增长情况、失效索引、不起作用的约束、无效trigger)。
- SQL Server 监控: 使用SQL事件探查器和性能监控工具诊断性能问题。SQL事件探查器用于分析和衡量TSQL性能,捕捉服务器事件,可用于查看耗时过多的存储过程、排除性能问题(使用模板、捕捉TableScan和DeadLock事件、创建重放跟踪和优化跟踪、捕捉ShowPlan)。性能监视工具PerfMon用于收集硬件和软件相关的统计数据。
5.3 信息系统数据资源备份(重点)
数据备份是防止数据丢失的重要措施。数据备份系统由硬件和软件两部分组成,选择时需考虑容量、费用、速度、易保管性、可维护性、可操作性、可用性、管理策略、对系统性能影响、可扩充性、运行费用等。
备份类型:
- 按数据备份模式分: 逻辑备份(备份简单,不需要外部存储设备)和物理备份(实现完整恢复,需运行在归档模式下,需要较大外部存储空间,如冷备份和热备份)。
- 按备份过程中是否可接收用户响应和数据更新分: 冷备份(系统停止运行情况下复制,最快最安全)和热备份(系统运行情况下备份,占用资源多,投资大,恢复时间短)。
- 按数据备份策略分: 完全备份(所有数据拷贝)、增量备份(针对完全或上次备份,恢复繁琐但备份快,冗余小)、差异备份(针对上次完全备份,恢复只需完全和最近差异备份,备份较快,冗余小)。
- 按备份的实现方式分: 远程磁带库/光盘库备份、远程关键数据+磁带备份、远程数据备份、网络数据镜像、远程镜像磁盘。
- 按数据备份的存储方式分: 直接附加的存储方式(DAS,直接连接到服务器)、存储区域网络方式(SAN,通过光纤通道连接,易扩展,需高带宽)、网络附加存储方式(NAS,独立存储节点在网络中,依赖网络稳定性,有自己的服务器和操作系统)。注意中英文对照。
常用备份相关技术(重点):
- 磁盘阵列技术(RAID): 通过多块磁盘组合提升性能和可靠性,将数据切割成区段存放在不同磁盘。介绍了不同RAID等级(RAID 0、RAID 1、RAID 5、RAID 10)的特点、容量、性能、安全性和典型应用,并对比了RAID 10和RAID 01。
- 双机热备: 广义指两台服务器互相备份执行同一服务,一台故障时另一台接管,自动保证服务持续。狭义指基于主备(active/standby)方式,数据同时写多台或使用共享存储,一台故障时备用机激活。按切换方式分为主-备方式和双活方式。组成方案包括基于共享存储(磁盘阵列)和基于数据复制(不建议使用,可能导致数据不完整)的方式,以及磁盘数据拦截(分区拦截技术、磁盘拦截技术)。
5.4 云环境下的数据资源存储及维护
- 云存储: 采用网格技术、分布式文件系统、集群应用等将海量异构存储设备通过软件控制,共同提供数据存储访问处理功能的系统服务。是多种存储技术的综合集成。与传统PC存储区别在于通过宽带网络将数据存放在远端并进行访问管理。
- 云环境下的数据资源维护: 云计算以数据为中心,在数据存储、管理和安全方面有独特技术。采用分布式存储和冗余存储保证可靠性。云存储系统一般有命名服务器、元数据服务器、内容数据服务器。主要体现在对海量数据高可用性、安全性、高效管理的要求,以及面向新型存储技术的数据资源维护方法变革。注意可以考归类题,熟悉即可。
5.5 信息系统数据资源的开发与利用
从信息系统对决策支持的程序可划分为事务处理、分析处理和商务智能三个层次,应用层次越高,对数据管理和集成性要求越高。
事务处理: 围绕基本业务自动化,加工处理数据和信息,回答“发生了什么”。
分析处理: 围绕分析和控制功能,回溯、分维、切片和what-if分析,回答“为何会发生”。
商务智能: 围绕经营策略和竞争优势,挖掘整理数据信息获取支持决策的知识,回答“将会发生什么”。
数据仓库: 数据获取、数据存储、数据访问。
数据挖掘: 通过挖掘数据仓库中大量数据,发现有意义的新的关联模式和趋势的过程。
- 根据知识类型分类: 概念描述(归纳或简约,如按年龄分组观察购买频次和平均消费额)、关联规则(发现数据间关联性、相关性、因果关系,如超市商品关联分析)、分类和预测(按类划分数据,挖掘描述和模型预测未来值)、聚类(按标准汇总数据形成新类)、时间序列数据分析(统计方法应用,包括趋势偏差分析、用户定义模式匹配、周期数据分析)。主要掌握“例如”。
- 数据挖掘在电子商务中的应用: 找到潜在客户、实现客户驻留、改进站点设计、进行市场预测。
- 数据挖掘过程: 准备数据、发现模式(统计分析、知识发现、可视化方法)、分析解释模式(关联规则、分类、聚类、序列模式、路径分析)。
- 数据挖掘在应用中面临的问题: 分析变量选择、数据抽取方法选择、数据趋势预测、数据模型可靠性、数据私有性和安全性、结果不确定性。
WEB数据挖掘技术:
- 包括三种数据挖掘任务: 对WEB内容的挖掘、对WEB结构的挖掘、对WEB访问的挖掘(研究最深入)。
- WEB数据挖掘流程: 查找资源、模式发现、模式分析。
- 数据来源: 服务器端数据收集、包监测技术、后台数据库原有数据。
- 技术实现总体流程: 确立目标样本、提取特征信息、网络信息获取、信息特征匹配。
第六章 信息系统安全
6.1 概述
概念
信息系统安全是指保障计算机及其相关设备、设施(含网络)的安全,运行环境的安全,信息的安全,实现信息系统的正常运行。
信息系统安全包括实体安全、运行安全、信息安全和人员安全。
- 实体安全: 也称物理安全,保护计算机设备、设施及其他载体免遭自然灾害和环境事故破坏。包括环境安全、设备安全和媒体安全。
- 运行安全: 目标是保证系统连续正常运行。包括系统风险管理、审计跟踪、备份与恢复、应急处理。
- 信息安全: 防止信息资产被非法泄露、更改、破坏或非法辨识、控制,确保信息的保密性、完整性、可用性、可控性、真实性、可审查性。包括操作系统安全、数据库安全、网络安全、病毒防护、访问控制、加密和鉴别。
- 人员安全: 指计算机使用人员的安全意识、法律意识及安全技能等。
常见信息安全术语(重点)
文档列举并解释了一些常见的信息安全术语,包括:备份、解密、加密、暴露、容错、信息系统控制、风险、威胁、脆弱性、保密性、完整性(数据完整性和系统完整性)、可用性、恶意软件。
影响信息系统安全的因素
包括故意威胁和非故意威胁。
- 故意威胁: 攻击者执行非法操作,如作为另一用户执行命令、访问受限数据、伪装身份、执行拒绝服务攻击。产生因素包括盗取、操控、破坏、依赖、恐怖袭击。
- 非故意威胁: 系统存在弱点导致能力丧失,或存在可被轻易访问的登录点。产生因素包括人为错误(与安全性相关的大部分问题由此产生)、环境灾害、信息系统故障。
信息系统安全保护等级
根据国标GB/T22240-2008《信息系统安全保护等级定级指南》提出定级方法。
- 等级划分: 第一级(对公民、法人和其他组织合法权益造成损害,但不损害国家安全、社会秩序和公共利益)、第二级(对公民、法人和其他组织合法权益造成严重损害,或对社会秩序和公共利益造成损害,但不损害国家安全)、第三级(对社会秩序和公共利益造成严重损害,或对国家安全造成损害)、第四级(对社会秩序和公共利益造成特别严重损害,或对国家安全造成严重损害)、第五级(对国家安全造成特别严重损害)。
- 定级要素: 等级保护对象受到破坏时所侵害的客体(公民、法人及其他组织合法权益;社会秩序、公共利益;国家安全)和对客体造成侵害的程度(一般损害、严重损害、特别严重损害)。
- 定级一般流程: 确定定级对象 → 确定业务信息安全受破坏时侵害客体 → 综合评定侵害程度 → 确定业务信息安全等级;同时进行 确定系统服务安全受破坏时侵害客体 → 综合评定侵害程度 → 确定系统服务安全等级 → 最终确定定级对象的安全保护等级。
6.2 硬件安全运维
信息系统硬件是信息系统运行的物质基础。
概念
硬件安全运行是指保护支撑信息系统业务活动的硬件资产免遭自然灾害、人为行为导致的破坏。主要包含环境安全、设备安全和介质安全。
- 环境安全: 指信息系统核心设备的运行环境安全,要素包括机房场地选择、屏蔽、防火、防水、防雷、防鼠、防盗、防毁、供配电系统、空调系统、综合布线、区域防护等。
- 设备安全: 保护设备(服务器/网络设备等)正常运行,免受威胁。
- 介质安全: 包括介质自身安全及介质数据的安全。
硬件安全运行的影响因素
- 自然及不可抗因素
- 人为的无意失误
- 人为的恶意攻击
- 缺乏完整可靠的安全防线(安全措施不完善)。
硬件安全运行的措施
- 环境安全: 重点保证中心机房安全,涉及机房场地的选择、内部安全防护措施、建筑材料防火安全措施(规定了耐火等级)、供配电安全、防水防潮、温度控制、防静电、接地防雷击、电磁防护等。
- 设备安全: 应按照相关技术要求提供设备的防盗防毁、防止电磁信息泄露、防止线路截获、抗电磁干扰及电源保护等措施。设备应提供基本的运行支持和必要的容错故障恢复能力(如磁盘阵列技术、硬盘镜像技术)。提及了内外网隔离(网闸物理隔离,防火墙逻辑隔离)。
- 记录介质安全: 采取严格保护措施防止被盗、被毁、受损;对应该删除销毁的重要数据要有有效管理审批手续,防止非法复制;配备门卫、值班管理员、电子监控设备等,限制对网络设备的物理接触。
6.3 软件安全运行
信息系统的正常运作依赖于信息系统软件的正确运行。
概念
软件包括系统软件(操作系统、数据库系统、中间件)和信息系统应用软件(如ERP、SCM/CRM、OA等)。根据GB17859-1999《计算机信息系统安全保护等级划分准则》进行分级(用户自主保护级、系统审计保护级、安全标记保护级、结构化保护级、访问验证保护级)。
影响因素
主要有两种:
- 针对操作系统的安全漏洞实施攻击。
- 针对基于WEB的信息系统软件的攻击。
- 操作系统安全漏洞: 输入输出非法输入、访问控制混乱、不完全的中介、操作系统后门、操作系统型病毒。
- 基于WEB的信息系统软件攻击: 常见方法和技术包括修改Cookie、利用不安全证书、非法输入获取敏感信息、缓冲区溢出、强制访问未授权网页、修改隐藏变量、构造非法请求、提交非法脚本、SQL注入。
- 主要攻击方式: 欺骗、数据篡改(常为内部人员)、病毒攻击(使用频率最高)、拒绝服务攻击(影响最广泛)、编程攻击。
- 编程攻击的方法(重点): (概念和阐述的对应)病毒、蠕虫、特洛伊木马、逻辑炸弹、拒绝服务、嗅探器、伪装欺骗、口令破解、后门、恶意小程序、数据包监测、ARP攻击。
软件安全运行的措施
- 操作系统的安全: 构造安全模型(单级、多级、系统安全模型)和实施方法;采用隔离、核化、环结构等设计方法;建立完善的评估标准、评价方法和测量质量。对付后门的方法包括加强开发阶段控制、实行科学使用控制、制定规范开发标准加强管理监督。
- 服务器上的操作系统软件、防病毒软件和防火墙软件的安全: 根据需求选择合适操作系统并定期更新补丁;安装防病毒软件并定期更新补丁和病毒特征库;安装防火墙软件并定期更新补丁、配置安全防护策略;定期对服务器操作系统进行安全检查(建议每周一次)。
- 防范病毒的策略(重点): 制定完善的计划是最佳方法。介绍了病毒的进入途径和相应的防范策略(扫描下载程序文档、每日扫描、充分备份、保留审计记录、扫描软盘、扫描上传下载文件、频繁备份、使用干净启动/恢复盘、不要信任外部PC、病毒扫描前制定策略、明确风险领域)。为将危害降到最小的防范措施包括安装反病毒软件、每周扫描硬盘、U盘写保护和扫描、程序磁盘写保护、完整频繁备份、不信任外部PC、制定反病毒策略、明确风险领域。针对病毒的防范措施主要包括制定处理电子邮件规章制度、使用互联网服务提供商的病毒检测控制服务(可使用新技术、防止内部犯罪、转嫁风险)、合同注明条款避免损失、指导员工扫描发送的电子邮件。
- 信息系统软件的安全: 劣质软件导致安全问题是管理规范问题,可将责任交给特定小组(需要黑白帽子思维人员)。实施安全计划可雇用外部咨询人员,但此类人员稀少成本高。对大型系统可培养熟悉软件操作的人员负责安全。应用系统服务器安装了信息系统软件,是业务处理平台,用户读写数据的桥梁,应有专人持有密码并定期修改且符合复杂性要求。
- Web应用系统上传漏洞和SQL注入防范: 解决办法包括服务器端路径参数尽量使用常量、对用户提交数据全面检查(文件后缀名、禁止自定义文件名)、加强操作系统安全配置限制执行权限;SQL注入防范必须在软件开发程序代码上形成良好编程规范和代码检测机制。
- Web应用系统漏洞检测技术: 爬虫技术(遍历网页分析系统)、Web应用系统软件安全漏洞检测技术(利用爬虫分析架构,利用工具建立数据库进行模式匹配找漏洞)、Web系统应用软件安全漏洞验证技术(对发现漏洞进行验证)、代码审计(检查代码找弱点)。
- 防火墙技术: 主要由服务访问政策、验证工具、包过滤和应用网关组成。主要作用体现在排除未授权用户、禁止脆弱服务进出、过滤不安全服务非法用户、防止IP盗用路由攻击、防止入侵者接近防御设施、限定用户访问特殊站点、为监视Internet安全提供方便(重点)。
- 入侵检测技术: 对计算机网络资源的恶意使用行为(外部入侵和内部非授权行为)进行识别和相应处理。按检测方法分基于行为和基于知识;按分析原始数据分来自系统日志和网络数据包。常用手段包括监视分析用户系统活动、系统构造和弱点审计、识别已知进攻活动模式并报警、异常行为模式统计分析、评估重要系统和数据文件完整性、操作系统审计跟踪管理识别违反安全策略行为。
6.4 信息系统数据安全
数据是体系组织核心竞争力的重要资源。
概念
数据安全是指保护数据不会被意外或故意泄露给未经授权人员,以及免遭未经授权的修改或破坏。数据安全是信息系统安全保障的核心问题之一。
数据安全的两个基本原则(重点):
- 最低特权: 用户只能获得执行任务必需的信息。
- 最少透露: 用户访问敏感信息后,有责任保护信息,不向无关人员透露。
数据安全技术包括以保持数据完整性为目的的数据加密、访问控制、备份等技术,也包括数据销毁和数据恢复技术。
影响因素
- 物理环境的威胁(硬件故障、自然灾害、系统软硬件不可知因素)。
- 病毒与非法访问的威胁。
- 对数据库的错误使用与管理不到位。
- 数据库系统自身的安全缺陷(数据库基本特征是自主访问控制)。
保护数据安全的措施
防御重点是预防。
- 容灾与数据备份:
- 容灾系统(业务处理连续能力最高)。
- 高可用集群系统(业务连续性比容灾系统低)。
- 智能存储系统(LAN自由备份、无服务器备份)。
- 实施数据备份要做到3点:制定详尽备份策略、定期检查备份执行日志/情况、备份数据介质集中异地保管。
- 备份系统。
- 身份认证: 入网访问控制(基于生物特征认证)。
- 网络的权限控制: 针对网络非法操作的安全保护措施,根据访问权限分特殊用户(系统管理员)和一般用户。对目录和文件的访问权限一般有八种(系统管理员权限、删除权限、读权限、写权限、创建权限、修改权限、文件查找权限、存取控制权限)。
- 数据加密: 实现数据存储和传输保密的重要手段。实现了三个目的:验证身份、控制和保护隐私。方法有对称密钥加密(双方共享密钥,加解密速度快,算法易实现,安全性好,用于孤立环境,缺点是密钥短,密码空间小)和非对称密钥加密(公开密钥和私有密钥对,私有密钥加密,公开密钥解密,即签名过程,CA验证)。
云环境下的数据安全
- 云环境下的数据安全策略: 建立以数据为中心的安全系统、重视加密方法和策略规则、完善认证与身份管理体系。
- 云环境下的数据安全: 数据生成阶段(回避)、数据迁移阶段(传输加密)、数据使用阶段(静态数据通常不加密,处理来自公共资源是漏洞)、数据共享阶段(共享策略)、数据存储阶段(加密,对称式加密算法更适合)、数据销毁阶段(硬盘擦写、数据销毁算法、物理销毁)。
6.5 信息系统安全管理
信息安全管理体系
三要素:人、制度和技术。过程包括确定方针和范围、进行风险分析(资产评估是前提)、根据风险分析建立体系(法律政策、规章制度、教育、技术措施、审计管理措施)、建立业务持续计划并实施安全管理体系。指导思想是:技术产品是基础,管理是关键,人员管理是核心,政策是指导原则。
灾难备份与灾难恢复
灾难指人为或自然原因造成信息系统严重故障、瘫痪或数据严重受损,导致业务停顿或服务水平不可接受的突发事件。灾难恢复是将信息系统从不可运行状态恢复到可接受状态的活动或流程。业务连贯性计划(BCP)也叫灾难恢复计划(DRP)。灾难备份是前提基础,灾难恢复是具体应用。
- 类型: 按距离远近分同城灾备(易实现同步镜像,数据零丢失,防范火灾、建筑物破坏、供电故障、人为破坏等)和异地灾备(距离远,异步镜像,少量数据丢失,防范战争、地震、水灾等)。按保障内容分(文档中未详细展开)。
- 制定灾难恢复计划的主要观点: 目的在于灾难发生后确保业务运转,信息系统部门和职能经理参与制定,针对每项职能制定恢复计划,首先关注全部功能丧失情况下的恢复,检验能力涉及假设分析,计划必须书面并标明关键应用和恢复规程,放置安全地点,分发副本,定期审定,可使用专用软件提高效率。
- 可能存在的缺陷: 不全面、不充分或效力不足、不现实、过于细致、未进行沟通、缺乏明确流程、未经测试、未经协调、过时、缺乏关于恢复的思考。
- 灾难备份与恢复的衡量(重点): 恢复点目标(RPO,丢失的数据量)、恢复时间目标(RTO,系统恢复时间)、恢复可靠性指标(RRO,恢复/切换成功率)、恢复完整性指标(RIO,恢复到正确完整逻辑状态的能力)。
- 灾难备份与恢复的等级(重点): 按国际标准SHARE78分7个等级(0级至6级,6级为数据零丢失);按国家标准GB/T20988-2007分6个等级(1级至6级,6级为零数据丢失和远程集群支持)。国家机关、金融等重要部门数据中心级别要求4级以上。
涉密信息系统安全管理
- 级别划分: 秘密级(三级要求)、机密级、机密级(增强)、绝密级(五级要求)。
- 管理要求: 集中管控、终端不存、个人不留(实现集中存储、计算、管理)。
- 分级保护的管理过程: 系统定级阶段、安全规划方案设计阶段、安全工程实施阶段、信息系统测评阶段、系统审批阶段、安全运行及维护阶段、定期评测与检查阶段、系统隐退终止阶段。
- 安全运行的隐患与防范: 安全措施调整不影响定级时从安全运行及维护阶段进入安全工程实施阶段;改变安全分级时进入系统定级阶段重新开始分级保护实施过程。
第七章 物联网、云计算运维
本章探讨物联网和云计算环境下的信息系统运维。
7.1 物联网运维
概念及特征
- 概念: 物联网(IoT)是在计算机互联网基础上,通过信息传感设备将物与物连接起来,按约定协议进行信息交换和通信,实现智能化识别、定位、跟踪、感知、监控和管理的一种网络概念。
- 特征:
- 全面感知: 利用条码、RFID、传感器等随时随地采集获取物体信息。
- 充分互联: 通过互联网和各种无线网络融合,实时准确传递物体信息。
- 智能处理: 利用模式识别、海量数据检索、数据挖掘等技术分析优化处理海量数据信息,提取有用数据,实现智能化决策和控制。
- 以上三个特征要求物联网相连的每件物品均可寻址、可通信和可控制。
体系结构(重点)
物联网的体系结构分为四个层次,由下到上依次为:感知层、传输层、处理层、应用层。需要记住每个层次及其内容。
- 感知层: 位于最下层,是基础,作用是采集各种物体设备的数据,采集设备包括RFID阅读器、无线传感器、GPS定位系统、智能设备等。在数据传输前进行预处理,只传输关键数据以减少传输负载。
- 传输层: 位于感知层和处理层之间,起到承上启下的作用,负责稳定、高效、实时、安全地传输上下层数据,实现“全面、随时、随地”传输感知层数据。包括传感网络、短距离无线通信、移动网络、有线网络。
- 处理层: 位于传输层和应用层之间,是物联网智能的源泉。包括智能处理、云计算、数据挖掘。
- 应用层: 物联网的终极目标,各种关键技术最终落脚在智能应用。包括运营平台、信息中心、内容服务、专家系统。
应用类型
- 监管控制型(如污染监控)
- 查询检索型(如智能电网远程抄表)
- 智能控制型(如智能交通路灯控制、智能家居控制)
- 智能扫描型(如条码/RFID标签扫描、手机钱包、交通运输码ETC应用)
物联网RFID关键技术
- 射频识别技术(RFID)系统逻辑由EPC标签、读写器、Savant中间件、ONS服务器、EPCIS等组成。
- RFID对物品进行信息检索的部件是: Savant中间件、ONS服务器、EPCIS。
- ONS服务器: 解析EPCID与对应的EPCIS服务器,类似互联网中的DNS。
- EPCIS: 提供与ID相关联信息的服务器。
- 神经网络系统(Savant中间件): 分布式操作软件,管理传送EPC码相关数据,处于读写器和局域网/Internet之间,负责数据缓存、过滤、处理等功能。
- EPC信息服务器(EPCIS)与物理标记语言(PML): EPCIS由产品制造商维护,存放产品相关数据信息的PML文件。PML是由XML扩展而来的适合物联网数据通信的语言,由PML核(记录底层设备物品信息)和PML扩展(记录其他附加信息)组成。
- 读写器: 对EPC标签进行信息数据读取或写入的设备。按设置方式分(手持移动、固定),按读写功能分(阅读器、编程器、读写器)。
- EPC标签的分类(重点): RFID系统的标识和部分数据载体,由标签专用芯片和标签天线组成。
- 根据供电方式: 有源EPC标签(主动,距离大,成本高)、无源EPC标签(被动,距离小,成本低)、半有源EPC标签(半主动)。
- 根据频率: 低频、高频、超高频、微波EPC标签。
- 根据封装形式: 纸状、玻璃管、线形、圆形、信用卡标签以及特殊用途的异性标签等。
物联网WSN关键技术(无线传感器网络)
- 物联网的前提是为物体赋予独特地址(RFID标签、EPC编码解决)。
- IPV6: IPV4更新版,支持地址数量远大于IPV4。IPV4到IPV6过渡采用双栈技术和隧道技术(将IPV6数据包打包成IPV4数据包传输)。
- 传感器(Sensor): 把物理量转换为电信号的器件,物理世界与电气设备世界的数据接口,选取应根据需测量物理量和传感器性能。
- 无线传感器网络(WSN): 部署在监测区域内大量传感器节点通过无线通信形成的多跳自组织网络,通过基站与其他网络互联,遵循IEEE802.15标准。WSN基于低速无线网络,功耗低。
物联网运维系统体系结构
物联网运维系统基于ITIL理念。体系结构分为控制系统层、数据处理层和运维服务层。
控制系统层: 物联网运维管理要集成的对象,包括RFID操作系统、传感器管理系统、网络管理系统、监控系统等,独立运行,对外提供不同接口。
数据处理层: 提供运维管理系统所需的经逻辑处理后的数据。对运维系统数据进行处理、分类,选择合适的数据存储系统存储到数据中心。包括数据采集转换、高速缓存、优化整理、报警分析、联动分析、业务流程、数据持久化。
运维服务层: 整个系统的对外展现窗口,包括各种监控、查询、配置的功能界面模块,如报警监控、实时监控、视频监控、业务管理等通用功能组件和业务流程处理界面,提供个性化用户界面。包括用户管理、终端管理、实时监控、其他模块。
实时监控: 直接提取显示数据处理模块采集处理的数据,或将高速缓存中的数据入库前直接展示给用户。
历史数据查询: 将高速缓存数据存储到数据中心,用户通过搜索引擎查询历史数据。
智能告警: 对数据处理层处理后的数据进行检索,超过阈值则产生告警事件。功能包括阈值设置、自动报警、报警处理。
物联网运维系统特点
- 基于B/S模式,便于用户通过网络浏览器访问。
- 实时展示传感节点信息,通过手动设置值产生告警事件并处理。
- 物品跟踪时,实时更新物品和标签对应关系,设置物品运行路径,维护读写器信息。
- 支持分布式数据采集和处理。
- 基于ITIL框架的业务流程设计。
7.2 云计算运维
概念
云计算是一种基于互联网的计算新模式。Wiki定义是通过互联网上异构、自治的服务提供按需即取的计算。Gartner定义是利用互联网技术将大量可扩展弹性的相关能力作为服务提供给多个用户。中国云计算网定义是分布式计算、并行计算和网格计算的发展或商业实现。
本质特征
分布式的计算和存储特性、高扩展性、用户友好性、良好的管理性、用时付费。
四个要素
- 硬件、平台、软件和服务都是资源,通过互联网以服务方式提供(改变了传统自给自足模式)。
- 资源可根据需要动态扩展和配置。
- 资源物理上以分布式的共享方式存在,逻辑上以单一整体呈现(理解包括并行计算的地域集中和地域上的分布式)。
- 用户按需使用云中资源,不需要管理(即付即用模式)。
体系结构
云计算体系结构包括技术层次和服务层次。
- 云计算技术层次: IT基础资源、虚拟化资源、中间件管理部分、服务接口。
- 服务接口:统一规定服务接入点规范标准,形成客户端与云资源交互接口,负责用户注册、查找、定制、使用功能。
- 中间件管理:在云计算机服务与IT基础资源之间提供管理和服务行为,包括资源、安全、用户、镜像管理等。
- IT基础资源:支持云计算系统正常运行的基础设施及技术。
- 虚拟化资源:对IT基础资源进行虚拟化获得更灵活可靠功能,如网络/存储/计算/数据库资源池。
- 云计算服务层次: 可划分成四个不同层级的服务集合,越往上客户管理越少。
- 软件即服务(SaaS): 通过网络提供程序服务,最接近用户,用户通过瘦客户端访问,不管理底层基础设施。
- 平台即服务(PaaS): 提供开发语言和工具等部署到云计算基础设施的服务。客户不管理底层基础设施,但能控制应用程序和托管环境设置。
- 基础设施即服务(IaaS): 出租基础设施,提供虚拟集群计算能力和存储能力。客户不管理云计算基础设施,但能控制操作系统、存储空间、部署应用,可能获得有限网络组件控制。
- 硬件即服务(HaaS): 将硬件资源作为服务提供给用户,加速云计算客户端向“瘦客户端”发展。
云计算部署模式
- 公有云: 对外部客户提供服务,优点是无须投资建设,问题是有数据安全风险,可用性不受使用者控制。
- 私有云: 企业自己使用,服务供内部人员或分支机构使用。优点是安全性、系统可用性可自己控制,问题是投资大。
- 混合云: 介于公有云和私有云之间。部署方式对提供者要求较高。
云计算的数据中心
发展历史经历了三个阶段:大集中过程(解决分散管理和容灾)、实施虚拟化(提升灵活性,提高资源利用率,降低成本)、云计算阶段(解决动态需求和最终成本问题,IT部门专注于服务提供和业务运营)。大集中面向物理组件和业务模块,虚拟化面向计算与存储资源,云计算最终面向IT服务。
ITIL目前在国内主要应用V2版本,包括一个职能(服务台)和六大模块(服务管理、IT基础设施管理、服务管理规划与实施、应用管理、安全管理、业务视角)。服务管理是核心,分服务交付和服务支持两部分。
关键技术
- 虚拟化技术(核心): 允许将硬件视为资源池按需分配。优势包括更高利用率、节省能耗成本、节约空间、灾难恢复/业务连续性。
- 虚拟化分类: 按实现层次分(平台虚拟化、操作系统虚拟化、应用程序虚拟化),按应用领域分(计算、存储、网络、安全、桌面虚拟化等),按某类衍生划分(CPU、文件虚拟化等)。
- 不同实现层次上的虚拟化(重点):
- 平台虚拟化:允许任意操作系统及应用环境运行于特定系统之上。虚拟机监控器(VMM)分完整虚拟化(硬件虚拟化)和准虚拟化(半虚拟化)。
- 操作系统虚拟化:以母体系统为样本克隆多个子系统,解决核心安全、隐私、管理问题。
- 应用程序虚拟化:软件免重装,不怕系统重装。
- 虚拟化管理: 包括虚拟化网络管理(实现物理设备协同工作和统一管理)和虚拟化服务器管理(基于VMware架构管理虚拟资源和虚拟机迁移)。
- 资源管理技术
- 任务管理技术
- 应用管理IMC APM、统一数据管理平台IMC UDM、iAR智能分析报表管理IMC IAR。
第八章 银行信息系统运维
银行信息系统在降低运营成本、促进金融产品发展以及突破时间和空间限制方面发挥着重要作用。
银行信息系统目标(重点)
- 数据实时处理
- 支持对大规模数据的并发处理
- 数据集中管理
- 高度安全性
银行信息系统功能
银行信息系统通过多种渠道,以核心模块和应用程序对客户信息和账户信息进行输入、处理、传输、存储和输出。处理对象是客户资料和业务资料(客户数据和账务数据)。
根据业务性质,可分为:
- 后台处理系统:掌握营业状况、防范金融犯罪、保存查阅业务档案、分析挖掘潜在客户数据。
- 前置处理系统:面向各业务应用系统进行统一接入管理和判断转发,屏蔽核心账务系统,减轻负荷,简化开发维护。
- 柜面业务系统
- 自助服务系统
银行信息系统结构(重点)
银行信息系统结构通常分为五个层次:
- 基础框架层: 规定开发、运行和维护的基本规范和规章制度,包括存储服务、容灾备份策略、安全体系架构、标准管理、运维体系和系统管理等。
- 数据层: 主要包括客户数据和账务数据,普遍采用总行数据大集中管理模式。包括客户信息数据、综合账务数据、信用卡账务数据(通常在总行数据大集中服务器上),中间业务的客户数据、清算与对账数据、地方性安全认证数据(通常在各地分行的前置平台上)。
- 应用系统层: 包括核心业务系统(总账、客户信息、信贷管理、现金管理系统)、业务辅助支持系统(财务管理、综合报表、人力资源、知识管理系统)、经营管理系统(客户关系管理、风险管理、绩效管理、管理会计、审计管理系统)。
- 渠道整合层: 连接应用系统层和客户服务层,是数据交换枢纽和安全保障核心。包括综合前置平台和银行统一门户平台。
- 客户服务层: 通过多种方式满足客户需求(自助服务设备、手机银行、网上银行系统、综合前端服务平台)。
实例架构
文档中给出了一个实例架构,包括集中展现层(可视化展示、统一运维门户、统计、权限管理、通知中心等)、数据汇聚层(监控性能、告警数据汇聚采集与集中存储,提供统一事件平台和性能管理)、监控工具层(面向各类设备的资源监控采集)、系统接口(与第三方系统的数据/功能接口、上线级联接口、展现接口)。
网络监控管理
- 网络设备管理:监控网络、安全设备基本状态和实时运行性能。
- 网络拓扑管理:自动计算网络拓扑,采集设备运行状态和性能参数,直观反映网络设备和线路整体状态。
- 网络性能监控:监控网络、安全设备基本状态和实时运行性能。
- 网络故障监控:监测和定位网络故障事件,实时采集故障信息,发现可能导致网络运行异常的事件。
- 网络设备可监控项: CPU利用率、内存利用率、并发连接数、风扇状态、电源状态、温度、路由表、吞吐量、PING时延等。端口相关指标如ARP包率、单播包率、发送/接收利用率、发送/接收丢包率、发送/接收错包率、发送/接收速率、广播率、组播包率等。接口状态、接口收发流量、接口广播/组播、接口丢包率、带宽、带宽利用率等。
- 网络协议监测: 包括STP、VTP、OSPF、BGP协议。
系统应用监控
- 主机设备监控管理: 服务器硬件监控(电流、传感器风扇/状态/温度、电源功率等,通过IPMI协议实现)和服务器操作系统监控。
- 数据库监控管理: 监控数据库运行状态和性能。
- 应用与中间件监控管理: 对基础应用平台的基础信息、连接测试、基本负载等重要信息进行监测,分析服务响应速度变化的技术原因和规律。列举了常见的通用服务(如Apache, HTTP/HTTPS, IIS, Domino, POP3, SMTP, DNS, FTP)及其监测内容。
- 虚拟化监控管理: 对虚拟化环境进行监控。
统一事件平台
运维管理平台的核心功能之一。将IT系统中各种设备或管理系统产生的事件作为原始事件,按预定义规则进行过滤、分类、分级、转换等处理,形成有效预警或故障告警信息,按预定方式通知管理人员或自动响应。支持告警升级、自动或手动消除,用户自定义故障类型升级策略。包括环节:事件接收、事件标准化、事件过滤、事件压缩、告警消除、告警升级、告警丰富、告警根源分析、告警联动通知。
统一性能管理PMDB
包括监控可视化(可视化设计工具、运行可视化展示)和综合管理(统一门户、通知中心、报表平台、权限管理)。
系统接口与集成方案
- 系统接口设计原则: 开放性、先进性、标准性、高效性、安全性、稳定性、易实现性、易维护性。
- 二次开发扩展接口: 监控采集扩展、数据汇聚和管理扩展、事件接受处理扩展、运维流程扩展、报表展现扩展、数据仓库、上下级联接口。
- 系统扩展性设计: 监测能力扩展、事件处理扩展。
银行灾备系统
首先区分几个概念:业务连续性管理、应急管理、灾备管理。
- 业务连续性管理: 针对可能导致业务中断的风险或已发生并导致业务中断的事件进行管理。
- 应急管理: 关注各种突发事件的应急处置,不一定会导致业务中断但会造成影响。
- 灾备管理: 业务连续性管理和应急管理的交集中的特殊情况,专门针对IT灾难。
文档中用维恩图示例说明了这三个概念的交叉关系,并给出了一些具体的例子(如营业所火灾属于灾备管理、员工宿舍楼火灾属于应急管理、核心业务系统交易高峰CPU负载过高属于业务连续性管理)。
- 框架: 灾备体系建设需要从技术、管理、业务三个方面进行。
- 技术体系: 包括恢复信息系统所需的数据、人员、系统、网络、环境和预案等。数据和人员是前提,系统、网络、环境是技术资源保障,预案是行动方案。包括数据备份、运行和技术保障、备用数据处理系统、备用网络系统、备用基础设施(最重要的是灾备机房)、灾难恢复预案。
- 管理体系: 组织机构在日常和灾难状态下的管理工作。包括灾难恢复组织机构、岗位和培训管理、灾难恢复预案管理与演练(演练是验证预案有效性的最佳手段)、灾备中心日常运维/灾难响应与重续运行管理、外部资源管理(与合作对象、服务商等建立日常联系或签订协议并测试支持能力)。
- 业务体系: 主要指业务恢复预案。
- 灾备体系建设步骤:
- 制定灾难恢复策略(指导方针)。
- 按框架从技术、管理、业务三方面建设灾备体系,实现灾备恢复策略。
- 组织灾难恢复演练。 这三个步骤是一个循环迭代、不断完善演进的过程。策略调整需重新审视调整体系、组织演练、修订管理制度。
第九章 大型网站运维
9.1 大型网站概述
定义与分类
- 定义: 大型网站基于运维复杂性角度,指的是网站运维相关的指标,如网站规模、知名度、服务器规模(大于1000台)、页面浏览量 PV(每天上亿)等达到一定量级。
- 分类:
- 按照发展阶段划分:
- Web 1.0:以静态、单向阅读为主,信息可以直接与其他网站信息交换,能通过第三方平台整合多家网站信息。
- Web 2.0:以分享为特征的实时网络,用户拥有自己的数据并在不同网站使用。
- Web 3.0:以网络化和个性化为特征,提供更多人工智能服务,完全基于 web,浏览器即可实现复杂系统程序功能。强调微内容自由整合、适合多种终端平台、良好人性化用户体验及个性化配置、有效有序的数字新技术。
- 按照应用类型划分:
- 资讯类网站(新闻门户):信息量大、访问群体多、功能相对简单。
- 交易类网站(电子商务):以实现交易为目的,功能复杂,数据精确性要求高。
- 社会性网站(SNS):基于社会网络关系,支持用户高频输入,要求支持高并发写入,数据一致性要求相对较弱。
- 游戏类网站:投入取决于游戏复杂度。
- 功能类网站:将广泛需求的功能扩展到极致,如搜索引擎类。
- 按照发展阶段划分:
大型网站的特点(重点)
- 并发用户数多、流量大。
- 系统 24 小时不间断服务的高可用性。
- 需要使用大量服务器以存储和管理海量数据。
- 用户分布广泛、网络情况复杂。
- 层出不穷的安全问题。
- 产品更新、需求变更快,发布频繁,以适应不断变化的用户需求。
- 系统架构由简到繁的不断变化。
大型网站架构的演进
大型网站的架构通常会经历一个逐步演进的过程,以应对不断增长的访问量和数据量。
- 最开始的网络架构: 应用程序、数据库、文件都部署在一台服务器上。
- 应用、数据、文件分离: 应用程序、数据库、文件各自部署在独立的服务器上。
- 利用缓存改善网站性能(重点):
- 缓存实现常见方式:本地缓存、分布式缓存(还有 CDN 内容分发网络、反向代理等)。
- 本地缓存:数据缓存在应用服务器本地(内存或文件,如 OS catch),速度快,但空间有限。
- 分布式缓存:可缓存海量数据,易扩展(常使用 Memcached、Redis),速度可能不如本地缓存。
- 28 原则:80% 的访问请求最终落在 20% 的数据上。
- 使用集群改善应用服务器性能: 在应用服务器前部署负载均衡服务器调度用户请求,分发到多个应用服务器节点。
- 常见的负载均衡技术:硬件有 F5,软件有 LVS(四层负载均衡)、Nginx(七层负载均衡)、HAProxy(四层、七层负载均衡)。
- LVS 分发路径优于 Nginx 和 HAProxy,性能更高;Nginx 和 HAProxy 更具配置性,可用于动静分离。
- 数据库读写分离和分库分表: 改善数据库性能。
- 读写分离:将数据库分为读库和写库,通过主备功能实现数据同步。
- 分库分表:水平切分(拆分特大的表)和垂直切分(根据业务不同切分)。
- 使用 CDN 和反向代理提高网站性能:
- CDN:将内容缓存到运营商机房,用户从最近运营商获取数据,减少网络访问路径。
- 反向代理:部署在网站机房,用户请求先访问反向代理服务器,返回缓存数据,否则从应用服务器获取(反向代理如 Squid、Nginx,其实是一种缓存)。
- 使用分布式文件系统: 应对文件增多,单台文件服务器无法满足需求。
- 常用的分布式文件系统:NFS、GFS(Google)、ZFS、Ceph、TFS(TAOBAO)、MFS、HDFS(hadoop)。
- 使用 NoSQL 和搜索引擎: 针对海量数据查询,提升性能(键值对映射)。
- 常用的 NoSQL:Mongodb 和 Redis。
- 搜索引擎:Lucene。
- 将应用服务器进行业务拆分: 将应用程序拆分为独立业务应用,通过消息通信或共享数据库。
- 搭建分布式服务: 抽取应用使用的基础服务,利用分布式服务框架搭建。
文档中还提供了常用软件的分类和名称列表(如本地缓存、分布式缓存、反向代理、分布式文件系统、NoSQL、搜索引擎、负载均衡技术硬件/软件),需要记住这些工具与类型的对应关系。
9.2 大型网站运维背景知识
运维的技能及素质
运维是一个集多 IT 工种技能于一身的岗位,需要对系统、网络、存储协议、需求、开发、测试、安全等各环节有一定了解,对某些环节须熟悉甚至精通。
- 技能方面:
- 开发能力(需要开发运维工具)。
- 通用应用了解:操作系统(Linux、BSD)、WebServer(Nginx、PHP、Apache、JAVA、Lighttpd)、数据库(MySQL)。
- 系统、网络、安全、存储、CDN、DB 等相关原理。
- 素质方面:
- 沟通能力、团队协作。
- 工作中需胆大心细。
- 主动性、执行力、意志力。
- 做网站运维需要有探索创新精神。
- 合格的运维工程师:
- 保证服务达到要求的线上标准,保证线上稳定。
- 不断提升应用的可靠性与健壮性、性能优化、安全提升。
- 网站各层面监控、统计的覆盖度,避免监控死角,实时了解应用运转情况。
- 通过创新思维解决运维效率问题。
- 运维知识的积累与沉淀、文档的完备性。
- 计划性和执行力。
- 自动化运维。
运维的关键技术点
- 大规模集群管理问题: 常规集群可分为高可用性集群(HA)、负载均衡集群(LVS)、分布式存储、计算存储集群(DFS,如 Google GFS、Yahoo Hadoop)、特定应用集群(如 DB、Cache 层等)。需要记住这些英文缩写。
- 监控: 包括故障监控和性能、流量、负载等状态监控,关系到集群健康运行及潜在问题发现干预。包括服务故障/状态监控和集群状态类监控或统计。
- 故障管理: 处理硬件故障和应用故障问题。
- 自动化: 自动化运维是运维工程师职业追求和核心重点工作之一,是价值体现。
大量高并发网站的设计方案
高可靠、高可伸缩性网络架构设计;网站安全问题;南北互联问题,动态 CDN 解决方案;海量数据存储架构。
9.3 政府门户网站运维案例分析
这部分通过政府门户网站运维案例,介绍了运维服务总则、运维团队组织、运维服务内容、应急处理流程以及一些常用的 Linux 命令。
运维服务总则
- 安全性: 包括网站应用系统及内容管理平台应用的安全性、数据安全性。
- 稳定性:
- IT 服务体系整体结构:客户需求、响应体系、维护体系、质量监督体系(后三者对应 ITIL 中的事件管理、问题管理和运维管理)。
- 响应体系:包括服务台和突发事件管理。
- IT 运维体系的建立:导入 ITIL 是一个长期过程,初期以“系统日常运行和支持”为主,重点解决服务支持流程;后期关注长期计划和改进。针对政府门户网站,初期主要实现“服务台”、“事件管理”、“问题管理”和“配置管理”,并扩展加设“知识库”以提高技术积累和利用。
- 系统运维制度建设: 转变运维观念、树立规范化意识,建立事件处理流程,强化规范执行力度。
- 系统运维故障级别定义:
- 一级故障:系统发生严重故障,业务中断,或无法保证及时正确(对业务运行有严重影响)。
- 二级故障:非严重故障,业务未中断,但性能下降。
- 三级故障:轻微故障,系统有警告信息,影响不大。
- 故障级别对应的服务请求时间和响应方式: 文档中提供了表格,规定了不同级别故障的服务请求时间和现场服务到达时间。
运维团队组织
- 任务需求: 包括网站应用系统日常维护/监控/完善、网站内容监控/维护、网站栏目调整、数据统计、网站系统安全测试、网站信息系统调整、完成信息中心交办的其他相关工作。
- 角色职责: 运维经理(管理岗),技术支持工程师、流媒体工程师、网站开发工程师、美工设计、中文编辑、英文编辑(技术岗)。
- 组织机构: 信息中心和运维公司共同组建“运维联合领导小组”进行高层协调和战略制定。政府门户网站运维部通常派驻不少于 4 人在工作现场,形成一线(服务台、现场)、二线(公司总部)、三线(外援)的支持体系。
运维服务内容
- 网站内容保障服务。
- 日常巡检服务:包括日常巡检安排、出具巡检报告、硬件/虚拟机/软件巡检列表。
- 网站安全服务:
- 监控原则:7x24 不间断监控,有人值守,每日巡检并提交报告。
- 监控方案:网站访问监控(响应时间、连接数、流量、统计分析、页面纠错)、设备监控、应用服务监控、数据库监控。
- 网站安全性检查:阻断应用攻击、屏蔽安全隐患、防止页面篡改、网站服务器及网络安全性检查。
- 数据库备份及备份验证。
- 应对黑客攻击和网站故障:工作时间内立即通知责任人;非工作时间值班人员先断网、记录,再通知责任人。
- 灾备演练:依据政府信息中心灾难应急预案进行。规定了发生安全事件时人员到达现场时间和网站恢复正常浏览的时间。
- 应急处理流程:文档中提供了应急事件级别(一般 IV 级、较大 III 级、重大 II 级、特别重大 I 级)及其对应的处理故障时间。
- 技术支持:系统优化、系统改造、二次开发等。
- 网络设备日常运行维护。
- 主机系统日常运行维护:用户权限、系统服务、系统状态、文件空间、CPU/内存/I/O/网络、错误日志、双机热备软件、整体使用情况、系统备份、填写报告。
- 存储设备日常运行维护。
- 数据库日常运行维护。
命令补充
文档中列举并解释了一些常用的 Linux 命令及其用途:
Netstat -an | grep :80 | wc -l
:检查服务器当前 tcp 连接情况,观察对 80 端口的访问请求。netstat
:显示各种网络相关信息(连接、路由表、接口状态等)。netstat -ntlp
:查看当前所有 tcp 端口。netstat -ntulp | grep 80
:查看所有 80 端口使用情况。grep
:文本搜索工具。ps -ef | grep iguard
:查看 iguard 服务进程(iguard 是网站防篡改系统)。ps
:显示所有进程(-e 显示所有进程,-f 全格式)。top
:实时监控系统运行状态(CPU、内存、执行时间排序)。df -h
:列出文件系统的整体磁盘空间使用情况。free -m
:监控系统内存使用情况。More
:逐屏显示文件内容(只能向下滚动),用于查看日志文件。tail -f /...
:显示文件末尾内容,-f 实时追踪文件变化(用于查看日志文件)。cat
:连接一个或多个文件,并将结果输出到终端或其他文件。vi
:文本编辑器。mount
:用于挂载 Linux 系统外的文件。
第十章 智能工厂
NOTE:考点固定 (4分),记住常考的点即可。
10.1 智能工程的定义
概论
- 工业 4.0 概念: 以智能制造为主导的第四次工业革命,或革命性的生产方法。
- 智能工厂: 将是构成未来工业体系的一个关键特征。
- 技术基础: 网络物理系统 (CPS) 和物联网。
- 2013 德国提出工业 4.0: 利用物联信息系统 (CPS) 将生产中的供应、制造、销售信息数据化、智慧化,最终达到快速、有效、个人化的产品供应。
- 2015年国务院 中国制造 2025: 中国企业采取的方法为:两化融合、数字经济(数字工厂)和智能制造(先进制造装备)。
工业的发展阶段
- 工业 1.0: 标志是机械替代人工,蒸汽机的发明。
- 工业 2.0: 标志是电力替代普通蒸汽的机械力。
- 工业 3.0: 标志是利用电子和 IT 技术达到设备和制造过程的高度自动化,典型代表是 PLC 可编程逻辑控制器。这是目前大部分国家的制造业所处的状态。
- 工业 4.0: 最重要的框架是信息物理系统,核心理念是将原来自动化的元器件、工业以太网、数据分析建模仿真等技术进行系统化的整合。工业 4.0 不是创新某一项技术,是组合式的创新。
工业 4.0 的应用可以解决以下问题
- 满足个性化的需求
- 柔性 (小批量多批次需求)
- 策略优化
- 资源的最佳利用
- 形成新的服务架构
- 应对人口结构变化
三个集成 (记住)
- 价值网络的横向集成: 主要指公司外部商业模式和协作伙伴关系的集成。
- 全价值链的端到端的工程数字化集成: 主要指的产品的生命周期过程的集成。
- 垂直整合和网络化制造系统的集成: 主要指企业内部的融合,打造柔性生产系统。
智能工厂的基本架构 (记住)
数字化工厂是实现智能制造的基础和前提,分为企业层、管理层、操作层、控制层和现场层。
- 企业层: 对产品研发和制造准备进行统一管控,与 ERP 进行集成,建立统一的顶层研发制造管理系统。与生产计划、物流、能源和经营相关的 ERP、SCR、CRM 等,和产品设计、技术相关的 PLM 处在最上层,与服务器紧紧相连。
- 管理层、操作层、控制层和现场层: 通过工业网络进行组网,实现从生产管理到工业网底层的网络连接,实现管理生产过程、监控生产现场执行、采集现场生产设备和物料数的业务要求。与制造生产设备和生产线控制、调度、排产等相关的 PCS、MES 功能通过 CPS 物理信息系统实现。这一层和工业物联网紧紧相连。
物联网和服务网是智能工厂的信息技术基础。
智能工厂由许多智能制造装备、控制和信息系统构成。
数字化工厂可理解为:
- 在生产制造的维度发展基于制造智能化的自动化生产线和成套装置。
- 将这些装置纳入企业业务运营系统 (ERP) 和制造执行系统 (MES) 的管理之下。
- 建立完善的 CAD、CAPP、CAM 基础上的 PDM、PLM (product data/lifecyle management),并延伸到产品售后的技术支持和服务。
10.2 智能工厂架构
智能工厂架构包括:
- 智能计划排产
- 智能生产过程协同
- 智能的设备互联互通
- 智能生产资源管理
- 智能质量过程管控
- 智能决策支持
智能工厂运维任务 (记住)
- 网络与应用系统的运行与维护
- IT 架构规划
- 日常运维
- 整体优化
- 紧急故障救援等
智慧制造的特征 (记住)
- 系统具有自主能力,可采集与理解外界及自身的信息,并以之分析判断及规划自身行为。
- 整体可视技术的实践,结合信息处理、推理预测、仿真及多媒体技术,将实时展示现实生活中的设计与制造过程。
- 协调、重组及扩充特性,系统中各组可依据工作任务,自行组成最佳系统结构。
- 自我学习及维护能力,透过系统自我学习功能,在制造过程中落实资料库补充、更新,及自动执行故障诊断,并具备对故障排除与维护的能力。
- 人机共存的系统,人机之间具备互相协调合作关系,各自在不同层次之间相辅相成。
第十一章 信息系统开发的用户支持信息
NOTE: 占 5 分,分析 2 分,设计、测试、转换 1 分。
11.1 用户支持信息系统建设的意义
- 信息系统的最终用户是各级各类系统运行及管理人员,满足这些用户的信息需求,支持他们的管理决策活动,是系统建设的直接目的。
- 信息系统建设的目标就是寻求使各类用户都比较满意的方案。
- 信息系统的建设关系到一个组织的信息处理能力和管理决策的水平是涉及该组织的全局、近期和长远发展密切相关的战略问题。
- 由于系统本身和系统建设工作的复杂性,用户的需求往往不可能一次表达清楚,随着建设进程的推进和工作的深入,用户需求的表达和系统建设的专业人员对用户需求的理解才能逐步明确、深化、细化。
- 包括系统运行管理人员在内的各类用户必须作为信息系统主要建设者的一部分,在各个阶段直接参与工作,为系统开发建设和运行维护各个阶段提供必要的辅助支持工作。
11.2 对系统分析工作的支持
系统分析阶段的目标和任务
- 系统分析是对需要用信息系统去解决的问题的分析, 包括对问题的定义、原因的确定、解决办法的说明,以及解决该问题所需提供的信息的确定。
- 目标: 在信息系统规划阶段所设定的某个开发项目范围内,明确信息系统开发的目标和用户的信息需求,提出系统的逻辑方案。(也就是解决“做什么”的问题)
- 任务 (记住任务和对应目标和成果):
- 系统初步调查: 目标是明确系统开发的目标和规模。主要成果是《系统开发建议书》。
- 系统可行性分析: 目标是进一步明确信息系统的目标、规模和主要功能,提出初步方案和计划。关键内容是技术可行性分析、经济可行性分析、营运可行性分析,以及初步方案和计划。主要成果是《可行性分析报告》和《系统开发(设计)任务书》。
- 现行系统详细调查: 目标是详细调查现行系统的工作过程,建立现行逻辑模型,发现现行系统存在的主要问题。关键内容是详细分析现行系统结构、功能和数据流。主要成果是《现行系统的调查报告》。
- 新系统逻辑方案的提出: 目标是明确用户信息需求,提出满足用户需求的新系统逻辑方案。关键问题是用户需求分析和建立新系统逻辑方案。主要成果是《用户需求规格说明书》(补充的)和《系统分析说明书》。
系统用户支持系统分析的重要性
- 对信息系统来说,需求分析是其中最困难的任务,需要确定满足选择方案的特定信息需求,并且在需求分析阶段,用户和系统分析员必须投入大量的精力。
系统用户在系统分析阶段的具体工作
在需求分析阶段,信息系统用户必须仔细定义新系统要达到的目标,详尽地描述新系统的功能,并要考虑新系统可能受到的约束。
理解原系统和所属组织是开发大型信息系统的关键之一。
系统分析工作涉及的主要系统用户:
- 信息系统用户单位决策层的主要领导成员。
- 信息系统用户单位各级职能部门的负责人,尤其是信息系统将涉及到的那些部门的负责人。
- 信息系统用户单位主管信息管理工作的高层负责人。
- 具体负责运行、维护信息系统的管理、技术、操作人员。
提供组织的信息: 关于组织、人、业务工作、工作环境的信息。提供信息的方法包括提供现有文件、面谈、调查问卷、实地观察和实践。
对系统逻辑模型进行评价: 系统逻辑模型反映了组织对系统整体目标和功能的要求,反映了系统各级人员的具体信息需求。因此,对系统逻辑模型的评价必须遵循用户直接参与的原则。
系统分析的注意点
- 明确原则: 系统分析工作追求的是有限目标。一次开发不可能解决现有所有问题,只能满足部分信息需求,其他问题留待后续解决。
- 明确任务边界: 哪些问题暂时不解决(不做什么)。
11.3 对系统设计工作的支持
系统设计阶段的目标和任务
- 目标: 将系统分析阶段提出的用户需求逻辑方案转换为可实施的物理(技术)方案。
- 任务: 根据系统分析提出的逻辑功能要求,考虑现有技术、设备的条件和标准法规要求,确定新系统的总体结构和各组成部分的技术方案,选择软硬件设备,提出实施计划,以确保系统总体目标的实现。
- 主要依据: 系统分析阶段的成果(系统分析说明书)、现有技术、标准法规、用户需求、系统环境等。
- 主要活动:
- 系统总体结构设计(总体布局、软件结构、硬件方案、数据存储的确定)。
- 系统详细设计(代码设计、数据库设计、输出设计、输入设计、用户界面设计、处理过程设计)。
- 系统实施进度与计划的制定。
- 编写系统设计说明书。
系统用户对系统设计的支持
- 信息系统设计不是仅由技术专家承担,需要用户的高度参与和控制。
- 系统用户参与设计的程度越深,系统满足其需求的程度越高。
- 就含糊不清的细节问题征求用户意见,了解用户对信息需求的解释,做出修改和补充。
- 这一阶段工作特点是管理环境和技术环境的结合。
- 用户需求决定和推动开发工作,用户必须控制设计过程,确保系统反映其业务和所需信息。
- 用户参与设计增加了系统的理解度和可接受性,减少了因权力转换、冲突、不熟悉新系统功能流程引发的问题。
用户在系统设计阶段的具体工作 (重点)
- 参与系统总体结构设计。
- 参与代码设计: 提供和解释现有代码,或根据需要提出建议。
- 参与数据库设计: 核心是如何建立满足用户信息要求、反映工作环境、支持数据加工、与选用 DBMS 匹配的数据模式。
- 参与用户界面设计(输入、输出、人机对话)。
总体布局的分类
- 按信息资源管理的集中程度分 (记住优点和缺点):
- 集中式系统: 设备、软件、数据集中的管理系统。
- 优点:管理维护控制方便、安全保密性好、人员集中使用、资源利用率高。
- 缺点:应用范围功能有限、可变性灵活性扩展性差。
- 分布式系统: 地理位置分散、逻辑独立处理能力、统一规范下工作通信控制、资源独立的子系统。
- 优点:资源分散管理与共享使用、主机压力小、与应用环境配合好、节点机独立自治、可变性灵活性扩展性好。
- 缺点:安全性差、维护难度高、管理工作负担重。
- 集中式系统: 设备、软件、数据集中的管理系统。
- 按信息处理的方式分: 批处理系统、联机处理系统。
11.4 对系统测试工作的支持
系统测试阶段的目标和任务
- 系统测试是信息系统开发周期中重要阶段,是质量与可靠性保证,是对整个开发过程的最终审查。
- 测试对象是整个软件。
- 目的和任务是尽可能发现软件错误(功能、系统、过程、数据、编码错误等)。
- 测试类型 (记住层次和顺序):
- 单元测试 (Unit Testing): 早期实施,核实最小可测试元素(模块或子程序),通常由测试人员在模块开发期间执行。
- 集成测试 (Integration Testing): 确保多个模块集成后正常运行,测试对象是模块组成的包或一组包,目的是找出模块间接口规约不足或错误。
- 系统测试 (System Testing): 目标是整个待测试软件系统。
- 验收测试 (Acceptance Testing): 部署软件前的最后一步,确保软件准备就绪供最终用户使用。 (确认测试一般在模拟环境,系统测试在真实环境,都对系统整体测试)
- 系统测试的主要活动 (记住):
- 成立专门的测试小组。
- 设计测试方案。
- 设计测试用例(包括合理有效数据和无效不合理数据)。
- 进行具体系统测试工作。
- 保留测试文档。
用户对系统测试的支持
- 系统用户对制定测试计划的支持:
- 目的是确定和描述要实施和执行的测试。
- 主要包含测试需求和测试策略。
- 制定测试计划的步骤 (记住):
- 确定测试需求。
- 评估风险。
- 制定测试策略。
- 确定资源。
- 创建时间表。
- 生成测试计划。
- 用户能对测试计划产生重大影响,需满足不同需求。提供正确信息的方法有访谈、问卷、功能监测等。
- 系统用户对验收测试的支持:
- 可分为软件配置审核和系统运行测试。
- 大致顺序:文档审核、源代码审核、配置脚本审核、测试程序或脚本审核、系统运行测试。
- 软件配置审核: 审核开发方提供的可执行程序、源代码、脚本、文档(开发类、管理类)。正式审核步骤:计划、预备会议(可选)、准备阶段、审核会议、问题追踪。
- 系统运行测试: 文档审核等完成后进行。包括功能、性能等方面测试。每种测试包括目标、启动标准、活动、完成标准、度量。具体测试内容包括安装(升级)、启动关机、功能测试(正例、算法、边界、时序、反例、错误处理)、性能测试(正常负载、容量变化)、压力测试(临界负载、容量变化)、配置测试、平台测试、安全性测试、恢复测试(在出现掉电、硬件故障或切换、网络故障等情况时,系统是否能够正常运行)、可靠性测试等。
11.5 对系统转换工作的支持
系统转换的任务
- 新系统开发完毕并经过测试后,并不能马上投入运行,还存在一个新老系统转换的问题。系统转换就是指以新系统替换老系统的过程,即老系统停止使用,新系统开始使用。
- 这是整个系统建设周期中动用人力物力资源最多的一个步骤。
- 系统转换的任务就是保证新老系统进行平稳而可靠的交接,最后使整个新系统正式交付使用。
系统转换的方式 (固定选择题)
- 平行转换方式: 最安全、最保险。新老系统同时运行一段时间。
- 优点:安全、平稳可靠。
- 缺点:开销大、费用高、需要配备额外人员和资源运行另一套系统,业务工作量是正常情况的两倍。
- 直接转换方式: 最简单,成本低。老系统停用,新系统立即启用。
- 优点:简单、成本低。
- 缺点:风险很大,新系统发生问题,会给业务工作带来混乱。
- 通常使用于小型的不太复杂的信息系统,或对信息时效性要求不太高的系统,并且新系统应该已经经过了详细完整的测试和模拟运行。
- 分阶段转换方式: 分步转换,逐步替换老系统。
- 优点:风险较小、成本较低。
- 缺点:转换周期长、需要处理新老系统接口问题。
- 试点转换方式: 选择部分业务或部门作为试点,在新系统运行成功后再全面推广。
- 优点:风险最小、用户接受度高。
- 缺点:转换周期长、需要处理试点与非试点部门的数据同步问题。
系统转换的实施
系统转换前的准备工作:
- 新系统的安装部署
- 数据准备
- 文档的准备
- 人员培训:培训工作关系到新系统的成败。
- 本组织信息系统的操作方法
系统转换的实施:
- 系统的初始化工作: 包括对系统的运行环境和资源进行配置、系统运行和控制参数设定、数据转换与加载、协调系统与业务工作同步等。在系统初始化工作中,工作量最大、时间耗费最多、要求紧迫的活动通常是数据转换与加载。系统初始化中大量的数据加载工作是新系统启动运行的先决条件。
- 转换过程中的维护: 如果改动的工作量很大,甚至需要重新从系统分析或设计做起,那么留待下一个系统开发周期进行扩展升级。系统投入运行后,应该理解和允许系统存在某些不足。
人员对系统转换实施的影响: 信息系统失败的主要原因,一是用户拒绝使用新系统,二是目前工作环境比较舒适,有关管理人员安于现状。要使新系统和新技术实施成功,组织的最高管理者和系统分析与设计人员就必须起到变化代理人的作用,用动态的观点,采用变化的计划实施策略来引导变化。
第十二章 标准化基本知识
NOTE: 5分左右,上午题章节,考点比较固定
12.1 标准化及其体系结构
标准化定义
标准化是对实际与潜在问题做出统一规定,供共同和重复使用。 标准化定义为:在经济、技术、科学及管理等社会实践中,对重复性事物和概念通过制订、发布和实施标准,达到统一,以获得最佳秩序和社会效益。 标准化是一项有组织的活动过程,主要活动就是制订标准、贯彻标准,进而修订标准、又实施标准,如此循环往复。 标准,是标准化活动的成果,也是标准化活动过程的结果,构成标准化系统的标准应组合成标准体系。
标准化的主要特性
- 统一性
- 政策性
- 横向综合性:横向深入到各个专业的技术领域
标准化学科
标准化工作研究的对象可分为两类:
- 具体对象:即各专业、各方面需要指定标准的对象。
- 总体对象:即在各类具体对象基础之上进行综合、概括起来的总体对象。
二者之间的关系是,前者是制定标准的对象,后者是标准化学科要研究的任务和对象。
标准化层级 (重点)
标准化层级是指“从事标准化的地理、政治或经济区域”。 根据 ISO/IEC 第二号指南分为六个层级:
- 国际标准化
- 区域标准化
- 国家标准化:以下 4、5、6 都应该比国标严格
- 行业标准化:是指某一国家内行业标准化组织开展的标准化活动,既要符合行业管理的需要,又是国家标准化的基础与补充,并可有效指导本行业的企业标准化。
- 地方标准化
- 企业标准化
标准化系统
标准化系统是标准化事物按一定内在联系组成的整体。与标准化相关的事物有问题、活动(标准化的主线)、标准(标准化活动的成果)、人(开展标准化活动的关键要素)、机构(开展标准化活动的组织保证)、法规或制度、资源(开展标准化活动的物质条件)。
定义:标准化系统是为开展标准化所需的课题、过程、组织、人、标准、法规制度及资源构成的有机整体。 分为:课题(依存主体对象)、标准体系、标准化工作体系。 课题是建立标准化系统的前提,标准化工作体系是标准化系统的运行主体,标准体系是标准化系统运行的结果。
现代标准化
现代标准化的主要内容是以系统最优为目标,运用经典数学、统计数学以及模糊数学等各种数学方法,依据系统工程、价值工程等各种现代管理科学,再应用电子计算机等各种现代工具,进行最佳控制和最佳协调,通过建立与经济、技术发展水平相适应的标准体系,在包括经济管理和人类社会活动生活在内的广泛领域里发挥其功能。
现代标准化的特性:
- 系统性
- 国际性(国际标准化成为现代标准化的主流)
- 动态性
- 超前性
- 经济性
现代标准化的主要形式和方法:
- 综合标准化:就是标准化与系统工程相结合的科学方法。
- 超前标准化:适应现代科技迅速发展的标准化方法。
信息资源管理的标准化
对于信息资源管理来说,标准化就是要在信息资源的生产和使用等一系列管理活动中,制定、发布和实施有关的标准和规范,合理、高效地利用和开发信息资源,以达到最佳经济和社会效益。
信息资源管理标准化的意义:
- 是进行科学管理和组织生产的重要前提
- 是进行技术开发,提高技术水平的重要途径
- 是保证信息产品质量,进行全面质量管理的重要基础
- 是获得最佳经济效益的重要手段
- 是开拓市场,提高竞争能力的重要保证
- 是开展国际交流,进行国际合作的重要基础
信息资源管理标准化的重要作用:
- 保证信息产品开发和使用各个环节的技术衔接和协调
- 改进、保证和提高信息资源的质量
- 合理发展信息产品的品种
- 促进科研成果和新技术的推广应用
- 便于信息资源的使用和维护
- 缩短信息资源的开发周期,提高劳动生产率
- 保护用户和消费者的利益
12.2 标准分类与分级
标准分类
- 层级分类法: 将标准系统的结构要素,按照其发生作用的有效范围划分为不同的层次。世界范围上,有国际标准、区域性或国家集团标准、国家标准、行业标准、地方标准和企业标准等。我国标准化规定,我国标准分为国家标准、行业标准、地方标准和企业标准四级。
- 性质分类法: 按照标准本身的属性加以分类。可以分为管理标准、技术标准、经济标准、安全标准、质量标准等;按照法律的约束性分类,标准可以分为强制性标准和推荐性标准两种类型。
- 对象分类法: 按照标准化的对象进行分类。我国习惯上把标准按对象分为:产品标准、工作标准、方法标准和基础标准等(也可以概括为“物”——产品、工程、设备、工具、原材料等,和“非物”——工作、程序、操作、方法等两大类)。
我国的标准分级
根据我国标准法规的规定,我国的标准可以划分为国家标准、行业标准、地方标准和企业标准四级。
- 国际标准:ISO、IEC 等国际标准化组织
- 区域标准(地区标准):如 PASC(太平洋地区标准会议)、CEN(欧洲标准委员会)、ASAC(亚洲标准咨询委员会)、ARSO(非洲地区标准化组织)
- 国家标准:GB(中国)、ANSI(美国)、BS(英国)、JIS(日本)
- 行业标准:GJB(中国军用标准)、MIT-S(美国军用标准)、IEEE(美国电气电子工程师协会)
- 地方标准
- 企业标准
标准的代号与编号
- 国家标准: 我国的国家标准代号是以“国标”的大写汉语拼音的第一个字母“GB”来表示的。强制性国家标准代号为“GB”,推荐性国家标准代号为“GB/T”。国家标准的编号由国家标准的代号、标准发布顺序号和标准发布年代号(四位数组成)。例如:强制性国家标准 GB XXXXX XXXX,国家实物标准(样品) GSB X XX XXX XXXX。
- 行业标准: 行业标准由汉字拼音大写字母组成。行业标准的编号由行业标准代号、标准发布顺序及标准发布年代号(四位数)组成。行业标准也分强制性行业标准和推荐性行业标准。文档中列举了部分行业标准代号及其名称(如 NY-农业、LD-劳动和劳动安全、SC-水产、SL-水利、LY-林业、SJ-电子、YD-通信、GY-广播电影电视、QB-轻工、DL-电力、FZ-纺织、YY-医药、HY-海洋、MZ-民政、DA-档案、JY-教育、SN-商检)。
- 地方标准: 地方标准代号以大写汉语拼音字母“DB”加上省、自治区、直辖市行政区划代码前两位数,再加斜线“/”组成强制性地方标准代号。再加“T”组成推荐性地方标准代号。例如:DB XX/XXXX - XXXX,其中 XX 是行政区划代码前两位数,后跟标准顺序号和批准年代。
- 企业标准: 企业标准的代号,一般以“Q”(企)字为分子,以免与国家标准和行业标准相混淆;企业标准代号前,一般应冠以所在省份的简称;企业标准代号的分母,一律采用汉语拼音字母表示。例如:Q/XX XXXX - XXXX,其中 Q/XX 是企业标准代号,XX 是某企业代号,后跟标准顺序号和批准年代。
12.3 信息系统标准化
信息系统标准化工作是信息化建设中的一项基础性的系统工程,具有十分重要的现实意义和深远的历史意义。 统一、规范和科学的标准体系,是实现跨地域范围的业务数据交换、资源共享和对接的前提。 在信息系统开发过程中,必须要遵守统一的软件工程设计规范,实现信息系统开发标准化,以提高信息系统和应用软件的可靠性、易维护性。
- 信息系统的代码标准化: 信息分类编码是信息化社会中对信息进行有效管理、加工处理、综合利用的必要技术手段。信息系统的代码标准化就是将信息按照一定的原则和方法进行分类,然后一一赋予代码,使每一项具体信息与代码形成唯一的对应关系,为数据记录、存取、检索提供一种简短、方便的符号结构,从而便于实现信息处理和信息交换,提高数据处理的效率和准确性,且增强信息的保密性。
- 信息系统数据交换标准化: 数据交换标准是为了实现不同信息系统之间信息共享和沟通而建立的一套通用的数据文件格式规范,以保证数据传输的完整、可靠和有效,并提高数据交换的速度。数据交换标准的主题是数据文件的格式。数据交换标准化是信息标准化的重要内容之一。信息交换标准化就是制订在信息系统内部和信息系统之间各种接口方式以及信息系统输入和输出的格式制定规范和标准。目前经常采用的数据传输方式有 FTP, EMAIL, 中文短信, 网页上传等,经常使用的数据文件交换格式有 TXT, XML, EXCEL 以及通用数据库。
- 信息系统开发标准化: 主要指在系统开发中遵守统一的系统设计规范、程序开发规范和项目管理规范。
- 信息系统文档标准化: 主要是在信息系统开发、运行、维护和管理等过程中遵守统一的文档编制规范,在统一标准制约下,建立和维护系统各种文档资料。
- 信息系统安全标准化: 是指在信息系统建设开发、运行维护和管理过程中,为保证信息系统的安全而必须建立和遵守统一的安全标准与安全规范。
12.4 标准化机构
- 国际标准化组织 (ISO): 是目前世界上最大、最具权威性的国际标准化专门机构。
- 国际电工委员会 (International Electrotechnical Commission, IEC): 成立于 1906 年,是世界上成立最早的国际性电工标准化机构,负责有关电气工程和电子工程领域中的国际标准化组织。
- 国际电信联盟 (International Telecommunication Union, ITU): 是联合国的一个专门机构,也是联合国机构中历史最长的一个国际组织,简称“国际电联”“电联”或“ITU”。
- 我国国家标准的制定: 由国务院标准化行政主管部门制定。
- 我国行业标准的制定: 由国务院有关行政主管部门制定。
- 我国地方标准的制定: 由省、自治区和直辖市标准化行政主管部门制定。
- 我国企业标准的制定: 由企业自行制定。
我国标准化工作实行统一管理与分工负责相结合的管理体制。
计算机网络基础知识 (补充)
这份文档提供了计算机网络的基础知识,主要涵盖了网络的分类、拓扑结构、信息传输技术、网络体系结构以及一些网络相关的基础概念和技术。
网络基础知识
- 局域网 (LAN - Local Area Network)
- 城域网 (MAN - Metropolitan Area Network): 使用标准分布式队列双总线 DQDB, IEEE802.6。
- 广域网 (WAN - Wide Area Network): 使用分组交换技术。
- 国际互联网 (Internet): 使用 TCP/IP 协议、路由器连接。
按网络拓扑结构分类
- 星形网络:
- 各站点通过点到点的方式与中心站连接。
- 特点:易于扩展,安全性和优先级易于控制,易实现网络监控。
- 缺点:中心站出问题网络就会崩溃。
- 环形网络:
- 各节点通过环中继转发器与其左右的节点串行连接,所有节点形成一个环形。
- 优点:网络组件简单和投资成本低。
- 缺点:传输速度慢,不易于扩展,连接用户少且固定。现在除了单环还有双环的方式。
- 总线形网络:
- 网络所有站点连接到同一条传输介质上。
- 特点:成本低,节点故障不会影响网络故障。
- 缺点:安全性低,监控困难,增加新站点不如星形网络方便。
总线形网络和星形网络较为常见。
按信息传输技术分类
- 广播式网络:
- 在网络中只有一个单一的通信信道,由这个网络中所有的主机所共享。
- 即多个计算机连接到一条通信线路上的不同分支点上,任意一个节点所发出的报文分组被其他所有节点接受。
- 点对点网络:
- 是无中心服务器、依靠用户群 (peers) 交换信息的互联网体系。
- 它的作用在于减低以往网络传输中的节点,以降低资料遗失的风险。
计算机网络体系结构 (重点)
为了解决异构计算机网络互联互通的问题,提出了网络体系结构。
计算机网络分层结构
采用分层的方法来描述网络的结构。将一个很大的问题分解成若干较小的、易于处理的问题。
OSI/RM 七层参考模型 (重点)
国际标准化组织 ISO 于 1984 年提出。自下而上依次为:
- 物理层 (Physical Layer): 处于最底层。透明地传输原始比特流。功能有:机械特性、电气特性、功能特性、规程特性。涉及的物理设备有中继器、集线器。
- 数据链路层 (Data Link Layer): 在物理层提供比特流服务的基础上,在通信实体间建立数据链路。主要解决:封装成帧、透明传输、差错控制(帧错、位错)、流量控制。涉及的物理设备有网桥、交换机(二层交换机)。
- 网络层 (Network Layer): 主要解决异构网络的互联问题,实现路由选择和拥塞控制。传输单位是数据报(IP 数据报)。涉及的物理设备有路由器、三层交换机。
- 传输层 (Transport Layer): 处于网络层和会话层之间,是实现端到端互联。功能有:差错控制、流量控制、复用、分用。涉及协议 TCP、UDP。
- 会话层 (Session Layer): 建立、管理、终止会话,决定数据传输的模式。
- 表示层 (Presentation Layer): 处理用户信息的表示问题,进行数据格式变换、数据加密解密、数据压缩和恢复。
- 应用层 (Application Layer): 处于最高层。提供用户与网络的接口,实现各种分布式应用。涉及协议 DNS、FTP、TELNET、SMTP、HTTP、RIP、OSPF 等。
TCP/IP 四层模型 (重点)
互联网事实上的标准体系结构。由下到上依次为:
- 网络接口层: 对应 OSI 的物理层和数据链路层。
- 网际层 (Internet Layer): 对应 OSI 的网络层。核心协议 IP。
- 传输层 (Transport Layer): 对应 OSI 的传输层。主要协议 TCP、UDP。
- 应用层 (Application Layer): 对应 OSI 的会话层、表示层、应用层。
五层参考模型 (重点)
教学中常用的模型,综合了 OSI 和 TCP/IP 的优点。由下到上依次为:
- 物理层
- 数据链路层
- 网络层
- 传输层
- 应用层
IP 地址与子网划分 (重点)
- IP 地址: 用于在网络中标识一台主机。IPV4 地址是 32 位二进制,通常表示为点分十进制。
- IP 地址分类:
- A 类:第一位 0,网络号占 8 位,主机号占 24 位。网络数少,每网络主机数多。范围 1.0.0.1 - 126.255.255.254。保留地址 127.x.y.z 用于本地环回测试。
- B 类:前两位 10,网络号占 16 位,主机号占 16 位。网络数和每网络主机数适中。范围 128.0.0.1 - 191.255.255.254。
- C 类:前三位 110,网络号占 24 位,主机号占 8 位。网络数多,每网络主机数少。范围 192.0.0.1 - 223.255.255.254。
- D 类:前四位 1110,用于多播 (Multicast)。范围 224.0.0.0 - 239.255.255.255。
- E 类:前四位 1111,保留。范围 240.0.0.0 - 255.255.255.255。
- 特殊 IP 地址:
- 网络地址:主机号全为 0,代表整个网络。
- 广播地址:主机号全为 1,用于向网络中所有主机发送信息。
- 127.0.0.1:本地环回地址 (Loopback),用于测试本机网络协议是否正常。
- 0.0.0.0:通常指代本机或任意网络。
- 255.255.255.255:受限广播地址,不能跨路由器转发,发送给本地网络所有主机。
- 私有 IP 地址 (重点): 在组织内部使用,不能在 Internet 上直接路由。
- A 类:10.0.0.0 - 10.255.255.255
- B 类:172.16.0.0 - 172.31.255.255
- C 类:192.168.0.0 - 192.168.255.255
- 子网掩码 (Subnet Mask): 用于标识 IP 地址的网络号和主机号。与 IP 地址进行位与运算可得到网络地址。
- 默认子网掩码:A 类 255.0.0.0,B 类 255.255.0.0,C 类 255.255.255.0。
- 子网划分: 将一个大的网络划分成若干小的子网,减少广播域,提高 IP 地址利用率。通过改变子网掩码来实现。计算子网数和每子网主机数。
- 无类别域间路由 (CIDR - Classless Inter-Domain Routing): 用于替代传统的 A、B、C 类地址划分,提高 IP 地址利用率。格式 IP 地址/网络前缀的位数。
域名系统 DNS
- 域名 (Domain Name): 用于方便记忆的 Internet 主机名。
- 域名系统 (DNS - Domain Name System): 将域名解析为 IP 地址,或将 IP 地址解析为域名。采用分层结构:根域名服务器、顶级域名服务器、授权域名服务器。
- 解析过程: 递归查询和迭代查询。通常主机到本地 DNS 服务器是递归查询,本地 DNS 服务器到其他 DNS 服务器是迭代查询。
HTTP 协议 (重点)
- 超文本传输协议 (HTTP - Hypertext Transfer Protocol): 用于传输超文本,是万维网应用层协议。基于 TCP 协议。
- HTTP 状态码: 表示服务器对请求的处理结果。
- 1xx:信息提示。
- 2xx:成功。200 OK。
- 3xx:重定向。301 永久移动,302 临时移动。
- 4xx:客户端错误。403 Forbidden (服务器拒绝访问),404 Not Found (未找到资源)。
- 5xx:服务器错误。500 Internal Server Error (服务器内部错误),503 Service Unavailable (服务不可用)。
- HTTPS: 安全的 HTTP,在 HTTP 层与 TCP 层之间增加了 SSL/TLS 层进行加密。默认端口 443。
计算机网络连接硬件
- 网线: 双绞线(常用的五类、超五类、六类,RJ45 接头)、同轴电缆、光纤。
- 网卡 (Network Interface Card, NIC): 计算机连接到网络的接口。
- 集线器 (Hub): 物理层设备,广播所有接收到的信号。
- 交换机 (Switch): 数据链路层设备,根据 MAC 地址转发帧。可分为二层交换机、三层交换机等。
- 路由器 (Router): 网络层设备,根据 IP 地址进行路由选择和数据包转发。
- 调制解调器 (Modem): 模拟信号与数字信号转换。
- 中继器 (Repeater): 物理层设备,放大信号延长传输距离。
- 网桥 (Bridge): 数据链路层设备,连接两个局域网,根据 MAC 地址转发。
计算机网络安全 (部分内容与第六章信息系统安全重复)
- 常见的网络安全威胁: 木马、蠕虫、病毒、网络钓鱼、拒绝服务攻击 (DoS/DDoS)、中间人攻击、SQL 注入、跨站脚本 (XSS)、缓冲区溢出、网络监听、端口扫描、弱口令攻击。
- 常见的网络安全设备: 防火墙、入侵检测系统 (IDS)、入侵防御系统 (IPS)、统一威胁管理 (UTM)、VPN 设备、安全审计系统。
- 网络安全技术: 加密解密、数字签名、访问控制、身份认证、安全审计、漏洞扫描、渗透测试。
Linux 系统与网络配置 (补充了一些 Linux 命令和文件路径)
这部分提供了一些与 Linux 系统和网络相关的命令和重要的配置文件路径。
- /etc/rc 或 /etc/rc.d 或 /etc/rc?.d: 启动或改变运行级时运行的脚本或脚本的目录。
- /etc/passwd: 用户数据库,包含用户名、真实姓名、用户起始目录、加密口令等。
- /etc/fdprm: 软盘参数表。
- /etc/fstab: 指定启动时需要自动安装的文件系统列表。
- /etc/group: 组信息文件。
- /etc/inittab: init 的配置文件。
- /etc/issue: 登录提示符前的输出信息。
- /etc/magic: "file" 的配置文件。
- /etc/motd: 用户成功登录后自动输出信息。
- /etc/profile: Bourne 或 C shell 的初始化文件。
- /etc/securetty: 决定哪些终端允许 root 用户登录。
- /etc/shells: 列出可信的 shell。
- /etc/termcap: 终端属性数据库。
- /etc/terminfo: 包含描述终端能力的目录集。
- /etc/ttys: 包含端口名和 getty 参数。
- /etc/shadow: 影子口令文件(加密口令)。
- /etc/hostname: 存放主机名。
- /etc/hosts: 包含 IP 地址和主机名的对应关系,域名解析的早期方式。
- /etc/network/interfaces: 配置网络接口。
- /etc/resolv.conf: DNS 客户端配置文件,指定 DNS 服务器 IP 地址。
- /etc/sysconfig/network: 包含全局网络参数。
- /etc/sysconfig/network-scripts/: 包含各种网络接口的配置脚本。
常用的 Linux 网络命令:
ifconfig
或ip addr
: 查看或配置网络接口信息(IP 地址、MAC 地址、状态等)。ping
: 测试网络连通性。traceroute
或tracert
: 显示数据包到达目标主机的路径。netstat
: 显示网络连接、路由表、接口统计等信息。route
: 查看或操作路由表。nslookup
或dig
: DNS 查询工具。ssh
: 安全地远程登录到服务器。scp
: 安全地复制文件。ftp
: 文件传输协议客户端。telnet
: 远程登录工具(不安全)。tcpdump
: 抓包工具,用于分析网络流量。iptables
: Linux 防火墙配置工具。nmap
: 网络扫描工具。lsof -i:端口号
: 查看哪个进程在使用某个端口。
数据库技术基础 (补充)
Note:补充内容。18年考了15分下午题,19年未考,20年考了5个判断。初级较少,但中级也要考。
数据模型
- 模型: 对现实世界特征的模拟和抽象。
- 数据模型: 对现实世界数据特征的模拟和抽象。
- 数据模型三要素:
- 数据结构
- 数据操作 (增删改查)
- 数据约束条件
- 概念数据模型: 主要用于数据库设计,E-R 模型,即实体关系模型。
- 基本数据模型: 主要用于实现 DBMS。
- 层次模型 (树状,一对一或一对多)
- 网状模型 (多对多)
- 关系模型 (二维表格形式,不能有表的嵌套)
关系模型的相关概念
- 关系: 可以理解成一张表格。
- 属性: 列。
- 元组: 行。
- 分量: 元组中的一个属性值。
- 关系模式: 对关系的描述,记为 R (A1, A2, A3, ..., An)。
- 候选码/候选键: 可确立唯一记录,可能有多个 (例如学生表里的学号和身份证号)。
- 主码/主键 (key): 候选码只由一条属性构成。
- 全码: 候选码由所有属性构成。
- 外码/外键: 非候选码,但另一关系中是主码,一般用于联系两个表格。
- 主属性/非主属性: 包含在候选码里的是主属性,不包含的是非主属性。
DBMS 数据库管理系统
- 功能:
- 数据定义
- 数据操作
- 数据库运行管理
- 数据组织、存储和管理
- 数据的建立和维护
- 数据结构化且统一管理
- 有较高的数据独立性
- 数据控制功能 (数据库的安全性、数据库的完整性、并发控制、故障恢复)
- 三级模式:
- 外模式 (视图 view)
- 模式 (基本表)
- 内模式 (物理模式)
- 两级映像:
- 外模式-模式映像 (保障逻辑独立性)
- 模式-内模式映像 (保障物理独立性)
数据库设计
- 核心问题: 从系统的观点出发,根据系统分析和设计的要求,结合选用的 DBMS,建立一个数据模式。
- 4 个阶段 (最后加上实施和维护的话,一共 6 个阶段):
- 用户需求分析: 对现实世界的调查和分析数据项、数据结构、数据流、数据存储的描述。
- 概念结构设计: 从现实世界向信息世界的转换——建立概念模型,独立于具体的 DBMS,此处使用 ER 图。
- 逻辑结构设计: 从信息世界向数据世界的转换——建立数据模型,使用某种数据模型,如关系/非关系。
- 物理结构设计: 为数据模型选择合适的存储结构和存储方法,考虑存储安排、存储方法选择、存储路径建立。
E-R 模型
- 三要素:
- 实体
- 属性:
- 简单属性 - 没有办法拆分的属性。
- 复合属性 - 是可以拆分的,比如家庭住址。
- 单值属性 - 值只允许填一个。
- 多值属性 - 可以填很多,比如电话可以有多个。
- NULL 属性。
- 派生属性 - 不需要手动更新,可以通过计算得出的,比如年龄可以由出生年计算得出。
- 联系。
- 图例:
- 矩形 ☐:表示实体集。
- 菱形 ◇:表示联系集。
- 椭圆 ○:表示属性。
- 线段 ——:将属性与相关的实体集连接,或将实体集与联系集相连。
- 虚椭圆 虚线圆:表示多值属性。
- 虚线椭圆 虚线圆:表示派生属性。
- 双线 双线:表示一个实体全部参与到联系集中。
- 实体之间的联系: 1 对 1 (1:1),1 对多 (1:n),多对多 (m:n)。
- 三个不同实体联系:只有两端联系同为 1 才能标 1,有 n 或者都是 n 则标注 n。
E-R 图转关系数据库
- 一对一联系 (1:1):
- 可以将联系转换成一个独立的关系模式: 关系模式的名称取联系的名称,关系模式的属性包括该联系所关联的两个实体的码及联系的属性,关系码取任意一方实体的码。
- 可以将联系归并到关联的两个实体的任一方: 在待归并的一方实体属性中增加另一方实体的码和该联系的属性即可,归并后的实体码保持不变。
- 一对多联系 (1:n):
- 可以将联系转换成一个独立的关系模式: 关系模式的名称取联系的名称,关系模式的属性包括该联系所关联的两个实体的码及联系的属性,关系的码是多方实体的码。
- 可以将联系归并到关联的两个实体的多方: 在待归并的多方实体属性集中增加一方实体的码和该联系的属性即可,归并后的多方实体码保持不变。
- 多对多的联系 (m:n):
- 只可以将联系转换成一个独立的关系模式: 关系模式的名称取联系的名称,关系模式的属性取该联系所关联的两个实体的码及联系的属性,关系的码是多方实体的码构成的属性组 (不是任何一边,两个都要有)。
关系代数
- 是一种传统的表达方式,用对关系的运算来表达查询。
- 运算对象、运算结果都为关系。
- 运算符:
- 集合运算: ∪ (并),- (差),∩ (交),× (笛卡尔积)。
- 专门的关系运算符: σ (选择),π (投影),⋈ (连接),÷ (除)。
- 比较运算符: > (大于),≥ (大于等于),< (小于),≤ (小于等于),= (等于),≠ (不等于)。
- 逻辑运算符: ∧ (与),∨ (或),¬ (非)。
- 广义笛卡尔积: R × S。
- 连接: 关系运算————连接:是从两个关系 R 和 S 的笛卡尔积中选取满足条件的元组。
- 等值连接: 当 θ 为 “=” 时,称为等值连接。
数据库设计规范化理论
- 冗余和异常:
- 插入异常
- 删除异常
- 更新异常
- 函数依赖: 若关系 R(U) 中,对于 U 中的非空属性集 X 和 Y,有 X → Y,当且仅当对于 R 中任意两个元组 t1 和 t2,若 t1[X] = t2[X],则必有 t1[Y] = t2[Y]。称 Y 函数依赖于 X。
- 平凡函数依赖与非平凡函数依赖。
- 完全函数依赖 (X → Y,且对于 X 的任何一个真子集 X',都有 X' ↛ Y)。
- 部分函数依赖 (X → Y,但对于 X 的某个真子集 X',有 X' → Y)。
- 传递函数依赖 (X → Y,Y → Z,且 Y ↛ X,Y ↛ Z)。
- 码 (Key): 设 K 为 R<U,F> 中的属性集,若 K 满足:
- K → U (函数依赖 K → U)
- 对于 K 的任何一个真子集 K',都有 K' ↛ U。 则 K 为 R 的一个候选码。
- 包含在任何一个候选码中的属性,称为主属性。
- 不包含在任何一个候选码中的属性,称为非主属性。
- 若关系模式 R 的所有属性是这个关系模式的候选码,则称 R 为全码。
- 外码 (Foreign Key): 关系模式 R 中属性集 F 是外部码当且仅当 F 不是 R 的码,但 F 是另一个关系模式 S 的码。
- 范式 (Normal Form, NF): 是符合某一种级别的关系模式的集合。
- 1NF (第一范式): 如果关系模式 R 的所有属性都是不可再分的原子值,则称 R 属于第一范式。所有关系模式至少是 1NF。
- 2NF (第二范式): 如果关系模式 R 属于 1NF,且所有非主属性都完全函数依赖于候选码,则称 R 属于第二范式。
- 3NF (第三范式): 如果关系模式 R 属于 2NF,且所有非主属性都不传递函数依赖于候选码,则称 R 属于第三范式。
- BCNF (巴斯-科德范式): 如果关系模式 R 属于 3NF,且每个非平凡函数依赖的决定因素都包含 R 的码,则称 R 属于 BCNF。简单地说,R 属于 BCNF 当且仅当 R 中每一个决定因素都包含候选码。
数据库安全
安全性控制
- 用户身份鉴别:连接到数据库的用户是否合法。
- 存取控制:用户对数据库的存取权限。
- 自主存取控制 (DAC):用户可以将自己拥有的权限授予其他用户。
- 强制存取控制 (MAC):由系统统一管理用户的权限。
- 视图 (View):数据库的虚表,对数据库的保护。
- 审计 (Audit):记录用户对数据库的操作,便于追溯。
- 数据加密:对敏感数据进行加密存储或传输。
数据库完整性约束
- 实体完整性约束:关系的主码不能取空值。
- 参照完整性约束:外码要么取空值,要么等于被参照关系中主码的值。
- 用户自定义完整性约束:用户根据业务需求定义的约束条件。
数据库并发控制
- 多个用户同时操作数据库时,保证数据的一致性和正确性。
- 引起并发控制的问题:
- 丢失修改 (Lost Update):两个事务同时修改同一数据,后一个事务的修改覆盖了前一个事务的修改。
- 不可重复读 (Nonrepeatable Read):一个事务两次读取同一数据,数据的值不同。
- 幻读 (Phantom Read):一个事务两次执行同一查询,第二次查询的结果集包含新插入的行。
- 并发控制的主要技术:
- 封锁 (Locking):最常用的并发控制技术。
- 排他锁 (Exclusive Lock, X Lock):写锁,一个事务加 X 锁后,其他事务不能读写。
- 共享锁 (Shared Lock, S Lock):读锁,一个事务加 S 锁后,其他事务可以加 S 锁,但不能加 X 锁。
- 时间戳 (Timestamp):基于事务开始时间的并发控制技术。
- 乐观控制法。
- 多版本并发控制 (MVCC)。
- 封锁 (Locking):最常用的并发控制技术。
数据库故障与恢复
- 故障类型:
- 事务故障:事务内部逻辑错误或系统错误引起。
- 系统故障 (软故障):系统停止运转,但数据库未被破坏。
- 介质故障 (硬故障):外存故障,导致数据库被破坏。
- 恢复策略: 备份、日志文件。
- 恢复技术:
- 静态转储与动态转储。
- 登记日志文件 (重做 Redo 和撤销 Undo)。
- 检查点 (Checkpoint)。
SQL 基础知识
- SQL (Structured Query Language): 结构化查询语言,用于管理关系数据库。
- 常用语句类型:
- 数据定义语言 (DDL - Data Definition Language): CREATE, ALTER, DROP (定义数据库模式,包括表、视图、索引、完整性约束等)。
- 数据操纵语言 (DML - Data Manipulation Language): SELECT, INSERT, UPDATE, DELETE (对数据库中的数据进行增删改查)。
- 数据控制语言 (DCL - Data Control Language): GRANT, REVOKE (控制用户对数据的访问权限)。
- 基本查询语句 (SELECT):
SELECT <列名> FROM <表名> [WHERE <条件>] [GROUP BY <列名> [HAVING <条件>]] [ORDER BY <列名> [ASC默认/ DESC]]
- 连接查询 (JOIN)。
- 聚集函数 (AVG, MIN, MAX, SUM, COUNT)。
- 字符串 LIKE 操作 (通配符 %,_;转义符 )。
- NULL 操作 (IS NULL / IS NOT NULL)。
易混知识点 (补充) - 优化格式版
这份文档归纳了之前章节中一些容易混淆的知识点,通过对比和清晰的结构,帮助您更有效地记忆和区分。
第三章中设施运维要记的细碎知识点集合
这部分总结了设施运维中,针对不同运维对象(系统、服务器及存储设备、网络及网络设备)的性能检查内容、脆弱性检查内容、监控内容和常规操作内容。
运维对象 | 检查/监控/操作类型 | 具体内容 |
---|---|---|
系统 / 服务器及存储设备 | 性能检查内容 | 检查服务器非业务繁忙期 CPU/内存/磁盘 IOPS/网络 IOPS 峰值情况;检查服务器业务繁忙期 CPU/内存/磁盘 IOPS/网络 IOPS 峰值情况。 |
脆弱性检查内容 | 检查服务器设备生命周期与硬件可靠性评估;检查服务器备件可用性、周期性检查。 | |
监控内容 | 监控主机服务器 LED 面板运行错误码;监控服务器电源/硬盘工作状态指示灯;监控服务器 CPU 使用比例情况;监控操作系统重要文件系统空间使用情况;监控服务器内存使用情况等。 | |
常规操作内容 | 检查设备是否正常启动;检查硬件设备是否有运行告警灯或故障灯;检查设备运行日志是否有报错信息;检查业务系统运行是否正常;检查应用系统是否有运行错误日志;检查系统关键进程是否运行正常等。 | |
网络及网络设备 | 性能检查内容 | 检查网络设备非业务繁忙期 CPU/内存使用峰值情况;检查设备板卡或模块状态;检查设备机身工作使用情况;检查主要端口的利用率;检查链路的健康状态 (包括 IP 包传输时延、IP 包丢失率、IP 包误差率、虚假 IP 包率)。 |
脆弱性检查内容 | 检查设备链路的冗余度要求;安全事件周期性整理分析;检查设备生命周期与硬件可靠性评估;检查备件可用性、周期性检查。 | |
监控内容 | 文档中该部分空白 | |
常规操作内容 | 文档中该部分空白 |
运维系统与专用工具对比 (考工具对应类型)
这部分对比了设施运维、软件运维和大型网站运维中常用的运维系统和专用工具,强调记忆工具与类型的对应关系。
设施运维专用工具
阶段 / 类型 | 工具名称 |
---|---|
准备阶段 / 部署工具 | Kickstart, Cobbler, OpenQRM, SpaceWalk |
过程阶段 (配置管理与自动化) / 配置工具 | Puppet, Func, Chef, Cfengine, Capistrano, ControlTiger |
过程阶段 (监控) / 监控工具 | Nagios, Zabbix, Cacti, Gandia, Hyperic, OpenNMS |
优化改善 / 日志分析工具 | Splunk, Loggly, Airbrake, Graylog |
其他运维工具 | glpi (信息资源管理), Network Notepad (交互式拓扑绘制), Iometer (存储子系统读/写性能测试), Netperf (网络性能测试), Unicornscan (端口扫描器) |
软件运维专用工具
- 版本控制工具:
- 集中式:CVS、SVN
- 分布式:GIT、Mercurial
- 构建工具: Ant、Gradle、maven (将源代码生成可执行应用程序的自动化工具,包括编译、链接、打包)
- 安装部署工具:
- 自动化批量安装:Kickstart、Cobbler、OpenQRM
- 自动化部署:Capistrano、CodeDeploy
- 配置管理工具: Ansible、Chef、Puppet、SaltStark
- 系统监控工具: Datadog、Graphite、Icinga、Nagios、AppDynamics、New Relic
大型网站运维专用工具
类别 | 软件名称 | 类别 | 软件名称 |
---|---|---|---|
本地缓存 | OS catch | 负载均衡技术硬件 | F5 |
分布式缓存 | Memcached、Redis | 负载均衡技术软件 | LVS (4 层), Nginx (7 层), HAProxy (4/7 层) |
反向代理 | Squid、Nginx | NoSQL | Mongodb、Redis |
分布式文件系统 | NFS (GFS、ZFS、Ceph、TFS、MFS、HDFS) | 搜索引擎 | Lucene |
云运维管理与当前传统 IT 运维管理的对比
- 主要不同表现为:集中化和资源池化。
- 云运维管理倾向于:尽量实现自动化、流程化、提供个性化视图。
可维护性对比 (第三章设施 vs. 第四章软件)
- 第三章 可维护性 (设施): 指对系统进行维护难易程度的度量。
- 影响因素: 可理解性、可测试性、可修改性。
- 衡量可维护性的间接特征: 识别问题的时间、管理延迟时间、维护工具的收集时间、分析诊断问题的时间、修改设计说明书的时间、修改程序源代码的时间、局部测试时间、系统测试和回归测试的时间、复查时间、恢复时间。
- 第四章 可维护性 (软件): 指软件产品被修改的能力,修改包括纠正、改进或软件对环境、需求和功能规格说明变化的适应。
- 度量方面: 可理解性、可靠性、可测试性、可修改性、可移植性。
RAID 级别区分
- RAID 0 (条块化): 性能最高,并行处理,无冗余,损坏无法恢复。
- RAID 1 (镜像结构): 可用性、可修复性好,仅有 50% 利用率。
- RAID 0+1 (RAID 10): RAID 0 与 RAID 1 的结合,兼顾性能和冗余。
故障分类与故障诊断方法 (第三章,下午题重点)
- 故障分类:
- 按区域分:机房内、机房外
- 按性质分:链路、配置、协议、服务器
- 故障诊断方法: 排除法、对比法、替换法。
灾备衡量指标 (重点)
- RPO (恢复点目标 - Recovery Point Object): 代表灾难发生时丢失的数据量。
- RTO (恢复时间目标 - Recovery Time Object): 代表系统恢复的时间。
- RRO (恢复可靠性指标 - Recovery Reliability Object): 指在系统切换或恢复过程中成功的可靠性。如一个业务连续性系统在10次恢复/切换中会有两次失败,则可性为80%。
- RIO (恢复完整性指标 - Recovery Integrity Object): 反映系统恢复到某个正确完整的逻辑状态的能力。RIO 指系统因为逻辑原因出现脱机或数据丢失时,即使系统恢复到最新时间点,系统仍可能处于逻辑不正确、不完整的状态。
灾备等级 (重点)
- 国际标准 SHARE 78 分为 7 个容灾等级: 0 级(本地冗余备份)、1 级(数据介质转移)、2 级(热站方式)、3 级(电子传送 + 热站)、4 级(活动备用镜像)、5 级(双活数据访问)、6 级(数据零丢失)。
- 国家标准 GB/T 20988-2007 分为 6 个等级: 1 级 ... 6 级(零数据丢失和远程集群支持)。国家机关、金融等重要部门数据中心级别要求 4 级以上。
应急响应与缺陷诊断对比 (第三章设施 vs. 第四章软件)
这部分对比了第三章设施运维中的应急响应和第四章软件运维中的缺陷诊断,特别是事件级别和缺陷严重性、优先级。
- 第三章 应急响应中的事件级别: 一般 (IV 级)、较大 (III 级)、重大 (II 级)、特别重大 (I 级)。
- 第四章 软件运维中的缺陷严重性: 微小、一般、严重、致命。
- 第四章 软件运维中的缺陷优先级: 最高、较高、一般、低。
管理要素对比 (第二章 vs. 运维管理系统 vs. 运维支持要素)
这部分对比了第二章中的运维管理流程、运维管理系统的功能模块和运维支持要素,帮助区分这些概念。
- 运维管理流程: 事件管理、事故管理、问题管理、配置管理、变更管理、发布管理、知识管理。
- 信息系统运维管理系统的主要功能模块: 资产管理、流程管理、监控管理、外包管理、安全管理、综合管理。
- 运维支持要素 (支撑运维工作的软环境): 运维管理部门、运维管理人员、运维管理制度、运维管理设施。
关键流程对比 (第二章流程 vs. 第四章过程)
这部分对比了第二章流程中的配置管理、变更管理、发布管理与第四章过程中的对应概念,突出它们在不同层面的关注点。
配置管理
- 第二章 配置管理流程的关键活动: 管理规划、配置识别、配置控制、状态记录和报告、确认和审核。
- 第四章 配置管理过程的主要活动: 配置管理计划、配置与配置项、版本控制、变更控制、配置审计(功能审计、物理审计)、状态报告。
变更管理
- 第二章 变更管理流程的关键活动: 创建变更请求 (RFC)、记录和过滤变更请求、评审变更、授权变更、变更规划、协调变更实施、回顾和关闭变更。
- 第四章 变更管理过程的主要目标: 标准化方法和程序、记录配置项变更、降低风险、响应客户需求、确保受控的记录/评估/授权/实施/评审活动。
发布管理
- 第二章 发布管理流程的关键活动: 发布规划、发布设计、构建和配置、发布验收、试运行规划、沟通/准备/培训、发布分发和安装。
- 第四章 发布管理过程的目的: 通过项目规划实施变更,确保只有测试过的正确版本才能发布到运行环境,保证安全可靠,并控制发布风险,避免或减少失败影响。