3.4 安全-分布式-数据库-挖掘

发布于:2025-07-27 ⋅ 阅读:(15) ⋅ 点赞:(0)

一、数据库的安全

数据库里面的安全措施:

  1. 用户标识和鉴定:用户的账户口令等
  2. 存取控制:对用户操作进行控权,有对应权限码才能操作。
  3. 密码存储和传输:加密存储。
  4. 视图的保护:视图需要授权
  5. 审计:专门的文件或者数据库记录所有操作记录。

数据库里面的故障:看下图

数据库备份

数据库备份的形式如下:

1、冷备份(静态转储)转储期间不能对数据库进行任何操作,优点是快速备份,容易存档(直接物理复制)


2、热备份(动态转储)转储期间允许对数据库进行存取、修改操作。此时转储和用户事务是并发执行。

优点是表空间或者数据库文件级别备份,数据库仍然可以使用,可达到秒级恢复;

缺点:不能出错

3、完全备份:备份所有数据

4、差量备份:仅备份上一次完全备份之后变化的数据

5、增量备份:备份上一次备份之后变化的数据。(不管上一次是什么备份        )

6、日志文件:事务每一次对数据库的操作写入日志文件,发生故障,利用日志文件撤销事务对数据库的改变,回退到四五的初始状态。

数据故障恢复

数据库故障恢复的技术:

  1. 事务故障的恢复:由系统自动完成,对用户是透明的(不需要DBA的参与)。步骤就是把更新操作全部还原回去,直到事务的开始标记。
  2. 系统故障的恢复:系统重新启动时自动完成,不需要用户的干预。扫描日志文件,已提交的时候加入重做队列,未完成的事务家务撤销队列。
  3. 介质故障与病毒破坏的恢复。硬盘坏了,装入最新的数据库副本,已提交的事务进入重做队列,不用管未提交的事务
  4. 有检查点的恢复技术:检查点记录的内容可包括建立检查点时刻所有正在执行事务清单,以及这些事务最近一个日志记录的地址类似ctrl+S。

数据库性能优化

性能优化:

  1. 硬件升级:涉及处理器、内存、磁盘子系统和网络
  2. 数据库设计:从逻辑设计和物理设计入手

    逻辑设计:常用的计算属性(平均值、最大值)存储到数据库实体中。重新定义实体减少外部数据数据的开支

    物理设计:给数据分配合适的存储空间。频繁使用的表分割开,这样可以并行使用。文本和图像存储在单独的物理设备上。
     
  3. 索引优化:索引类似目录,索引能提高数据库查询速度,建立索引时应该选用不常更新经常查询的属性作为索引。索引过多会影响到增删改。
     
  4. 查询优化:sql语句优化,建立物化视图(已经查好的数据),减少多表查询;只检索需要的属性;用带IN的条件子句等价替换OR;经常commit 释放锁。

二、分布式数据库

        局部数据库位于不用的物理位置,使用一个全局DBMS(数据库管理系统)将所有局部数据库联网管理,这就是分布式数据库

分布式数据库特点

  1. 数据独立性
  2. 集中于自治共享结合的控制结构:
  3. 适当增加数据冗余度
  4. 全局的一致性、可串行和可恢复性

分布式数据库各个模式

图示:

分片方式

优点

  1. 解决企业部门分散而数据需要相互联系的问题。
  2. 灵活增加新的相对自主的部门。
  3. 灵活组建全局应用下的多数据库系统。
  4. 故障仅影响局部应用,可靠性更高。

数据仓库

概要

数据仓库是:面相主题的、集成的、非易失的、且随时间变化的数据集合,用于管理决策(大数据决策)。

  1. 面相主题:用于特定品类大数据。
  2. 集成的:对分散数据库数据抽取、清理、加工等操作。消除数据的不一致性,保证信息的主题性。
  3. 相对稳定:长期保留,包含大量的查询操作,只需定义的加载、刷新。
  4. 反映历史变化:包含历史信息,是各个阶段的信息,通过这些信息进行定量分析与预测。

四个层次(重要)

层次

  1. 数据源:数据仓库的基础,整个系统的数据源泉。
  2. 数据的存储和管理:数仓的核心。
  3. OLAP(联机分析处理)服务器:
    将原本不可能实时完成的深度分析变为可行——如同用天文望远镜替代肉眼观星 ‌
  4. 前端工具:报表工具等,呈现olap的结果。

商业智能

BI系统的4个阶段:数据预处理、建立数据仓库、数据分析、数据展现。

数据仓库分类

数据仓库的分类:企业仓库、数据集市、虚拟仓库

数据仓库设计方法

数据仓库的设计方法:

  1. 自顶向下:用于企业级,建立数据仓库后,各个部分再从数据仓库中获取部门所需的数据,形成数据集市。
  2. 自底向上:从企业中最关键的部门开始,最少投资完成当前需求,最先产生独立数据集市。
  3. 混合.

数据挖掘

结构

发现非直觉的信息。

流程

数据挖掘常用技术(记住)

数据挖掘的常用技术

  1. 决策树:利用信息论中互信息(信息增益)寻找数据库中具有最大信息量的属性,建立决策树的节点,再根据属性的不同取值建立树的分支。
  2. 分类:按照翻译划分成组
  3. 粗糙集:基于分类,一种类别对应于一个概念,知识由概念组成。粗糙集通过近似概念表示不精确的概念。
  4. 神经网络:神经网络通过学习待分析数据中的模式来构建模型。
  5. 关联规则:搜索业务系统中所有细节和事务,找出重复出现的模式。
  6. 概念树方法:按归类的方式进行抽象,放大建立起来的层次结构称为概念树。
  7. 遗传算法:模拟生物进化过程
  8. 依赖性分析:在数据仓库的条目和对象之间抽取依赖性。
  9. 公式发现:进行数学运算
  10. 统计分析方法:找出数据库属性的函数关系相关关系
  11. 模糊论:模糊性是客观存在的,系统越复杂,精确度越低,越模糊
  12. 可视化分析:通过图形化分析数据。

数据挖掘分析方法(了解)

  1. 关联分析
  2. 序列分析
  3. 分类分析:首先为每个记录设置一个标记,然后对这个分类进行分析,有监督。
  4. 聚类分析:对无标记的记录进行相似性聚合,划分、分析,属于无监督。
  5. 预测分析
  6. 时间序列分析


网站公告

今日签到

点亮在社区的每一天
去签到