大数据可视化数据治理平台综合解决方案
大数据可视化平台
数据治理方案
大数据可视化数据治理平台综合解决方案
目 录
1 概述..........................................................................................................................................1
2 面临的挑战 ..............................................................................................................................1
2.1 数据采集 .................................................................................................................................7
2.2 数据清洗 .................................................................................................................................7
2.3 数据存储 .................................................................................................................................9
2.4 数据采集 .................................................................................................................................9
2.4.1 半结构化数据的采集 .....................................................................................................9
2.4.2 非结构化文本数据中信息的抽取 ...............................................................................13
2.5 数据清洗和数据质量的保证 ...............................................................................................13
2.5.1 数据质量的概念及分类 ...............................................................................................13
2.5.2 数据清洗的原理 ...........................................................................................................17
2.5.3 单数据源中的数据清洗 ...............................................................................................19
2.6 数据的集成和融合 ...............................................................................................................42
2.6.1 多数据源集成问题的分类 ...........................................................................................43
2.6.2 数据标准化的研究 .......................................................................................................46
2.6.3 数据集成的流程 ...........................................................................................................47
2.6.4 多数据源中重复实体的清理 .......................................................................................47
2.6.5 数据不一致性问题的研究 ...........................................................................................50
2.7 数据的存储和处理 ...............................................................................................................50
2.7.1 并行和分布式处理理论 ...............................................................................................50
2.7.2 并行 RDBMS ....................................................................................................................55
2.7.3 Hadoop...........................................................................................................................57
2.7.4 Hadoop 扩展和优化 ......................................................................................................63
2.7.5 NoSQL.............................................................................................................................69
2.7.6 查询优化 .....................................................................................................................138
2.8 大数据中的数据挖掘 .........................................................................................................140
2.8.1 传统数据挖掘概述 .....................................................................................................140
2.8.2 大数据时代数据挖掘发展新趋势 .............................................................................151
2.8.3 WEB 数据挖掘 ..............................................................................................................156
2.8.4 超数据集成挖掘方法与技术研究 .............................................................................193
2.8.5 数据挖掘网格技术 .....................................................................................................237
2.9 大规模机器学习 .................................................................................................................265
2.9.1 机器学习概述 .............................................................................................................267
2.9.2 扩展机器学习的必要性 .............................................................................................270
2.9.3 面临的挑战 .................................................................................................................273
2.9.4 概率图模型 .................................................................................................................275
2.9.5 集成学习 .....................................................................................................................276
2.10 可视化和可视化分析 .....................................................................................................288
2.10.1 概述.........................................................................................................................288
2.10.2 可视化技术.............................................................................................................289
2.10.3 可视化分析.............................................................................................................292
大数据可视化数据治理平台综合解决方案
2.10.4 文本的可视化分析.................................................................................................293
2.10.5 网络可视化分析.....................................................................................................296
2.10.6 移动轨迹数据的可视化分析 .................................................................................296
2.10.7 交互式可视化分析.................................................................................................296
2.11 数据溯源技术的研究 .....................................................................................................296
2.11.1 概述.........................................................................................................................296
2.11.2 模式级数据的溯源.................................................................................................298
2.11.3 实例级数据的溯源.................................................................................................298
2.11.4 数据溯源应用的分类.............................................................................................299
2.11.5 未来研究方向.........................................................................................................300
2.12 同步技术的研究 .............................................................................................................302
2.12.1 概述.........................................................................................................................302
2.12.2 通信程序.................................................................................................................302
2.12.3 数据库复制技术.....................................................................................................307
2.12.4 ETL 技术......................................................................................................................311
2.12.5 事务处理.................................................................................................................313
2.12.6 XML 技术......................................................................................................................316
2.13 数据共享技术 .................................................................................................................319
2.14 安全技术的研究 .............................................................................................................319
2.14.1 安全风险分析.........................................................................................................319
2.14.2 安全技术需求.........................................................................................................321
2.14.3 身份认证与密匙协商.............................................................................................322
2.14.4 访问控制技术.........................................................................................................323
2.14.5 入侵检测技术.........................................................................................................324
2.15 隐私保护技术的研究 .....................................................................................................325
2.15.1 概述.........................................................................................................................325
2.15.2 隐私保护的技术手段.............................................................................................327
2.15.3 匿名技术研究.........................................................................................................329
4 基础资源平台设计 ....................................................................................................................331
4.1 网络设计 ...................................................................................................................................331
4.1.1 系统现状............................................................................................................................331
4.1.2 需求分析............................................................................................................................334
4.1.3 数据中心网络系统设计....................................................................................................338
4.1.4 同城 DWDM 系统设计......................................................................................................370
4.2 XXX 云大数据平台基础设施建设需求分析 .............................................................................375
4.2.1 建设需求分析....................................................................................................................375
4.2.2 XXX 云大数据平台基础设施建设技术方案建议 ..............................................................380
4.2.3 XXX 云大数据平台基础设施平台两地三中心建设方案建议 ..........................................406
5 大数据支撑平台设计 ................................................................................................................417
5.1 设计思路 ...................................................................................................................................417
5.1.1 轻量服务化架构................................................................................................................417
5.1.2 弹性可扩展........................................................................................................................418
5.1.3 开放共享............................................................................................................................418
大数据可视化数据治理平台综合解决方案
5.1.4 安全可靠............................................................................................................................418
5.1.5 自主可控............................................................................................................................419
5.2 设计内容 ...................................................................................................................................419
5.2.1 数据存储............................................................................................................................421
5.2.2 计算能力............................................................................................................................431
5.2.3 高速服务框架....................................................................................................................436
5.2.4 垂直搜索引擎....................................................................................................................439
5.2.5 开放服务............................................................................................................................441
5.2.6 分布式应用服务器............................................................................................................443
6 大数据创新平台设计 ...........................................................................................................444
6.1 采集整合服务 ...........................................................................................................................444
6.1.1 现状分析............................................................................................................................444
6.1.2 设计思路............................................................................................................................444
6.1.3 设计内容............................................................................................................................446
6.1.4 分步建设............................................................................................................................449
6.1.5 运营方式............................................................................................................................451
6.2 质控治理服务(云平台) .......................................................................................................452
6.2.1 质量规则............................................................................................................................453
6.2.2 自动化监控数据流转........................................................................................................454
6.2.3 数据比对............................................................................................................................455
6.2.4 数据检测............................................................................................................................456
6.2.5 数据质量评分....................................................................................................................456
6.3 数据资源服务(云平台和智慧城市)....................................................................................456
6.3.1 架构设计............................................................................................................................456
6.3.2 服务总线............................................................................................................................458
6.3.3 数据超市............................................................................................................................462
6.4 数据资源服务 ...........................................................................................................................465
6.4.1 数据目录创建....................................................................................................................465
6.4.2 标签生成............................................................................................................................466
6.4.3 目录审批管理....................................................................................................................467
6.5 数据洞察服务(云平台) .......................................................................................................467
6.5.1 数据挖掘............................................................................................................................467
6.5.2 数据可视化........................................................................................................................472
6.6 数据开放服务 ...........................................................................................................................482
6.6.1 数据开放目录管理............................................................................................................482
6.6.2 数据开放加工机制............................................................................................................484
6.6.3 数据开放方式管理............................................................................................................486
6.6.4 数据开放生命周期管理....................................................................................................487
6.6.5 数据开放授权管理............................................................................................................490
6.6.6 开放服务管理机制............................................................................................................491
7 信息安全中心设计 ...................................................................................................................493
7.1 XXX 云安全风险分析 .................................................................................................................493
7.1.1 XXX 云环境面临的传统安全威胁......................................................................................493
大数据可视化数据治理平台综合解决方案
7.1.2 XXX 云环境面临的新型安全威胁......................................................................................494
7.2 XXX 云安全建设方案 .................................................................................................................540
7.2.1 IaaS 层安全建设方案 .........................................................................................................540
7.2.2 PaaS 平台安全 ....................................................................................................................548
7.2.3 DaaS 层安全建设方案........................................................................................................558
7.2.4 SaaS 层安全建设方案 ........................................................................................................562
7.2.5 安全服务中心建设方案....................................................................................................568
8 运维监控中心设计 ....................................................................................................................580
8.1 云计算中心运维服务方案 .......................................................................................................580
8.1.1 运维服务体系建设说明....................................................................................................580
8.1.2 运维服务体系架构............................................................................................................583
8.1.3 云计算中心运维服务内容................................................................................................588
8.1.4 云计算中心监控方案和排障方法 ....................................................................................610
8.1.5 体系建设的效果分析........................................................................................................614
8.2 系统迁移方案规划 ...................................................................................................................617
8.2.1 迁移原则............................................................................................................................617
8.2.2 迁移步骤............................................................................................................................617
9 平台运营规划设计 ....................................................................................................................618
9.1 平台价值 ...................................................................................................................................618
9.2 商业创新模式 ...........................................................................................................................618
9.2.1 商业模式创新....................................................................................................................619
9.2.2 基于 XXX 云大数据的商业创新模式方向........................................................................619
9.3 管理及运营支撑 .......................................................................................................................622
9.3.1 锁定信息化运营................................................................................................................622
9.3.2 明确 IT 主体和业务主体...................................................................................................623
9.3.3 用互联网数据打造第二轨,用数据分析平台完善第二轨 ............................................623
9.3.4 高并发下的数据安全保障................................................................................................623
9.4 运营体系规划 ...........................................................................................................................624
9.4.1 打造第二轨数据资产管理,发挥数据价值 ....................................................................624
9.4.2 完善组织架构,深入推进统计大数据能力的建设和运营 ............................................625
9.4.3 利用大数据处理架构,拓展大数据中心的建设思路 ....................................................625
9.4.4 区隔数据热度,建立数据资产管理和应用 ....................................................................625
9.4.5 通过分层服务,向专业系统提供多样的数据分析服务 ................................................625