CDH相关软件下载地址

教程发布:2021-03-20 浏览学习: 322 次 教程分类:资源下载

CM(Cloudera Manager)是Cloudera公司开发的一款管理CDH集群的工具,具有集群自动化安装、中心化管理、集群监控、报警等功能,使得安装Hadoop集群可以用更短的时间,更少的运维人员完成布署与高效管理CM主要功能 :对集群进行管理,比如节点添加、节点删除、参数设置等对集群健康情况进行全面监控对集群出现的问题进行诊断,同时给出解决方案对H…

Sqoop相关软件下载地址

教程发布:2021-03-20 浏览学习: 308 次 教程分类:资源下载

 01.Flume介绍Flume是Cloudera提供的一个高可用的、高可靠的、分布式的海量日志采集、数据传输的系统Flume支持对日志系统进行数据收集、对数据进行简单处理并传统到目的地。02.Flume如何保证数据传输成功?Flume把数据传到目的地之前,自己会先缓存数据,等数据真正到达目后,再删除自己缓存的数据。1.Sqoop介绍1)Apach…

Spark相关软件下载地址

教程发布:2021-03-20 浏览学习: 307 次 教程分类:资源下载

Spark是一个快速的、通用的、处理大规模数据的计算引擎,2009年诞生于美国加州大学伯克利分校,在2010年成为Apache的开源项目之一。Spark是基于Scala语言编写的,支持Scala、Java、R、Python等语言,并提供了上百种高性能的算法,提供了SQL接口、流式计算、图算法、机器学习等完整而强大的技术栈。Flink是一个面向分布式数据流处理…

HBase相关软件下载地址

教程发布:2021-03-20 浏览学习: 286 次 教程分类:资源下载

HBase 是一个分布式的、面向列的、能存储并处理海量数据存储的非关系型开源NoSQL数据库,物理结构存储结构(K-V)。HBase是Apache的Hadoop项目的子项目,运行于 HDFS 文件系统之上,为 Hadoop 提供类似于 BigTable 规模的服务,可在廉价PC Server上搭建大规模结构化存储集群。HBase强读写一致,但是不是“最终一致…

Hadoop相关软件下载地址

教程发布:2021-03-20 浏览学习: 372 次 教程分类:资源下载

Hadoop利用分布式环境下软硬件资源,实现Hadoop集群的海量数据的处理能力、存储能力、计算能力,Hadoop平台架构中三大核心组件:HDFS(分布式文件存储,集群)Yarn(分布式资源管理,集群)MapReduce(分布式计算处理,一个应用程序开发包)HDFS(分布式文件存储)一个分布式集群文件系统,可以由很多台廉价的服务器组成集成,通过目录树的方式来…

ClickHouse软件下载

教程发布:2020-12-16 浏览学习: 539 次 教程分类:资源下载

ClickHouse是2016年俄罗斯Yandex公司开源出来的一款MPP架构(大规模并行处理)的列式数据库,主要用于大数据分析(OLAP)领域,具有快速查询、线性可扩展、功能丰富、硬件利用效率高、容错、高度可靠等优点。 ClickHouse主要应用场景: 电信行业用于存储数据和统计数据使用 用户行为数据记录与分析 信息安全日志分析 商业智能与广告网络价值数…

PDI-Kettle相关软件下载

教程发布:2020-11-23 浏览学习: 710 次 教程分类:资源下载

ETL是Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、清洗转换(transform)、加载(load)至目的端的过程;目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。 ETL这个概念经常作为数据仓库技术来使用,但其对象并不限于数据仓库,ETL是BI(商业智能)项目重要的…

TiDB分布式数据库相关软件下载

教程发布:2020-10-27 浏览学习: 588 次 教程分类:资源下载

TiDB 是 PingCAP 公司自主设计、研发的国产开源分布式数据库,是一款融合型HTAP分布式数据库产品(同时支持OLTP 在线事务处理、OLAP 在线分析处理),具备水平扩容或者缩容、金融级高可用、实时HTAP、云原生的分布式数据库,兼容 MySQL 5.7 协议和 MySQL 生态等重要特性。 TiDB 适合高可用、强一致要求较高、数据规模较大等各种…