关于基于 Hadoop的 MapReduce编程的环境配置, 下面哪一步是不必要的()
A.安装 linux 或者在 Windows下安装 Cgywin
B.安装 java
C.安装 MapReduce
D.配置 Hadoop参数
- · 有4位网友选择 D,占比40%
- · 有3位网友选择 A,占比30%
- · 有2位网友选择 C,占比20%
- · 有1位网友选择 B,占比10%
A.安装 linux 或者在 Windows下安装 Cgywin
B.安装 java
C.安装 MapReduce
D.配置 Hadoop参数
A.DataWorks是基于MaxCompute作为计算引擎的
B.DataWorks是基于MaxCompute作为存储引擎的
C.DataWorks可以使用Hadoop作为底层引擎
D.DataWorks的底层计算引擎是
A.①②③
B.①②④
C.②③④
D.①③④
A.仅支持MapReduce计算引擎
B.易用易编程
C.可直接访问HDFS文件以及HBase
D.灵活方便的ETL(extract/transform/load)
A.能基于Atlas的Web页面查询用户的数据查询操作历史
B.能基于Atlas的Web页面浏览数据的血缘关系
C.能基于Atlas的Web页面标注元数据,为元数据分类
D.Atlas支持与Hive数据源的集成,可以实时获取Hive的元数据变化
A、Hadoop已经不再只是起初的HDFS 和MapReduce,而是代表了核心即Core Hadoop,Hadoop项目以及与之相关的一个生态系统。
B、Hive是一种新的结构化查询语言。Sqoop支持Hadoop和关系数据库或大型机之间传输数据。Pig一个基于Hadoop的大规模数据分析工具。它们都属于数据访问的组建。
C、Flume是一个可伸缩的、可靠的系统,用于从各种来源收集和移动集群日志。ZooKeeper通过简单的编程接口实现分布式系统的分布式协调服务。它们都属于数据管理的组建。
D、以上都正确
A、Scala是Spark的主要编程语言,但Spark还支持Java、Python、R作为编程语言
B、Spark提供了内存计算,可将中间结果放到内存中,对于迭代运算效率更高
C、Spark基于DAG的任务调度执行机制,要优于Hadoop MapReduce的迭代执行机制
D、Spark的计算模式也属于MapReduce,但编程模型比Hadoop MapReduce更灵活
A、Hive最佳使用场景是大数据集的批处理作业
B、Hive可以实现在大规模集群上实现低延迟快速查询
C、Hive构建在基于静态批量处理的Hadoop之上,Hadoop通常有较高的延迟并且在提交作业和调度的时候需要大量的开销
D、Hive查询操作过程严格遵循HadoopMap Reduce的作用执行模型,Hive将用户的HiveSQL语句通过解释器转换为Map ReduceHadoop集群上
B.Hive可以实现在大规模数据集上实现低延迟快速的查询
C.Hive构建在基于静态批量处理的Hadoop之上,Hadoop通常有较高的延迟并且在作提交和调度的时候需要大量的开销
D.Hive查询操作过程严格遵循HadoopMapReduce的作用执行模型,Hive将用户的HiveQL语句通过解释器转换为MapReduceHadoop集群上
为了保护您的账号安全,请在“简答题”公众号进行验证,点击“官网服务”-“账号验证”后输入验证码“”完成验证,验证成功后方可继续查看答案!