Spark运算比Hadoop的MapReduce框架快,原因是Hadoop在一次MapReduce运算之后,会将数据的运算结果从内存写入磁盘中,第二次MapReduce运算时在从磁盘中读取数据,所以其瓶颈在2次运算间的多余IO消耗。Spark则是将数据一直缓存在内存中,直到计算得到最后的结果,再将结果写入到磁盘,所以多次运算的情况下,Spark是比较快的()
- · 有5位网友选择 对,占比62.5%
- · 有3位网友选择 错,占比37.5%
A、Scala是Spark的主要编程语言,但Spark还支持Java、Python、R作为编程语言
B、Spark提供了内存计算,可将中间结果放到内存中,对于迭代运算效率更高
C、Spark基于DAG的任务调度执行机制,要优于Hadoop MapReduce的迭代执行机制
D、Spark的计算模式也属于MapReduce,但编程模型比Hadoop MapReduce更灵活
A.Spark引进了弹性分布式数据集RDD(ResilientDistributedDataset)的抽象,容错性高
B.Spark提供的数据集操作类型不仅限于Map和Reduce,大致分为:Transformations和Actions两大类
C.Spark程序由Python语言进行编写,不支持Java语言进行的程序编写
D.Spark把中间数据放到内存中,迭代运算效率高
A.提供多种数据集操作类型而不仅限于MapReduce
B.数据集中式计算更加高效
C.提供了内存计算,带来了更高的迭代运算效率
D.基于DAG的任务调度执行机制
A.分布式机器学习需要依赖Hadoop、Spark等分布式存储和计算框架。
B.分布式机器学习面对的首要问题主要是数据量,而不是速度的问题。
C.对运算速度要求高的机器学习算法可以优先使用Spark计算框架。
D.分布式计算可以在单个常规的服务器上运行。
A.Common Hive HDFS
B.Common MapReduce Pig
C.HDFS MapReduceHBase
D.HDFS Avro HBase
A、“Hadoop is good”,”Spark is fast”,”Spark is better”
B、”Hadoop”,”is”,”good”,”Spark”,”is”,”fast”,”Spark”,”is”,”better”
C、”Hadoop”,”Spark”,”fast”
D、”Spark”,”is”,”fast”
A.Hadoop和Spark可以相互协作
B.Hadoop负责数据的存储和管理
C.Spark负责数据的计算
D.Spark要操作Hadoop中的数据,需要先启动HDFS
A.”Hadoop”,”Spark”,”Hive”,”Spark”
B.”Hadoop”,”Spark”,”Hive”
C.(”Hadoop”,1),(”Spark”,1),(”Hive”,1)
D.("Hadoop",1)、("Spark",1)、("Hive",1)和("Spark",1)
为了保护您的账号安全,请在“简答题”公众号进行验证,点击“官网服务”-“账号验证”后输入验证码“”完成验证,验证成功后方可继续查看答案!