下面关于DataFrame的描述正确的是:
A.DataFrame的推出,让Spark具备了处理大规模结构化数据的能力
B.DataFrame比原有的RDD转化方式更加简单易用,而且获得了更高的计算性能
C.Spark能够轻松实现从MySQL到DataFrame的转化,并且支持SQL查询
D.DataFrame是一种以RDD为基础的分布式数据集,提供了详细的结构信息
- · 有5位网友选择 C,占比50%
- · 有3位网友选择 B,占比30%
- · 有2位网友选择 A,占比20%
A.DataFrame的推出,让Spark具备了处理大规模结构化数据的能力
B.DataFrame比原有的RDD转化方式更加简单易用,而且获得了更高的计算性能
C.Spark能够轻松实现从MySQL到DataFrame的转化,并且支持SQL查询
D.DataFrame是一种以RDD为基础的分布式数据集,提供了详细的结构信息
B.numPy 的 ndarray 是一种多维数组对象,可以由序列型对象生成。
C.pandas 的 Series 可以看成是一个定长的有序字典。
D.pandas 的 DataFrame 是一个表格型数据结构,含有一组无序的列,每列可以是不同值类型。
A、spark.read.json("people.json")
B、spark.read.parquet("people.json")
C、spark.read.format("json").load("people.json")
D、spark.read.format("csv").load("people.json")
A、利用反射机制推断RDD模式
B、使用编程方式定义RDD模式
C、利用投影机制推断RDD模式
D、利用互联机制推断RDD模式
A、Spark Streaming的基本原理是将实时输入数据流以时间片为单位进行拆分,然后采用Spark引擎以类似批处理的方式处理每个时间片数据
B、Spark Streaming最主要的抽象是DStream(Discretized Stream,离散化数据流),表示连续不断的数据流
C、Spark Streaming可整合多种输入数据源,如Kafka、Flume、HDFS,甚至是普通的TCP套接字
D、Spark Streaming的数据抽象是DataFrame
A、在RDD编程中需要生成一个SparkContext对象
B、在Spark SQL编程中需要生成一个SparkSession对象
C、运行一个Spark Streaming程序,就需要首先生成一个StreamingContext对象
D、在Spark SQL编程中需要生成一个StreamingContext对象
A、数据快速持续到达,潜在大小也许是无穷无尽的
B、数据来源众多,格式复杂
C、数据量大,但是不十分关注存储,一旦流数据中的某个元素经过处理,要么被丢弃,要么被归档存储
D、数据顺序颠倒,或者不完整,系统无法控制将要处理的新到达的数据元素的顺序
为了保护您的账号安全,请在“简答题”公众号进行验证,点击“官网服务”-“账号验证”后输入验证码“”完成验证,验证成功后方可继续查看答案!