![](https://lstatic.shangxueba.com/jiandati/pc/images/pc_jdt_tittleico.png)
下列不属于数据预处理原因的是()。
A.数据量过于庞大
B.数据可能存在缺失、错误、不一致等问题
C.数据有可能不能很好地反映潜在的模式
D.有些数据属性是无用的或者冗余的
![](https://lstatic.shangxueba.com/jiandati/pc/images/jdt_q_ckda.png)
![](https://lstatic.shangxueba.com/jiandati/pc/images/jdt_panel_vip.png)
![](https://lstatic.shangxueba.com/jiandati/pc/images/jdt_q_wyda.png)
- · 有4位网友选择 C,占比50%
- · 有3位网友选择 D,占比37.5%
- · 有1位网友选择 A,占比12.5%
A.数据量过于庞大
B.数据可能存在缺失、错误、不一致等问题
C.数据有可能不能很好地反映潜在的模式
D.有些数据属性是无用的或者冗余的
B、利用日志采集工具把实时采集的数据作为流计算系统的输入,进行实时处理分析
C、利用网页爬虫程序到互联网网站中爬取数据
D、对分析结果进行可视化呈现,帮助人们更好地理解数据、分析数据
A、中心化数据集-计算协方差矩阵-计算特征根-计算主成分矩阵-得到降维后的数据集
B、中心化数据集-计算主成分矩阵-计算协方差矩阵-计算特征根-得到降维后的数据集
C、计算协方差矩阵-计算主成分矩阵-计算特征根-中心化数据集-得到降维后的数据集
D、计算协方差矩阵-计算特征根-中心化数据集-计算主成分矩阵-得到降维后的数据集
A、等距离分箱能使每个区间内包含的取值个数大致相同
B、又称为等宽度分箱
C、若区间个数为k,每个区间的间距为I=(max-min)/k
D、等距离分箱可能导致属于某些的取值非常多,而某些又非常少
为了保护您的账号安全,请在“简答题”公众号进行验证,点击“官网服务”-“账号验证”后输入验证码“”完成验证,验证成功后方可继续查看答案!