以下关于缺失值检测的说法中,正确的是()。
A.null 和notnull可以对缺失值进行处理
B.dropna方法既可以删除观测记录,亦可以删除特征
C.fillna方法中用来替换缺失值的值只能是数据框
D.pandas库中的interpolate模块包含了多种插值方法
- · 有3位网友选择 B,占比33.33%
- · 有3位网友选择 C,占比33.33%
- · 有2位网友选择 A,占比22.22%
- · 有1位网友选择 D,占比11.11%
A.null 和notnull可以对缺失值进行处理
B.dropna方法既可以删除观测记录,亦可以删除特征
C.fillna方法中用来替换缺失值的值只能是数据框
D.pandas库中的interpolate模块包含了多种插值方法
A、随机森林是一种集成算法,可以使用CART等基学习器提高分类的性能。
B、类似装袋法的样本抽样方法,保证每棵树的学习样本集的多样性。
C、每颗树都是从属性集随机抽取一定数目的属性作为候选的特征。
D、随机森林训练后只需选择性能最好的树最为预测模型。
A、用一个样本统计量的值代替缺失值。
B、用一个统计模型计算出来的值去代替缺失值。
C、将有缺失值的记录删除,不过可能会导致样本量的减少。
D、将有缺失值的记录保留,仅在相应的分析中做必要的排除。
A、pandas没有做哑变量的函数
B、在不导入其他库的情况下,仅仅使用pandas就可实现聚类分析离散化
C、pandas可以实现所有的数据预处理操作
D、cut函数默认情况下做的是等宽法离散化
A、原则利用了统计学中小概率事件的原理
B、使用箱线图方法时要求数据服从或近似服从正态分布
C、基于聚类的方法可以进行离群点检测
D、基于分类的方法可以进行离群点检测
A、经过该方法处理后的数据均值为0,标准差为1
B、可能会改变数据的分布情况
C、Python中可自定义该方法实现函数: def StandardScaler(data): data = (data - data.mean()) / data.std() return data
D、计算公式为
A、sklearn全称为 scikit-learn
B、sklearn 在官网被分为7个大块
C、sklearn 的聚类算法几乎都已经放在cluster 模块中了
D、sklearn 需要 NumPy和SciPy库的支持
为了保护您的账号安全,请在“简答题”公众号进行验证,点击“官网服务”-“账号验证”后输入验证码“”完成验证,验证成功后方可继续查看答案!