北语22秋《大数据技术与应用》作业2【标准答案】

作者:周老师 分类: 北京语言大学 发布时间: 2022-11-25 14:33

专业辅导各院校在线、离线考核、形考、终极考核、统考、社会调查报告、毕业论文写作交流等!

联系我们:QQ客服:3326650399   439328128    微信客服①:cs80188     微信客服②:cs80189

              扫一扫添加我为好友                           扫一扫添加我为好友

支付宝微信钱包

21秋《大数据技术与应用》作业2-00001

试卷总分:100 得分:100

一、单选题 (共 15 道试题,共 60 分)

1.用练习好的LOF实例判别数据是不是反常,正常样本用1表明,反常样本用-1表明的句子

A.from sklean.neighbors import LocalOutlierFactor

B.clf=LocalOutlierFactor(n_neighbors=20)

C.y_pred=clf.fit_predict(X)

D.X_scores = clf.negative_outlier_factor_



2.使用pandas处理数据缺失值时,用于填充缺失值的函数为

A.isnull

B.head

C.fillna

D.dropna



3.决议计划树生成过程中,以信息增益作为特征挑选原则生成决议计划树的算法是

A.ID3

B.C4.5

C.CART

D.以上都不对



4.决议计划树的生成是一个递归过程,在决议计划树根本算法中,满意哪种景象,会致使递归过程回来中止

A.特征挑选次数超越必定约束

B.当时特点集为空,或一切样本在一切特点上取值一样

C.决议计划树深度超越2

D.以上都不对



5.:from sklearn.tree import DecisionTreeClassifiernclf = DecisionTreeClassifier()nclf.fit(Xtrain,Ytrain) npredictions = clf.predict(Xtest)n上面代码第4行中Xtest表明

A.练习数据集

B.测试数据集

C.练习数据的种类标签数组

D.测试数据的种类标签数组



6.以下不归于大数据剖析方法的是()

A.统计剖析

B.数学模型

C.机器学习

D.人工智能



7.用练习好的孤立森林isolation forest实例对数据进行反常值检测的句子是

A.from sklean.ensemble import IsolationForest

B.LocalOutlierFactor

C.clf= IsolationForest(max_samples=100,random_state=0)

D.clf.fit(X_train)

E.y_pred=clf.fit_predict(X)

F.y_pred_test = clf.predict(X_test)



8.用练习好的含糊C均值聚类实例对数据进行聚类操作的句子是

A.from fcmeans import FCM

B.fcm=FCM(n_clusters=3)

C.fcm.fit(X)

D.fcm_labels=fcm.u.argmax(axis=1)



9.数据集{1,2,2,2,3,4}的众数是

A.1

B.2

C.3

D.4



10.不包括任何项的项集是指

A.项

B.空集

C.超项集

D.子项集



11.使用Sklearn构建KNN分类器,用于KNN分类器练习的程序为

A.knn.fit(X_train,y_train)

B.y_pred=knn.predict(X_test)

C.knn=KNeighborsClassifier(n_neighbors=k)

D.以上都不对



12.数据集{2,2,4,4,4,4,6,6,8,8,12,14,16,20,22,28,30,44}的中四分位数为

A.2

B.4

C.6

D.8



13.相关规矩 X→Y 表明中X称为

A.前件

B.后件

C.中心件

D.以上都不对



14.从软件库中导入含糊C均值聚类算法类的句子是

A.from fcmeans import FCM

B.fcm=FCM(n_clusters=3)

C.fcm.fit(X)

D.fcm_labels=fcm.u.argmax(axis=1)



15.假如一个项集包括K个项,则该项集称为

A.项

B.空集

C.超项集

D.K项集



二、多选题 (共 5 道试题,共 20 分)

16.数据会集趋势剖析的常用目标包含

A.均匀值

B.中位数

C.众数

D.四分位数



17.以下哪些是数据可视化图表

A.柱状图

B.折线图

C.饼图

D.散点图



18.分箱法包含

A.等深分箱

B.众数分箱

C.等宽分箱

D.以上都不对



19.在数据清洁过程中,用于处理噪声值的方法包含

A.盖帽法

B.分箱法

C.聚类法

D.以上都不对



20.定性数据包含

A.有序数据

B.无序数据

C.定类等级数据

D.定性等级数据



三、判别题 (共 5 道试题,共 20 分)

21.回归算法的意图是寻觅决议计划鸿沟



22.描绘性数据剖析归于对比高级杂乱的数据剖析手法



23.盖帽法是将某接连变量均值上下三倍规范差规模外的数值悉数删去



24.定性数据包含离散数据和接连数据



25.等宽分箱方法是指每个分箱中样本数量共同

专业辅导各院校在线、离线考核、形考、终极考核、统考、社会调查报告、毕业论文写作交流等!(非免费)

联系我们:QQ客服:3326650399   439328128    微信客服①:cs80188     微信客服②:cs80189

               扫一扫添加我为好友                           扫一扫添加我为好友

支付宝微信钱包