南开22秋学期（高起本1709-1803、全层次1809-2103）《数据科学导论》在线作业【标准答案】

作者:奥鹏周老师分类: 南开大学发布时间: 2023-06-14 14:45

作业答案联系QQ:3326650399 微信:cs80188

22秋学期（高起本1709-1803、全层次1809-2103）《数据科学导论》在线作业-00002

试卷总分:100 得分:100

一、单选题 (共 20 道试题,共 40 分)

1.实体辨认的常见方式()

A.同名异义

B.异名同义

C.单位不一致

D.特点不一样

2.以下哪一项不是特征工程的子疑问()

A.特征创立

B.特征获取

C.特征挑选

D.特征辨认

3.比方一张表,从事务上讲,一个用户大概只会有一笔记录, 那么假如某个用户呈现了超越一条的记载,这就发生了()

A.反常值

B.纷歧致的值

C.重复值

D.缺失值

4.在一元线性回归模型中,残差项遵守()散布。

A.泊松

B.正态

C.线性

D.非线性

5.关于k近邻法,下列说法错误的是()。

A.不具有显式的学习过程

B.适用于多分类使命

C.k值越大，分类作用越好

D.一般选用大都表决的分类决议计划规矩

6.在k近邻法中,挑选较小的k值时,学习的“近似差错”会(),“估量差错”会()。

A.减小，减小

B.减小，增大

C.增大，减小

D.增大，增大

7.BFR聚类用于在()欧氏空间中对数据进行聚类

A.高维

B.中维

C.低维

D.中高维

8.相信度(confidence)是衡量爱好度衡量( )的目标。

A.简练性

B.断定性

C.实用性

D.新颖性

9.在有统计学含义的条件下,规范化偏回归系数的肯定值越大,阐明相应的自变量对y的效果()。

A.越小

B.越大

C.无关

D.不断定

10.某超市研讨销售纪录数据后发现,买啤酒的人很大约率也会采购尿布,这种归于数据发掘的哪类疑问?()

A.相关规矩发现

B.聚类

C.分类

D.天然语言处理

11.多层感知机是由()层神经元构成。

A.二

B.三

C.大于等于二层

D.大于等于三层

12.下列两个变量之间的关系中,哪个是函数关系()。

A.人的性别和他的身高

B.人的薪酬与年纪

C.正方形的面积和边长

D.温度与湿度

13.思考下面的频频3-项集的调集:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定数据会集只要5个项,选用兼并战略,由候选发生过程得到4-项集不包括()

A.1,2,3,4

B.1,2,3,5

C.1,2,4,5

D.1,3,4,5

14.经过变量规范化计算得到的回归方程称为()。

A.规范化回归方程

B.规范化偏回归方程

C.规范化自回归方程

D.规范化多回归方程

15.具有误差和至少()个S型隐含层加上一个()输出层的网络可以迫临任何有理数。

A.1,线性

B.2,线性

C.1,非线性

D.2,非线性

16.单层感知机模型归于()模型。

A.二分类的线性分类模型

B.二分类的非线性分类模型

C.多分类的线性分类模型

D.多分类的非线性分类模型

17.某产品的产值(X,件)与单位成本(Y,元/件)之间的回归方程为^Y=100-1.2X,这阐明()。

A.产值每添加一台，单位成本添加100元

B.产值每添加一台，单位成本削减1.2元

C.产值每添加一台，单位成本均匀削减1.2元

D.产值每添加一台，单位均匀添加100元

18.以部属于相关剖析的是( )

A.CPU功能预测

B.购物篮剖析

C.自动判别鸢尾花种类

D.股市趋势建模

19.以下哪一项不归于数据变换()

A.简略函数变换

B.标准化

C.特点兼并

D.接连特点离散化

20.下面不是分类的常用方法的有()

A.K近邻法

B.朴素贝叶斯

C.决议计划树

D.条件随机场

二、多选题 (共 10 道试题,共 20 分)

21.聚类的首要方法有()。

A.区分聚类

B.层次聚类

C.密度聚类

D.间隔聚类

22.有关性的分类,依照有关的方向能够分为()。

A.正有关

B.负有关

C.左有关

D.右有关

23.层次聚类的方法是()

A.聚合方法

B.分拆方法

C.组合方法

D.对比方法

24.系统日志搜集的根本特征有()

A.高可用性

B.高牢靠性

C.可拓展性

D.高功率

25.多层感知机的学习过程包括()。

A.信号的正向传达

B.信号的反向传达

C.差错的正向传达

D.差错的反向传达

26.Apriori算法的计算杂乱度受()影响。

A.撑持度阈值

B.项数

C.业务数

D.业务均匀宽度

27.下列选项是BFR的对象是()

A.抛弃集

B.暂时集

C.紧缩集

D.留存集

28.k近邻法的根本要素包含()。

A.间隔衡量

B.k值的挑选

C.样本巨细

D.分类决议计划规矩

29.下面比如归于分类的是()

A.检测图画中是不是有人脸呈现

B.对客户依照借款危险巨细进行分类

C.辨认手写的数字

D.估量商场客流量

30.相关规矩的评估衡量首要有:()。

A.撑持度

B.相信度

C.精确率

D.错误率

三、判别题 (共 20 道试题,共 40 分)

31.一般来说,信息增益越大,则意味着运用特点a来进行区分所取得的“纯度提高越大”,因而咱们可用信息增益来进行决议计划树的最优特征挑选。

32.撑持度是衡量相关规矩重要性的一个目标。

33.添加神经元的个数,无法进步神经网络的练习精度。

34.Pearson有关系数是判别特征之间、以及特征和方针变量之间线性有关关系的统计量。

35.由不一样的间隔衡量所断定的近来邻点是不一样的

36.BFR聚类簇的坐标能够与空间的坐标坚持共同。

37.特征挑选和降维都是用于削减特征数量,进而下降模型杂乱度、避免过度拟合。

38.在树的结构中,特征越重要,就越远离根节点。

39.关于项集来说,相信度没有含义。

40.聚合方法是自底向上的方法。

41.当练习集较大的时分,规范BP算法一般会更快的取得非常好的解。

42.茎叶图失掉初始数据的信息,而直方图保存初始数据的信息。

43.信息熵越大,数据信息的不断定性越小。

44.探究性数据剖析的特色是研讨从初始数据下手,彻底以实践数据为根据。

45.获取数据为数据剖析供给了资料和根据,这儿的数据只包含直接获取的数据。

46.决议计划树的输入为练习集,输出为以node为根结点的一棵决议计划树

47.阶跃函数具有不但滑、不接连的特色。

48.分拆方法是自底向上的方法。

49.为了尽能够正确分类练习样本,结点区分过程将不断重复,有时会形成决议计划树分支过少,致使于把练习集本身的一些特色当作一切数据都具有的一般性质而致使过拟合

50.贝叶斯定理是概率论中的一个成果,它与随机变量的条件概率以及联合概率散布有关。

作业答案联系QQ:3326650399 微信:cs80188