南开22秋学期(高起本1709-1803、全层次1809-2103)《大数据导论》在线作业【标准答案】

作者:奥鹏周老师 分类: 南开大学 发布时间: 2022-11-08 18:53

作业答案 联系QQ:3326650399 微信:cs80188

22秋学期(高起本1709-1803、全层次1809-2103)《大数据导论》在线作业-00003

试卷总分:100 得分:94

一、单选题 (共 15 道试题,共 30 分)

1.PaaS是()的简称

A.软件即效劳

B.渠道即效劳

C.基础设施即效劳

D.硬件即效劳



2.GFS中的文件切分红()的块进行存储

A.32MB

B.64MB

C.128MB

D.1G



3.DAS代表的意思是()

A.两个异步存储

B.数据归档软件

C.衔接一个可选的存储

D.直连存储



4.()是Microsoft Office的中心组件

A.SQL

B.WORD

C.PPT

D.EXCEL



5.大数据的最明显特征是() 。

A.数据规划大

B.数据类型多样

C.数据处理速度快

D.数据价值密度高



6.下列哪个R语言拓展包能够制作一系列的图画并将它们串联起来做成动画()

A.ggplot2

B.network

C.ggmaps

D.animation



7.医疗安康数据的根本状况不包含以下哪项?

A.治疗数据

B.个人安康管理数据

C.公共安全数据

D.安康档案数据



8.基础设施即效劳的英文简称是

A.IaaS

B.PaaS

C.SaaS



9.数据清洁的方法不包含

A.缺失值处理

B.噪声数据铲除

C.共同性检查

D.重复数据记载处理



10.以下不是数据库房根本特征的是()

A.数据库房是面向主题的

B.数据库房是面向业务的

C.数据库房的数据是相对安稳的

D.数据库房的数据是反映前史改变的



11.下列哪个东西常用来开发移动友爱地交互地图()

A.Leaflet

B.Visual.ly

C.BPizza Pie Charts

D.Gephi



12.SAN是一种()

A.存储设备

B.专为数据存储而设计构建的网络

C.光纤交流机

D.HBA



13.大数据的特色不包括

A.数据体量大

B.价值密度高

C.处理速度快

D.数据不一致



14.下列哪个R语言拓展包能够创立带有点和边的网络图()

A.ggplot2

B.network

C.ggmaps

D.animation



15.用于描绘持平时刻距离下接连数据随时刻改变趋势的是()

A.折线图

B.散点图

C.条形图

D.饼图



二、多选题 (共 15 道试题,共 30 分)

16.大数据在医疗中的应用有()

A.盛行性疾病防止

B.缓慢病安康管理

C.临床决议计划撑持

D.医疗器械研制



17.常见的非结构化数据有()

A.web网页

B.即时音讯

C.富文这篇文章档

D.实时多媒体数据



18.交通数据处理包含以下几个过程()

A.数据清洁

B.数据映射

C.数据安排

D.数据聚类



19.大数据收集首要包含()四种。

A.系统日志收集

B.网络数据收集

C.数据库收集

D.其他数据收集



20.数据归约(Data Reduction)首要有()

A.维度规约

B.样本规约

C.数据集合

D.离散化概念分层



21.网络数据收集常用的是经过##或##等方法从网站上获取数据信息。

A.网络爬虫

B.网站揭露API

C.手动获取



22.常见的分类方法有

A.决议计划树

B.贝叶斯网络

C.遗传算法

D.FP算法



23.层次方法能够分为()

A.K均值算法

B.K中间点算法

C.凝集法

D.割裂法



24.下列正确的是()

A.D3是数据驱动文件的缩写,是最盛行的可视化库之一,它被许多其他的表格插件所运用

B.D3也能够经过一些自界说模块来依据需求增加需求的(非DOM)特性,并在WebWorker上运转

C.D3选用的是Selectors API的榜首级规范

D.基础R现已包括支撑包含协同图(Coplot)、拼接图(Mosaic Plot)和双标图等多类图形的功用。



25.云计算的特色是()

A.大规划

B.高拓展性

C.虚拟化

D.按需分配



26.数据变换的常用方法有##,##,##,##

A.中间化变换

B.极差标准化变换

C.规范化变换

D.对数变换



27.大数据在教学中的应用

A.网上揭露课

B.慕课

C.才智学校

D.翻转讲堂



28.关于R语言拓展包下列正确的是()

A.network可创立带有点和边的网络图

B.animation可制作一系列的图画并将它们串联起来做成动画

C.ggmaps经过树图来可视化层次型数据

D.protfolio根据google地图、OpenStreetMap及其他地图的空间数据可视化东西



29.数据处理的两种方法是##,##

A.批处理

B.流处理

C.单个处理

D.穿插处理



30.医疗大数据特色:除了包括了大数据4个“V” 的特色之外还有()

A.多态性

B.时效性

C.不完好性

D.冗余性



三、判别题 (共 20 道试题,共 40 分)

31.数据剖析是大数据价值链中终究和最重要的期间,其意图是发掘数据中潜在的价值以供给相应的主张或决议计划。经过剖析不一样范畴中的数据集能够使数据在不一样层面发扬最大价值。



32.因为数据成为资源,变成有价值的东西,数据私有化和独占疑问即是客观存在的,变成重视的焦点。数据产权界定疑问日益杰出,在数据权属断定的状况下,数据产品化将变成必定挑选



33.多维数据指的是具有多个维度特点的数据变量。



34.标签云将要害词依据词频或其他规矩进行排序,依照必定规律进行布局摆放,用巨细、色彩、字体等图形特点对要害词进行可视化。



35.数据缺失是大数据库中常见的疑问,发生的缘由也是多种多样的。首要包含机械缘由和人为缘由。



36.数据库房是一个面向主题的(subject oriented)、集成的(integrate),相对安稳的(non-volatile)、反映前史改变(time variant)的数据调集,以用于撑持管理决议计划过程。



37.Python是一种面向对象的解说型计算机程序设计语言



38.预处理之后的数据需求被安排在数据库或数据库房中。



39.用户能够简单地剖析空间状况(路途网络内部)随时刻的任何改变,或剖析路途段上的交通情况的时刻改变,或许使用前史数据盯梢单个车辆的即时状况。



40.地图归于数据可视化的一种



41.Twitter作为干流社交网络渠道,不只仅是一个海量公共数据集,它仍是一个带有时刻刻度的海量公共数据集——用于捕捉特守时间中(在一些状况下,也是在特定空间中)数百万人关于一切主题事项的主意。



42.一个特点假如能由另一个或一组特点导出,则这个特点能够是冗余的。



43.根据大数据研讨个别或集体行动,发现活动中包含的空间认知规律及空间行动和交互形式,树立以人为本的地理信息效劳,进而撑持个别或集体时空行动决议计划。



44.有些冗余能够被有关剖析检测到。



45.R语言是闭源的



46.弹性是指有容错的机制,若一个RDD分片去失,Spark能够依据粗粒度的日志数据更新记载的信息重构它。



47.空间视图供给了交通阻塞的概览



48.数据流要体现出流数据的特征,反映的是系统中活动的数据;



49.规矩性剖析(Prescriptive Analysis)用于处理决议计划拟定和进步剖析功率



50.R是一种开源编程语言和软件环境,用于数据发掘、数据剖析和可视化。

作业答案 联系QQ:3326650399 微信:cs80188