首页
题库
网课
在线模考
搜标题
搜题干
搜选项
数据挖掘工程师章节练习(2019.11.22)
问答题
已知数据元组中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,33,35,35,35,35,36,40,45,46,52,70。(a)使用min-max规范化,将age值35转换到[0.0,1.0]区间。(b)使用z-score规范化转换age值35,其中,age的标准偏差为12.94年。(c)使用小数定标规范化转换age值35。
答案:
(a)已知最大值为70,最小值为13,则可将35规范化为:
(b)已知均值为30,标准差为12.94,则可将3...
点击查看完整答案
问答题
企业面对海量数据,应如何具体实施数据挖掘,使之转换成可行的结果/模型?
答案:
首先进行数据的预处理,主要进行数据的清洗,数据清洗,处理空缺值,数据的集成,数据的变换和数据规约。
点击查看答案
判断题
给定由两次运行K均值产生的两个不同的簇集,误差的平方和最大的那个应该被视为较优。
答案:
错误
点击查看答案解析
问答题
考虑下表所示二元分类问题的数据集。(1)计算按照属性A和B划分时的信息增益。决策树归纳算法将会选择哪个属性?(2)计算按照属性A和B划分时Gini系数。决策树归纳算法将会选择哪个属性?
答案:
按照属性A和B划分时,数据集可分为如下两种情况:
按照属性A划分样本集分别得到的两个子集(A取值T...
点击查看完整答案
单项选择题
将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?()
A.频繁模式挖掘
B.分类和预测
C.数据预处理
D.数据流挖掘
点击查看答案&解析
单项选择题
OLAP技术的核心是()
A.在线性
B.对用户的快速响应
C.互操作性
D.多维分析
点击查看答案
问答题
一个数据库有5个事务,如表所示。设min_sup=60%,min_conf=80%。(a)分别用Apriori算法和FP-growth算法找出所有频繁项集。比较两种挖掘方法的效率。(b)比较穷举法和Apriori算法生成的候选项集的数量。(c)利用(1)所找出的频繁项集,生成所有的强关联规则和对应的支持度和置信度。
答案:
(a)频繁1-项集:M,O,K,E,Y
频繁2-项集:{M,K},{O,K},{O,E},{K,Y},{K,E...
点击查看完整答案
问答题
简述数据仓库的组成。
答案:
数据仓库数据库,数据抽取工具,元数据,访问工具,数据集市,数据仓库管理,信息发布系统。
点击查看答案
判断题
关联规则挖掘过程是发现满足最小支持度的所有项集代表的规则。
答案:
错误
点击查看答案解析