机器学习选择题
期末随堂测试-数科22级
1.(判断题) 使用k-means算法聚类,算法执行过程中有可能出现空簇。
- 答案:
- 对
- 错
2.(判断题) 基于密度的聚类方法DBSCAN无需指定簇的个数。
- 答案:
- 对
- 错
3.(判断题) 使用基于密度的聚类方法DBSCAN后,每个样本都会归到某个簇中。
- 答案:
- 对
- 错
4.(判断题) 使用基于凝聚的层次聚类算法AGNES聚类后,每个样本都会归到某个簇中。
- 答案:
- 对
- 错
5.(判断题) 基于凝聚的层次聚类算法AGNES无需指定簇的个数。
- 答案:
- 对
- 错
6.(判断题) 聚类评价指标Rand Index和Adjusted Rand Index均需要带有标注信息的样本。
- 答案:
- 对
- 错
7.(判断题) 聚类评价指标轮廓系数silhouette coefficient需要带有标注信息的样本。
- 答案:
- 对
- 错
8.(判断题) 当无法确定簇的个数k时,可以使用轮廓系数silhouette coefficient或者平方误差来指导选择合适的k。
- 答案:
- 对
- 错
9.(判断题) 基于凝聚的层次聚类算法AGNES的结果与簇间距离的计算方式有关系,不同的距离计算方式可能得到不同的结果。
- 答案:
- 对
- 错
10.(单选题) 下列关于Binarizer(copy=)说法正确的是
- 选项:
copy=True可以保证在使用该类的过程中,输入数据不会被修改。
copy=True没有实质性作用,可以忽略。
在使用该类时,输入数据总是不会被 修改。
11.(单选题) 下列选项中属于无监督学习算法的是?
- 选项:
SVM
随机森林
PCA
LDA
12.(判断题) k-均值聚类是寻找平方误差最小的簇划分。
- 答案:
- 对
- 错
13.(判断题) k-均值聚类中的k是指特征的维度。
- 答案:
- 对
- 错
14.(判断题) k-均值聚类的结果与初始聚类中心的选取无关。
- 答案:
- 对
- 错
15.(单选题) 下列选项中关于k-means++说法正确的是
- 选项:
k-means++跟k-means一样,都是聚类算法。
k-means++是一种挑选初始聚类中心的算法。
k-means++是k-means的一种改进,可以解决k-means在大数据情况下速度慢的问题。
针对相同的数据集,使用k-means++得到的结果总是相同。
16.(单选题) 在实际使用k-means算法时,往往需要运行多次,然后根据每次的平方误差选取最优的一次。在使用sklearn时,KMeans类的初始化参数中设置该次数的是?
- 选项:
n_init
init
n_clusters
max_iter
17.(单选题) 在使用sklearn时,KMeans类哪个成员变量可以返回最终的聚类中心?
- 选项:
inertia_
cluster_centers_
labels_
n_iter_
18.(判断题) mini batch k-means是k-means的一种改进,可以解决k-means在大数据情况下速度慢的问题。
- 答案:
- 对
- 错
19.(单选题) mini batch k-mean的核心思想是:每次从所有样本中随机选取一批样本来更新聚类中心。请问sklearn.cluster.MiniBatchKMeans类中哪个参数是设置每批样本的数量?
- 选项:
batch_size
n_clusters
n_init
init
20.(单选题) 下列关于k-means算法的运行时间叙述正确的是
- 选项:
运行时间与样本数量有关系,样本量越大,时间越长。
运行时间受特征维度影响较大,样本数量几乎没有影响
运行时间受样本数量影响较大,特征维度几乎没有影响
21.(单选题) 回归问题和分类问题的区别是?
- 选项:
特征不同
样本数量不同
标注不同
前者是无监督学习任务,后者是监督学习任务。
22.(判断题) 用于解决回归问题的KNN算法和用于解决分类问题的KNN算法的核心部分相同,均需找到与测试样本距离最近的k个训练样本。
- 答案:
- 对
- 错
23.(判断题) 当样本数量较少时,特别是样本量小于或者接近特征的维度,线性回归的最小二乘法不稳定。
- 答案:
- 对
- 错
24.(判断题) 构建回归树需要考虑如何选择切分变量和切分点。
- 答案:
- 对
- 错
25.(判断题) 在涉及目标值标准化的问题中,在计算MSE和MAE时需要将回归模型的输出做反变换。
- 答案:
- 对
- 错
26.(判断题) 回归问题的提升树算法,通过不断拟合已有模型的误差来学习弱学习器,最终得到强学习器。
- 答案:
- 对
- 错
27.(判断题) 通常把反映数据内在规律的信息叫做特征。
- 答案:
- 对
- 错
28.(多选题) 机器学习三要素是?
- 选项:
模型
策略
算法
数据
29.(多选题) 用于评价分类模型性能的指标通常有
- 选项:
准确率
精确率
召回率
F1-值
事件发生的几率
30.(单选题) 在哪一种距离下,单位圆周是顶点在坐标轴上的正方形?
- 选项:
欧式距离
曼哈顿距离
切比雪夫距离
p为任意取值的闵可夫斯基距离
31.(判断题) 回归是无监督学习。
- 答案:
- 对
- 错
32.(判断题) 回归与分类的区别是:回归模型输出为连续值,分类模型输出为离散值。
- 答案:
- 对
- 错
33.(单选题) 最小二乘回归使用什么损失?
- 选项:
平方损失
合页损失
对数损失
指数损失
34.(单选题) 岭回归和Lasso的正则项分别是?
- 选项:
L2范数和L1范数
L1范数和L2范数
L0范数和L1范数
L2范数和L0范数
35.(单选题) 下列哪个算法可以抑制离群点的影响?
- 选项:
最小乘回归
岭回归
Lasso回归
Huber回归
36.(多选题) 下列指标用于评价回归模型的有
- 选项:
均方误差
平均绝对误差
决定系数
召回率
F1值
37.(判断题) 利用KNN算法回归时,选取距离测试样本最小的K个训练样本,然后对这K个近邻目标的值进行平均,得到测试样本的预测值。
- 答案:
- 对
- 错
38.(判断题) 在构建回归树时,关键问题是如何选择切分变量和切分点。确定最优切分变量和最优切分点通常使用启发式方法,即先固定切分方向j,确定切分点s;然后
遍历所有j,确定最优切分变量和切分点(j,s)。
- 答案:
- 对
- 错
39.(判断题) 针对回归问题,在构建提升树时,每次迭代是针对残差进行拟合来构建回归树的。
- 答案:
- 对
- 错
40.(单选题) 支持向量回归的损失函数是?
- 选项:
epsilon_insensitive
平方损失
Huber损失
指数损失
41.(判断题) 使用PCA降维是无损的。
- 答案:
- 对
- 错
42.(判断题) PCA降维是无监督学习方法。
- 答案:
- 对
- 错
43.(判断题) PCA的核心思想是投影到方差更大的方向。
- 答案:
- 对
- 错
44.(判断题) PCA需要先对样本进行中心化处理,即每个样本减去样本均值。
- 答案:
- 对
- 错
45.(多选题) 在PCA降维时,关于目标维度和累积贡献率的关系,下述说法正确的是
- 选项:
目标维度越大,累积贡献率越小
目标维度越大,累积贡献率越大
累积贡献率和目标维度无关
当目标维度和特征维度相同时,累积贡献率等于1.
46.(判断题) 累积贡献率的取值范围是:大于0小于1
- 答案:
- 对
- 错
47.(多选题) 关于sklearn.decomposition.PCA(n_components)中的参数n_components,叙述正确的有
- 选项:
n_components可以取大于等于1的整数,此时表示目标维度
n_components取值为(0,1]之间的浮点数时,用累积贡献率来决定维数,即目标维度要使的对应的累积贡献率刚好大于等于该值
默认时无输入,此时n_components=min(样本数,特征数)
取值为字符串“mle”时, 用MLE算法自己选择一定数量的主成分特征来降维
48.(判断题) 可以通过sklearn.decomposition.PCA()中的成员变量explained_variance_,获取协方差矩阵的特征根。
- 答案:
- 对
- 错
49.(判断题) 可以对sklearn.decomposition.PCA()中的成员变量explained_variance_ratio_进行求和,来获取累积贡献率。
- 答案:
- 对
- 错
50.(判断题) 可以通过sklearn.decomposition.PCA()中的成员变量mean_,获取训练样本的均值。
- 答案:
- 对
- 错
51.(判断题) 可以通过sklearn.decomposition.PCA()中的成员变量components_ ,获取降维矩阵。
- 答案:
- 对
- 错
52.(判断题) KernelPCA是在更高维空间进行降维,所以需要设计低维到高位的投影函数。
- 答案:
- 对
- 错
53.(单选题) sklearn中使用核PCA的类是:
- 选项:
KernelPCA
PCA
LinearDiscriminantAnalysis
KernelSVM
54.(单选题) 在sklearn中使用PCA和核PCA这两个类时,初始化类时,目标维度均使用如下哪个参数指定?
- 选项:
n_components
kernel
gamma
degree
55.(多选题) 在sklearn中,当使用PCA类时,如下选项哪些是关于核函数的参数?
- 选项:
linear
poly
rbf
sigmoid
56.(单选题) 在sklearn中,核PCA类使用如下哪个参数kernel指定和函数类型?
- 选项:
n_components
kernel
gamma
degree
57.(判断题) 使用核PCA时,针对训练集的核矩阵是对称矩阵。
- 答案:
- 对
- 错
58.(多选题) 在核PCA的过程中,在训练阶段针对训练集需要完成的步骤有哪些?
- 选项:
计算核矩阵
对核矩阵进行中心化处理
特征值分解,确定投影矩阵
通过高维映射确定样本在高维空间中的投影
59.(多选题) 在核PCA的过程中,在测试阶段针对测试集需要完成的步骤有哪些?
- 选项:
计算测试集对应的核矩阵
测试集核矩阵中心和
使用训练阶段确定的投影矩阵,对测试机核矩阵进行投影
将结果投影到原始的特征空间
60.(判断题) KernelPCA是在更高维空间进行降维,所以需要设计低维到高位的投影函数。
- 答案:
- 对
- 错
61.(单选题) sklearn中使用核PCA的类是:
- 选项:
KernelPCA
PCA
LinearDiscriminantAnalysis
KernelSVM
62.(单选题) 在sklearn中使用PCA和核PCA这两个类时,初始化类时,目标维度均使用如下哪个参数指定?
- 选项:
n_components
kernel
gamma
degree
63.(多选题) 在sklearn中,如下选项哪些是关于核PCA方法的关于核函数的参数?
- 选项:
linear
poly
rbf
sigmoid
64.(单选题) 在sklearn中,核PCA类使用如下哪个参数kernel指定和函数类型?
- 选项:
n_components
kernel
gamma
degree
65.(判断题) 使用核PCA时,针对训练集的核矩阵是对称矩阵。
- 答案:
- 对
- 错
66.(多选题) 在核PCA的过程中,在训练阶段针对训练集需要完成的步骤有哪些?
- 选项:
计算核矩阵
对核矩阵进行中心化处理
特征值分解,确定投影矩阵
通过高维映射确定样本在高维空间中的投影
67.(多选题) 在核PCA的过程中,在测试阶段针对测试集需要完成的步骤有哪些?
- 选项:
计算测试集对应的核矩阵
测试集核矩阵中心和
使用训练阶段确定的投影矩阵,对测试机核矩阵进行投影
将结果投影到原始的特征空间
68.(多选题) 下述降维方法是无监督的有?
- 选项:
PCA
KernelPCA
LDA
69.(判断题) LDA的核心思想是投影后保证类间距离最大化,类内距离最小化。
- 答案:
- 对
- 错
70.(判断题) PCA选择分类性能最好的投影方向。
- 答案:
- 对
- 错
71.(单选题) LDA降维后的维度需要满足?
- 选项:
小于样本个数即可
小于类别数即可
可以等于样本个数,也可以等于类别数
不超过样本个数,同时小于类别数
72.(判断题) LDA无需对样本中心化处理。
- 答案:
- 对
- 错
73.(单选题) 用于LDA降维的类sklearn.discriminant_analysis.LinearDiscriminantAnalysis,其哪个参数用于指定目标维度?
- 选项:
solver
n_components
covariance_estimator
store_covariance
74.(单选题) 用于LDA降维的类sklearn.discriminant_analysis.LinearDiscriminantAnalysis,其哪个方法用于测试样本的投影?
- 选项:
fit
transform
predict
75.(单选题) 用于LDA降维的类sklearn.discriminant_analysis.LinearDiscriminantAnalysis,其哪个方法用于预测类别?
- 选项:
fit_transform
fit
transform
predict
76.(单选题) L1正则化和L2正则化中,哪一个更有让所学参数具有稀疏的趋势?
- 选项:
L1正则化
L2正则化
它们没有区别
77.(判断题) 在回归问题中,对标注(即输出值)做标准化,不影响回归模型的评价指标值。
- 答案:
- 对
- 错
78.(多选题) 在回归问题中,对标注(即输出值)做标准化,回归模型的评价指标值改变的是?
- 选项:
均方误差
平均绝对误差
决定系数
召回率
79.(判断题) 在前馈神经网络中,如果每一层均不使用非线性激活函数,那么该神经网络是一个线性模型。
- 答案:
- 对
- 错
80.(判断题) 使用前馈神经网络进行推理,是正向传播过程。
- 答案:
- 对
- 错
81.(判断题) 训练前馈神经网络的核心过程是误差反向传播过程。
- 答案:
- 对
- 错
82.(单选题) 使用如下网络,输入是(1,1)的,输出是多少?
其中,激活函数是变异的符号函数,即如果输入是非负数,那么输出为1;否则输出0.

- 选项:
0
1
-0.5
-1.5
83.(多选题) 在推理阶段,对于给定的输入,一个前馈神经网络的输出结果和以下哪些项有关?
- 选项:
激活函数
相邻两层之间的权重系数
每个神经元的偏置
学习率
84.(多选题) 在训练阶段,对于给定的网络结构,最终的模型和以下哪些项有关?
- 选项:
学习率
训练轮数(Epoch)
参数初始化方法
损失函数
85.(判断题) 在使用sklearn的数据标准化类的时候,成员函数fit_transform和transform是一样的,没有区别。
- 答案:
- 对
- 错
86.(判断题) Binarizer类中的fit()方法没有实质性作用。
- 答案:
- 对
- 错
87.(判断题) 在测试集上可以使用MaxAbsScale类的fit_transform()方法。
- 答案:
- 对
- 错
88.(判断题) Normalizer类当norm='inf'时,实现的功能与MaxAbsScale类一样。
- 答案:
- 对
- 错
89.(单选题) 在定义卷积层是,卷积核的通道数如何确定?
- 选项:
必须等于当前被卷积的数据的通道数
由人工确定
等于3
等于输出数据的通道数
90.(判断题) 使用StandardScaler变换以后,数据的取值范围变为(0,1)。
- 答案:
- 对
- 错
91.(单选题) 卷积结果的通道数如何确定?
- 选项:
等于卷积核的通道数
等于卷积核的数量
等于当前被卷积的数据的通道数
等于3
92.(单选题) 针对输入是224X224X3的特征,使用11X11X3的卷积核,步长为4,填充为2,那么输出特征的空间尺寸为?
- 选项:
55X55
224X224
112X112
234X234
93.(单选题) 连续使用三次3X3卷积,其感受野相当于多大?
- 选项:
3X3
5X5
7X7
9X9
94.(判断题) VGG的特点是连续使用堆叠的3X3卷积核来扩大感受野。
- 答案:
- 对
- 错
95.(判断题) 1X1卷积核的作用相当于对特征在通道方向上加权求和。
- 答案:
- 对
- 错
96.(判断题) ResNet使用残差连接大大加深了卷积神经网络的深度。
- 答案:
- 对
- 错
97.(判断题) DenseNet通过特征重用,既大幅度减少了网络的参数量,又在一定程度上缓解了梯度消失问题的产生。
- 答案:
- 对
- 错
期末上机测试-数科22
1.(填空题) 原始数据的样本数量为
- 答案:
- 10000
2.(填空题) 原始数据的特征维度为
- 答案:
- 64
3.(填空题) 特征的第1个维度的均值是?(请四舍五入保留4位小数)
- 答案:
- 0.0081
4.(填空题) 特征的第1个维度的标准差是?(请四舍五入保留4位小数)
- 答案:
- 0.9992
5.(填空题) PCA的目标维度为?
- 答案:
- 63
6.(填空题) PCA的降维矩阵的第一个元素为?(请四舍五入保留4位小数)
- 答案:
- 0.0016
7.(填空题) 模型在测试集上的准确率是?(请四舍五入保留4位小数)
- 答案:
- 0.6373
8.(填空题) 模型在测试集上的召回率是?(请四舍五入保留4位小数)
- 答案:
- 0.6417
9.(填空题) 模型在测试集上的精确率是?(请四舍五入保留4位小数)
- 答案:
- 0.6882
10.(填空题) 模型在测试集上的F1值是?(请四舍五入保留4位小数)
- 答案:
- 0.6152
11.(填空题) 第一个测试样本的预测类别为?
- 答案:
- 1
12.(填空题) 第二个测试样本的预测类别为?
- 答案:
- 1
13.(填空题) 第三个测试样本的预测类别为?
- 答案:
- 1
分类阶段性测试一-分类
1.(多选题) 机器学习三要素是?
- 选项:
模型
策略
算法
样本
2.(判断题) 感知器算法的损失函数是误分类点的总数。
- 答案:
- 对
- 错
3.(填空题) sklearn提供的感知器类是Perceptron,该类实例化的时候一个重要的参数是eta0,请问该参数表示什么?
- 答案:
- 学习率
4.(多选题) 下述指标常用来评价分类模型的有哪些?
- 选项:
准确率(accuracy)
精确率(precision)
召回率(recall)
F1-值(F1-score)
均方误差
5.(段落说明) 现有10个样本,6个阳性(positive),4个阴性(negative)。模型分别将2个阳性和1个阴性样本预测错误,其余样本均预测正确。请根据该数据,完成下述四个题目。
- 答案:
- 暂无答案
6.(填空题) 模型的准确率(accuracy)是多少?(保留两位小数)
- 答案:
- 0.70
7.(填空题) 模型的精确率(precision)是多少?(保留两位小数)
- 答案:
- 0.80
8.(填空题) 模型的召回率(recall)是多少?(保留两位小数)
- 答案:
- 0.67
9.(填空题) F1-值(F1-score)是多少?(保留两位小数)
- 答案:
- 0.73
10.(单选题) 点击率的预测是一个数据比例不平衡问题(比如训练集中样本呈阴性的比例为99%,阳性的比例是1%),如果我们用这种数据建立模型并使得训练集的准确率高达99%。下列说法正确的是
- 选项:
- 模型的准确率非常高,我们不需要进一步探索
不能确定模型是否好,应该进一步探讨精确率(precision),如果精确率高,说明模型好。
训练样本中阳性和阴性样本的比例不影响模型的性能。
不能确定模型是否好,应该进一步探讨召回率(recall),如果召回率低,说明模型不好,需要重新考虑。
11.(单选题) 下列关于支持向量机模型叙述错误的是?
- 选项:
对偶问题的解中非零的alpha对应的样本是支持向量。
将不是支持向量的样本去掉后,使用相同参数重新求得的超平面可能会不同。
当惩罚系数C趋于无穷大时,软间隔最大化问题会退化为硬间隔最大化问题。
惩罚系数C越小,间隔越大,模型的泛化性能越差。
12.(单选题) 支持向量机的损失函数是?
- 选项:
0-1损失函数
交叉熵损失函数
KL-散度
合页损失函数
13.(判断题) 线性不可分问题不能使用支持向量机模型求解。
- 答案:
- 对
- 错
14.(单选题) sklearn中用支持向量机分类的类名是SVC,该类默认使用的核是?
- 选项:
径向基核函数
多项式核函数
线性核函数
Sigmoid核函数
15.(单选题) 下列关于多类分类问题,叙述错误的是
- 选项:
多类分类问题可以转化为二分类问题
one-versus-rest方法可以将多类分类问题转化为二分类问题,但是存在训练样本不平衡的问题。
one-versus-one方法可以将多类分类问题转化为二分类问题,与one-versus-rest方法的计算量相当
one-versus-one方法通常使用投票原则预测分类结果。
16.(单选题) 下列算法属于生成式模型的是?
- 选项:
朴素贝叶斯
支持向量机
感知器算法
决策树
17.(单选题) 下列关于朴素贝叶斯叙述错误的是?
- 选项:
朴素贝叶斯模型的核心假设是“在类别已知的情况下,特征条件独立”。
朴素贝叶斯模型无法解决连续特征的分类问题。
朴素贝叶斯常用于文本分类。
拉普拉斯平滑可以有效解决零概率问题。
18.(单选题) sklearn中用于分类任务的K-近邻算法的类是KNeighborClassifier,下述那个参数是算法中的K?
- 选项:
n_neighbors
metric
p
weights
19.(判断题) K-近邻算法中的超参数K太大和太小对模型都有影响,不同的问题应该选择合适的K。
- 答案:
- 对
- 错
20.(判断题) KD-树中的K和K-近邻中的K都是表示满足特定条件的样本个数。
- 答案:
- 对
- 错
21.(判断题) KD-树和Ball-树都是为了提升K-近邻算法查找K个近邻样本的效率而设计的数据结构。与暴力搜索相比,它们在特征维度较小时有明显优势。
- 答案:
- 对
- 错
22.(多选题) 下列选项中关于K-近邻算法叙述正确的有
- 选项:
K-近邻算法没有明显的训练过程,计算量主要体现在测试阶段。
用K-近邻算法分类,预测速度与训练样本多少无关,只与测试样本的数量有关系。
K-近邻算法的运算速度与特征的维度无关。
在使用sklearn中的K-近邻算法时,如果选择了KD-树或Ball-树等数据结构,fit阶段主要用来构建相应的数据结构。
23.(多选题) 关于决策树,下列说法正确的有
- 选项:
构建决策树的关键是确定划分属性。
决策树越深模型的分类效果越好。
如果使用信息增益确定最优划分属性,应该选择信息增益大的属性。
如果使用基尼指数确定最优划分属性,应该选择基尼指数大的属性。
24.(单选题) 用决策树分类时,如果训练集规模很大,那么下面哪种方式比较合理?
- 选项:
降低特征的维度
- 增加学习率
3. 减少树的深度
挑选少量样本来训练
25.(多选题) 决策树剪枝的主要目的是?
- 选项:
降低过拟合风险
降低欠拟合风险
提高模型在训练集的准确率
提高模型的泛化能力
26.(多选题) 经典决策树有ID3,C4.5,CART等,下列选项中关于这些算法叙述正确的有
- 选项:
ID3没有考虑连续特征。
ID3使用信息增益确定划分属性。
C4.5使用增益率确定划分属性。
CART生成的树是二叉树,使用了基尼指数确定划分属性。
C4.5和CART都可以处理连续属性,都考虑了剪枝,都考虑了缺失值的处理。
构建相同深度的决策树,CART比C4.5的运算量大。
27.(多选题) 下列选项中,哪些算法使用串行策略,通过提升的方式,由若干弱分类器构建出强分类器?
- 选项:
AdaBoost
梯度提升树
决策树
Bagging
28.(多选题) 下列选项中,关于AdaBoost算法描述正确的有?
- 选项:
AdBoost算法通过调整样本的分布,使得当前的弱分类器会优先将分布值大的样本分对。
AdaBoost算法是向前分步算法的特例。
在sklearn中,用于分类的AdaBoost算法对应的类是AdaBoostClassifier,其中参数n_estimators是弱分类器个数。
AdaBoost算法很好地体现了好而不同的策略。
29.(多选题) 下列选项中,关于Bagging,叙述正确的有?
- 选项:
在测试阶段,Bagging在学习到的基学习器中通过投票规则确定最终分类结果。
Bagging通过Bootstrap重采样的方式实现样本扰动,进而使各基学习器具有差异性。
在sklearn中,用于分类的Bagging算法对应的类是BaggingClassifier,其中参数n_estimators是基学习器的个数。
Bootstrap重采样保证了所有训练样本都将被用来训练某个基学习器。
30.(单选题) bootstrap 数据的含义是:
- 选项:
有放回的从整体M中抽样m个特征
无放回的从整体M中抽样m个特征
有放回的从整体N中抽样n个样本
无放回的从整体N中抽样n个样本
31.(多选题) 下列选项中,关于随机森林叙述正确的有?
- 选项:
随机森林通过样本扰动和属性扰动使每棵决策树具有差异性。
大多数情况下,随机森林的性能优于Bagging。
随机森林很好地使用了分而治之的策略。
构建随机森林时,随机选取属性个数的参数k无关紧要,该参数的大小对模型的性能影响不大。
32.(段落说明) 现根据以下数据要构建是否放贷的决策树。在此背景下,完成后续题目(42-51)。结果保留两位小数。
| 编号 | 有工作 | 有房产 | 信贷情况 | 放贷 |
| 1 | 是 | 否 | 好 | 是 |
| 2 | 否 | 是 | 非常好 | 是 |
| 3 | 是 | 否 | 非常好 | 是 |
| 4 | 否 | 是 | 好 | 是 |
| 5 | 否 | 否 | 一般 | 否 |
| 6 | 否 | 否 | 好 | 否 |
| 7 | 是 | 否 | 一般 | 否 |
| 8 | 否 | 否 | 一般 | 否 |
- 答案:
- 暂无答案
33.(填空题) 样本集的信息熵为
- 答案:
1.00
34.(填空题) 属性“有工作”的取值为“是”的样本集的熵为
- 答案:
- 0.92
35.(填空题) 属性“有工作”的取值为“否”的样本集的熵为
- 答案:
- 0.97
36.(填空题) 属性“有工作”的条件熵为
- 答案:
- 0.95
37.(填空题) 属性“有工作”的信息增益为
- 答案:
- 0.05
38.(填空题) 属性“有房产”的条件熵为
- 答案:
- 0.69
39.(填空题) 属性“有房产”的信息增益为
- 答案:
- 0.31
40.(填空题) 属性“信贷情况”的条件熵为
- 答案:
- 0.34
41.(填空题) 属性“信贷情况”的信息增益为
- 答案:
- 0.66
42.(填空题) 根节点的划分属性是
- 答案:
- 信贷情况
43.(段落说明) 现根据以下数据,使用朴素贝叶斯预测新样本(是,是,好)的放贷情况。请完成下述题目(53-61),结果保留两位小数。
| 编号 | 有工作 | 有房产 | 信贷情况 | 放贷 |
| 1 | 是 | 否 | 好 | 是 |
| 2 | 否 | 是 | 非常好 | 是 |
| 3 | 是 | 否 | 非常好 | 是 |
| 4 | 否 | 是 | 好 | 是 |
| 5 | 否 | 否 | 一般 | 否 |
| 6 | 否 | 否 | 好 | 否 |
| 7 | 是 | 否 | 一般 | 否 |
| 8 | 否 | 否 | 一般 | 否 |
- 答案:
- 暂无答案
44.(填空题) P(Y=是)=?
- 答案:
0.50
45.(填空题) P(有工作=是|Y=是)=?
- 答案:
0.50
46.(填空题) P(有房产=是|Y=是)=?
- 答案:
0.50
47.(填空题) P(信贷情况=好|Y=是)=?
- 答案:
0.50
48.(填空题) P(Y=否)=?
- 答案:
0.50
49.(填空题) P(有工作=是|Y=否)=?
- 答案:
0.25
50.(填空题) P(有房产=是|Y=否)=?
- 答案:
0.00
51.(填空题) P(信贷情况=好|Y=否)=?
- 答案:
0.25
52.(单选题) 根据上述计算结果,样本(是,是,好)是否放贷?
- 选项:
是
否
无法确定
53.(段落说明) 现有如下样本:
| x1 | x2 | y |
| 0 | 1 | +1 |
| 0 | 2 | +1 |
| 1 | 0 | -1 |
| 2 | 0 | -1 |
使用SVM得到分类超平面:w1x1+w2x2+b=0.
请完成下列问题(63-66)。结果保留两位小数。
- 答案:
- 暂无答案
54.(填空题) w1=?
- 答案:
-1.00
55.(填空题) w2=?
- 答案:
1.00
56.(填空题) b=?
- 答案:
0.00
57.(单选题) 利用上述模型进行分类,样本(2,1)的分类结果是?
- 选项:
+1
-1
无法确定。
更新日志
f0c76-于
