智能训练模块 · 单选题答案速览

ML 基础 & 模型概念（106-117）

106

监督学习是（　）。

A.通过已知数据进行模型训练，以预测新数据的类别或值

B.预测新数据的特征

C.预测新数据的分布

D.预测新数据的关联性

答案 A

监督学习的核心：用标签数据训练 → 预测未知数据的类别（分类）或值（回归）。

107

CNN 中（　）层用于提取图像特征。

A.卷积层

B.池化层

C.全连接层

D.激活层

答案 A

卷积层通过卷积核扫描图像提取局部特征（边缘、纹理等）。池化层负责降维，全连接层负责分类。

108

特征提取的主要方法之一是（　）。

A.决策树

B.贝叶斯分类器

C.K-均值聚类

D.主成分分析

答案 D

PCA（主成分分析）是经典的特征提取/降维方法。A/B 是分类算法，C 是聚类算法。

109

（　）策略可以帮助模型更快地收敛到最优解。

A.学习率调整

B.动量减速

C.梯度裁剪

D.早停法

答案 A

学习率（learning rate）直接决定每步更新的幅度，调整它是最直接影响收敛速度的手段。

110

过滤法通常基于（　）准则来选择特征。

A.信息增益

B.相关性系数

C.方差阈值

D.互信息

答案 B

过滤法最常用的就是计算特征与目标变量之间的相关性系数。ACD 也是过滤法的指标，但相关性系数是最基础的准则。

111

（　）是一种常见的图像变换技术，可以改变图像的大小和形状。

A.裁剪

B.缩放

C.旋转

D.平移

答案 B

缩放（scaling）直接改变图像的大小。裁剪是截取局部，旋转改变角度，平移改变位置。

112

数据分片中，（　）用来决定如何将数据分割到各个分片。

A.主键

B.外键

C.分区键

D.唯一键

答案 C

分区键（partition key）就是专门用来决定数据分配到哪个分片的字段。

113

自动标注方法是指利用（　）技术对数据进行自动标注。

A.计算机程序

B.机器学习算法

C.数据挖掘技术

D.自动化

答案 B

自动标注的核心是利用已有的机器学习模型来预测标签。

114

召回率 Recall 的计算方法是（　）。

A.真正例数 / (真正例数 + 假负例数)

B.假正例数 / (真正例数 + 假负例数)

C.正确预测的样本数 / 总样本数

D.错误预测的样本数 / 总样本数

答案 A

Recall = TP / (TP + FN)，即"实际为正的样本中，被正确识别出来的比例"。C 是 Accuracy。

115

评估分类模型的准确性通常使用（　）指标。

A.均方误差

B.准确率

C.均方根误差

D.对数损失

答案 B

分类模型 → 准确率(Accuracy)。MSE/RMSE 用于回归问题。

116

快速原型设计和实验，（　）机器学习库更适合。

A.TensorFlow

B.PyTorch

C.Scikit-learn

D.Keras

答案 D

Keras 的设计理念就是"以最少的延迟从想法到结果"，专为快速原型设计而生。

117

NumPy 库的优势在于其高效的（　）。

A.数组计算

B.字符串处理

C.图形绘制

D.数据库连接

答案 A

NumPy = Numerical Python，核心是 ndarray 多维数组的高效计算。

数据收集 & 标注（118-120, 139-142, 147-149, 154）

118

（　）方法适用于收集结构化数据。

A.问卷调查

B.访谈

C.观察法

D.实验法

答案 A

问卷有固定选项和格式，天然产出结构化数据。访谈/观察产出的是非结构化数据。

119

自动化标注中，利用（　）机制来不断优化标注能力。

A.随机猜测

B.专家系统

C.机器学习

D.手动校验

答案 C

自动标注系统通过机器学习模型不断从反馈中学习，优化自身标注能力。

120

（　）工具库主要用于数据的加载和预处理。

A.NumPy

B.Pandas

C.Matplotlib

D.Scikit-learn

答案 B

Pandas 提供 read_csv/read_excel 等数据加载和清洗预处理功能，是数据加载预处理首选。

139

选择数据标注工具时，应该权衡（　）。

A.准确性、易用性、成本

B.准确性、易用性、速度

C.准确性、成本、速度

D.易用性、成本、速度

答案 A

选择标注工具的三大要素：标注是否准确、好不好用、贵不贵。

140

数据标注技术的目的是（　）。

A.提高数据质量

B.降低数据成本

C.优化数据结构

D.简化数据处理流程

答案 A

标注 = 给数据打标签，让模型能学习。核心目的就是提高训练数据的质量。

141

确保泛化能力，数据集通常划分为（　）。

A.40% / 30% / 30%

B.80% / 10% / 10%

C.40% / 40% / 20%

D.30% / 50% / 20%

答案 B

80%训练 / 10%验证 / 10%测试是最经典的划分比例。你实操用的 test_size=0.2 就是这个。

142

自动化标注能够显著降低（　）成本。

A.数据收集

B.数据存储

C.数据标注

D.数据传输

答案 C

自动标注 → 减少人工标注工作量 → 降低标注成本。题干已经告诉你了。

147

（　）是一种常用的图像读取方法，可以从文件中提取像素数据。

A.图像编码

B.图像解码

C.图像压缩

D.图像解压缩

答案 B

图像文件是编码后的数据，读取时需要解码才能提取像素。你实操用的 Image.open() 就是解码过程。

148

文本类数据标注过程步骤中，（　）是不需要的。

A.对数据进行分词

B.构建词典

C.进行情感分析

D.标记实体

答案 C

情感分析是具体任务，不是所有文本标注都需要。分词、构建词典、标记实体是通用的文本标注步骤。

149

视觉类数据制定规范的目的是（　）。

A.增加数据集的多样性

B.保证训练模型时的数据处理一致性和数据质量

C.减少数据存储的空间需求

D.加快数据处理的速度

答案 B

制定规范的目的是统一标准 → 一致性 → 数据质量。

154

对图像中多个对象进行精确边界框绘制时，通常使用（　）标注工具。

A.多边形标注工具

B.点云标注工具

C.目标检测标注工具

D.关键点标注工具

答案 C

边界框（bounding box）= 目标检测标注的标配。多边形用于轮廓，点云用于3D，关键点用于姿态估计。

模型训练 & 评估 & 部署（121-127, 150-165）

121

深度学习中防止过拟合的方法是（　）。

A.仅使用一层隐藏层

B.增加模型的复杂度

C.应用早停技术

D.减少训练数据量

答案 C

早停（Early Stopping）= 验证集loss不再下降时停止训练。BD 反而会加重问题。

122

交叉验证的主要目的是（　）。

A.提高模型的训练速度

B.减少模型的复杂性

C.增加模型的预测准确性

D.评估模型的泛化能力

答案 D

交叉验证 = 多次划分数据集来评估模型，核心目的是评估泛化能力，不是直接提高准确性。

123

模型训练自动化工具中，（　）是通过自动化迭代优化模型性能。

A.模型评估

B.模型训练

C.特征工程

D.数据清洗

答案 B

迭代优化模型 = 模型训练本身在做的事（不断调整参数最小化损失）。

124

（　）主要用于实时收集和分析日志数据。

A.Apache Hadoop

B.ELK Stack

C.TensorFlow

D.PyTorch

答案 B

ELK = Elasticsearch + Logstash + Kibana，日志实时收集分析的标配。Hadoop 是离线批处理。

125

GAN 中的生成器通常使用（　）类型的神经网络。

A.卷积神经网络

B.循环神经网络

C.自编码器

D.生成对抗网络

答案 A

GAN 中生成器用反卷积（转置卷积）CNN 生成图像，判别器也用 CNN。DCGAN 就是全卷积的 GAN。

126

使用 Python 或 R 的主要原因是（　）。

A.提供了丰富的库和框架，专门用于数据处理和机器学习

B.不需要编程知识

C.唯一能做数据处理的语言

D.处理速度最快

答案 A

Python 有 pandas/sklearn/numpy/tensorflow 等生态，R 有 ggplot2/caret 等。核心优势是库丰富。

127

（　）不是模型部署工具的使用方法。

A.选择合适的部署环境

B.将模型文件上传到部署环境中

C.编写测试代码来验证模型的准确性

D.对模型进行微调以提高性能

答案 D

微调模型是训练阶段的事，不是部署阶段的事。部署是把已训练好的模型放到生产环境。

150

（　）不属于模型选择过程。

A.了解不同模型的优缺点

B.根据任务需求选择合适的模型

C.对模型进行调参优化

D.对模型进行评估和比较

答案 C

调参是选完模型之后的优化步骤，不属于"选择"过程本身。

151

提高模型准确性的划分方法是（　）。

A.随机划分

B.按比例划分

C.分层划分

D.交叉验证

答案 C

分层划分（stratified split）确保各类别比例在训练/测试集一致，避免数据不平衡导致的偏差。

155

模型训练的目标是（　）。

A.最大化模型准确率

B.最小化模型损失

C.最大化模型泛化能力

D.最小化模型复杂度

答案 B

训练 = 不断调整参数使损失函数（loss function）最小化。这是优化问题的数学定义。

156

线性规划用于求解（　）问题。

A.线性

B.非线性

C.凸

D.离散

答案 A

线性规划 = 线性目标函数 + 线性约束。名字已经告诉你了。

157

高效训练大规模数据集，（　）软件组件最关键。

A.数据库管理系统

B.版本控制系统

C.分布式训练框架

D.集成开发环境

答案 C

大规模数据 → 必须分布式 → 分布式训练框架（如 TensorFlow/PyTorch 的分布式模块）。

158

大规模分布式训练，（　）框架提供较成熟的支持。

A.TensorFlow

B.PyTorch

C.MXNet

D.Chainer

答案 A

TensorFlow 的分布式训练（TF Distributed）是最早成熟的工业级分布式训练方案。

159

算法验证的形式化方法包括模型检验和（　）。

A.形式化描述

B.逻辑推理

C.代码审查

D.测试用例

答案 A

形式化方法 = 形式化描述（formal specification）+ 模型检验（model checking）。

160

超参数调优中通常使用（　）来评估模型性能。

A.交叉验证

B.网格搜索

C.随机搜索

D.贝叶斯优化

答案 A

网格搜索/随机搜索/贝叶斯优化是搜索策略，交叉验证才是"评估性能"的方法。

161

（　）不是模型训练动态监控工具的典型功能。

A.提供训练损失和验证损失的实时图表

B.检测并报告过拟合或欠拟合现象

C.自动调整模型参数以优化性能

D.允许用户远程访问和操作训练环境

答案 C

监控工具只"看"不"动"——自动调整参数是自动调参工具的事，监控工具只负责展示和报警。

162

解决模型性能不佳问题，推荐（　）。

A.立即增加模型参数数量

B.检查训练数据质量，确保没有错误或偏差

C.忽略验证集，只关注训练集准确率

D.停止训练

答案 B

数据质量是一切的根基。"Garbage in, garbage out" —— 先查数据再调模型。

163

（　）不是常用的 ML 评价指标。

A.准确率 Accuracy

B.精确率 Precision

C.召回率 Recall

D.运行时间 Run Time

答案 D

ABC 是标准ML评价指标。运行时间不是模型"预测质量"的评价指标。

164

关于模型部署描述正确的是（　）。

A.只需要考虑技术因素

B.是一次性完成的过程

C.需要确保模型的安全性和隐私性

D.不需要考虑用户体验

答案 C

部署不是只管技术（A×），不是一次性（B×），必须考虑安全和隐私。D 明显错误。

165

自动化模型更新和版本管理通常使用（　）工具。

A.Git

B.SVN

C.Jenkins

D.Spinnaker

答案 C

Jenkins 是最主流的 CI/CD 工具，自动化构建/测试/部署流水线。

数据预处理（128-138, 143-146, 152-153）

128

数据探索分析的结果通常用于支持（　）决策。

A.业务策略制定

B.产品研发

C.市场推广

D.客户关系管理

答案 A

数据探索分析（EDA）的最终目的是帮助制定业务策略。

129

（　）可以帮助我们更好地理解数据的结构和特点。

A.数据可视化

B.统计分析

C.数据挖掘

D.机器学习

答案 A

"理解数据的结构和特点" → 一图胜千言，数据可视化最直观。

130

缺失数据处理中，（　）适用于存在大量相似观测值的情况。

A.删除法

B.填充法

C.插值法

D.替换法

答案 B

大量相似观测值 → 可以用均值/中位数等统计量填充缺失值。

131

分类数据的缺失值可以用（　）处理。

A.删除法

B.均值填充

C.中位数填充

D.众数填充

答案 D

分类数据 = 类别型（如"红/蓝/绿"）→ 用众数（出现最多的值）填充。均值/中位数只适用于数值型。

132

箱线图法在异常值检测中的作用是（　）。

A.确定数据的分布范围

B.识别数据中的异常值

C.评估数据的离散程度

D.判断数据的集中趋势

答案 B

箱线图中超出上下须（1.5×IQR）的点就是异常值。这题在问"异常值检测中的作用"，直接选 B。

133

Z-score 方法是一种基于（　）的异常值检测方法。

A.最大值

B.中位数

C.众数

D.标准差

答案 D

Z-score = (x - μ) / σ，σ 就是标准差。|Z| > 3 通常认为是异常值。

134

消除信号中平稳随机噪声主要用（　）。

A.滤波法

B.变换法

C.统计法

D.模型法

答案 A

滤波（如均值滤波、中值滤波）是消除噪声的经典方法。

135

位图法在数据去重中通过（　）。

A.比较每个数据与已有数据的相似度

B.记录每个数据是否出现过

C.对数据进行排序

D.对数据进行压缩

答案 B

位图（bitmap）：每个bit位标记某个值是否出现过，1=出现过，0=没出现过。

136

数据归一化处理的定义是（　）。

A.将所有值转换为相同的格式

B.将所有值缩放到 0 到 1 之间

C.将所有值增加到最大可能值

D.将所有值减少到最小可能值

答案 B

归一化（Normalization）= Min-Max Scaling，公式：(x - min) / (max - min)，结果在 [0,1]。你实操用的 StandardScaler 是标准化（Z-score），概念不同但同属数据缩放。

137

数据白化处理的主要目的是（　）。

A.提高数据的准确性

B.减少数据的冗余

C.增强数据的可读性

D.保护数据的隐私

答案 B

白化 = 让数据各维度方差为1且互不相关 → 消除特征间冗余。

139

选择数据标注工具时，应该权衡（　）。

A.准确性、易用性、成本

B.准确性、易用性、速度

C.准确性、成本、速度

D.易用性、成本、速度

答案 A

选择标注工具的三大要素：标注是否准确、好不好用、贵不贵。

140

数据标注技术的目的是（　）。

A.提高数据质量

B.降低数据成本

C.优化数据结构

D.简化数据处理流程

答案 A

标注 = 给数据打标签，让模型能学习。核心目的就是提高训练数据的质量。

141

确保泛化能力，数据集通常划分为（　）。

A.40% / 30% / 30%

B.80% / 10% / 10%

C.40% / 40% / 20%

D.30% / 50% / 20%

答案 B

80%训练 / 10%验证 / 10%测试是最经典的划分比例。你实操用的 test_size=0.2 就是这个。

142

自动化标注能够显著降低（　）成本。

A.数据收集

B.数据存储

C.数据标注

D.数据传输

答案 C

自动标注 → 减少人工标注工作量 → 降低标注成本。题干已经告诉你了。

147

（　）是一种常用的图像读取方法，可以从文件中提取像素数据。

A.图像编码

B.图像解码

C.图像压缩

D.图像解压缩

答案 B

图像文件是编码后的数据，读取时需要解码才能提取像素。你实操用的 Image.open() 就是解码过程。

148

文本类数据标注过程步骤中，（　）是不需要的。

A.对数据进行分词

B.构建词典

C.进行情感分析

D.标记实体

答案 C

情感分析是具体任务，不是所有文本标注都需要。分词、构建词典、标记实体是通用的文本标注步骤。

149

视觉类数据制定规范的目的是（　）。

A.增加数据集的多样性

B.保证训练模型时的数据处理一致性和数据质量

C.减少数据存储的空间需求

D.加快数据处理的速度

答案 B

制定规范的目的是统一标准 → 一致性 → 数据质量。

154

对图像中多个对象进行精确边界框绘制时，通常使用（　）标注工具。

A.多边形标注工具

B.点云标注工具

C.目标检测标注工具

D.关键点标注工具

答案 C

边界框（bounding box）= 目标检测标注的标配。多边形用于轮廓，点云用于3D，关键点用于姿态估计。

模型训练 & 评估 & 部署（121-127, 150-165）

121

深度学习中防止过拟合的方法是（　）。

A.仅使用一层隐藏层

B.增加模型的复杂度

C.应用早停技术

D.减少训练数据量

答案 C

早停（Early Stopping）= 验证集loss不再下降时停止训练。BD 反而会加重问题。

122

交叉验证的主要目的是（　）。

A.提高模型的训练速度

B.减少模型的复杂性

C.增加模型的预测准确性

D.评估模型的泛化能力

答案 D

交叉验证 = 多次划分数据集来评估模型，核心目的是评估泛化能力，不是直接提高准确性。

123

模型训练自动化工具中，（　）是通过自动化迭代优化模型性能。

A.模型评估

B.模型训练

C.特征工程

D.数据清洗

答案 B

迭代优化模型 = 模型训练本身在做的事（不断调整参数最小化损失）。

124

（　）主要用于实时收集和分析日志数据。

A.Apache Hadoop

B.ELK Stack

C.TensorFlow

D.PyTorch

答案 B

ELK = Elasticsearch + Logstash + Kibana，日志实时收集分析的标配。Hadoop 是离线批处理。

125

GAN 中的生成器通常使用（　）类型的神经网络。

A.卷积神经网络

B.循环神经网络

C.自编码器

D.生成对抗网络

答案 A

GAN 中生成器用反卷积（转置卷积）CNN 生成图像，判别器也用 CNN。DCGAN 就是全卷积的 GAN。

126

使用 Python 或 R 的主要原因是（　）。

A.提供了丰富的库和框架，专门用于数据处理和机器学习

B.不需要编程知识

C.唯一能做数据处理的语言

D.处理速度最快

答案 A

Python 有 pandas/sklearn/numpy/tensorflow 等生态，R 有 ggplot2/caret 等。核心优势是库丰富。

127

（　）不是模型部署工具的使用方法。

A.选择合适的部署环境

B.将模型文件上传到部署环境中

C.编写测试代码来验证模型的准确性

D.对模型进行微调以提高性能

答案 D

微调模型是训练阶段的事，不是部署阶段的事。部署是把已训练好的模型放到生产环境。

150

（　）不属于模型选择过程。

A.了解不同模型的优缺点

B.根据任务需求选择合适的模型

C.对模型进行调参优化

D.对模型进行评估和比较

答案 C

调参是选完模型之后的优化步骤，不属于"选择"过程本身。

151

提高模型准确性的划分方法是（　）。

A.随机划分

B.按比例划分

C.分层划分

D.交叉验证

答案 C

分层划分（stratified split）确保各类别比例在训练/测试集一致，避免数据不平衡导致的偏差。

155

模型训练的目标是（　）。

A.最大化模型准确率

B.最小化模型损失

C.最大化模型泛化能力

D.最小化模型复杂度

答案 B

训练 = 不断调整参数使损失函数（loss function）最小化。这是优化问题的数学定义。

156

线性规划用于求解（　）问题。

A.线性

B.非线性

C.凸

D.离散

答案 A

线性规划 = 线性目标函数 + 线性约束。名字已经告诉你了。

157

高效训练大规模数据集，（　）软件组件最关键。

A.数据库管理系统

B.版本控制系统

C.分布式训练框架

D.集成开发环境

答案 C

大规模数据 → 必须分布式 → 分布式训练框架（如 TensorFlow/PyTorch 的分布式模块）。

158

大规模分布式训练，（　）框架提供较成熟的支持。

A.TensorFlow

B.PyTorch

C.MXNet

D.Chainer

答案 A

TensorFlow 的分布式训练（TF Distributed）是最早成熟的工业级分布式训练方案。

159

算法验证的形式化方法包括模型检验和（　）。

A.形式化描述

B.逻辑推理

C.代码审查

D.测试用例

答案 A

形式化方法 = 形式化描述（formal specification）+ 模型检验（model checking）。

160

超参数调优中通常使用（　）来评估模型性能。

A.交叉验证

B.网格搜索

C.随机搜索

D.贝叶斯优化

答案 A

网格搜索/随机搜索/贝叶斯优化是搜索策略，交叉验证才是"评估性能"的方法。

161

（　）不是模型训练动态监控工具的典型功能。

A.提供训练损失和验证损失的实时图表

B.检测并报告过拟合或欠拟合现象

C.自动调整模型参数以优化性能

D.允许用户远程访问和操作训练环境

答案 C

监控工具只"看"不"动"——自动调整参数是自动调参工具的事，监控工具只负责展示和报警。

162

解决模型性能不佳问题，推荐（　）。

A.立即增加模型参数数量

B.检查训练数据质量，确保没有错误或偏差

C.忽略验证集，只关注训练集准确率

D.停止训练

答案 B

数据质量是一切的根基。"Garbage in, garbage out" —— 先查数据再调模型。

163

（　）不是常用的 ML 评价指标。

A.准确率 Accuracy

B.精确率 Precision

C.召回率 Recall

D.运行时间 Run Time

答案 D

ABC 是标准ML评价指标。运行时间不是模型"预测质量"的评价指标。

164

关于模型部署描述正确的是（　）。

A.只需要考虑技术因素

B.是一次性完成的过程

C.需要确保模型的安全性和隐私性

D.不需要考虑用户体验

答案 C

部署不是只管技术（A×），不是一次性（B×），必须考虑安全和隐私。D 明显错误。

165

自动化模型更新和版本管理通常使用（　）工具。

A.Git

B.SVN

C.Jenkins

D.Spinnaker

答案 C

Jenkins 是最主流的 CI/CD 工具，自动化构建/测试/部署流水线。

数据预处理（128-138, 143-146, 152-153）

128

数据探索分析的结果通常用于支持（　）决策。

A.业务策略制定

B.产品研发

C.市场推广

D.客户关系管理

答案 A

数据探索分析（EDA）的最终目的是帮助制定业务策略。

129

（　）可以帮助我们更好地理解数据的结构和特点。

A.数据可视化

B.统计分析

C.数据挖掘

D.机器学习

答案 A

"理解数据的结构和特点" → 一图胜千言，数据可视化最直观。

130

缺失数据处理中，（　）适用于存在大量相似观测值的情况。

A.删除法

B.填充法

C.插值法

D.替换法

答案 B

大量相似观测值 → 可以用均值/中位数等统计量填充缺失值。

131

分类数据的缺失值可以用（　）处理。

A.删除法

B.均值填充

C.中位数填充

D.众数填充

答案 D

分类数据 = 类别型（如"红/蓝/绿"）→ 用众数（出现最多的值）填充。均值/中位数只适用于数值型。

132

箱线图法在异常值检测中的作用是（　）。

A.确定数据的分布范围

B.识别数据中的异常值

C.评估数据的离散程度

D.判断数据的集中趋势

答案 B

箱线图中超出上下须（1.5×IQR）的点就是异常值。这题在问"异常值检测中的作用"，直接选 B。

133

Z-score 方法是一种基于（　）的异常值检测方法。

A.最大值

B.中位数

C.众数

D.标准差

答案 D

Z-score = (x - μ) / σ，σ 就是标准差。|Z| > 3 通常认为是异常值。

134

消除信号中平稳随机噪声主要用（　）。

A.滤波法

B.变换法

C.统计法

D.模型法

答案 A

滤波（如均值滤波、中值滤波）是消除噪声的经典方法。

135

位图法在数据去重中通过（　）。

A.比较每个数据与已有数据的相似度

B.记录每个数据是否出现过

C.对数据进行排序

D.对数据进行压缩

答案 B

位图（bitmap）：每个bit位标记某个值是否出现过，1=出现过，0=没出现过。

136

数据归一化处理的定义是（　）。

A.将所有值转换为相同的格式

B.将所有值缩放到 0 到 1 之间

C.将所有值增加到最大可能值

D.将所有值减少到最小可能值

答案 B

归一化（Normalization）= Min-Max Scaling，公式：(x - min) / (max - min)，结果在 [0,1]。你实操用的 StandardScaler 是标准化（Z-score），概念不同但同属数据缩放。

137

数据白化处理的主要目的是（　）。

A.提高数据的准确性

B.减少数据的冗余

C.增强数据的可读性

D.保护数据的隐私

答案 B

白化 = 让数据各维度方差为1且互不相关 → 消除特征间冗余。

138

特征工程通常需要对数据进行（　）。

A.数据清洗

B.数据集成

C.数据变换

D.数据划分

答案 C

特征工程的核心是数据变换（标准化、编码、构造新特征等），让数据更适合模型学习。

143

分布式数据处理的优势主要得益于（　）。

A.负载均衡技术

B.数据压缩技术

C.数据缓存技术

D.数据加密技术

答案 A

分布式 = 把任务分给多台机器 → 负载均衡让各机器均衡地处理任务。

144

确保数据可追溯性，数据管理流程包括数据的（　）、存储、传输和销毁。

A.创建

B.收集

C.分析

D.应用

答案 B

数据生命周期：收集 → 存储 → 传输 → 销毁。收集是第一步。

145

数据可追溯性的主要目的是（　）。

A.提高数据处理速度

B.减少数据存储成本

C.确保数据来源和修改历史的透明度

D.增加数据的复杂性

答案 C

可追溯 = 能追踪"数据从哪来、经过了什么处理"。核心就是透明度。

147

（　）是一种常用的图像读取方法，可以从文件中提取像素数据。

A.图像编码

B.图像解码

C.图像压缩

D.图像解压缩

答案 B

图像文件是编码后的数据，读取时需要解码才能提取像素。你实操用的 Image.open() 就是解码过程。

148

文本类数据标注过程步骤中，（　）是不需要的。

A.对数据进行分词

B.构建词典

C.进行情感分析

D.标记实体

答案 C

情感分析是具体任务，不是所有文本标注都需要。分词、构建词典、标记实体是通用的文本标注步骤。

149

视觉类数据制定规范的目的是（　）。

A.增加数据集的多样性

B.保证训练模型时的数据处理一致性和数据质量

C.减少数据存储的空间需求

D.加快数据处理的速度

答案 B

制定规范的目的是统一标准 → 一致性 → 数据质量。

154

对图像中多个对象进行精确边界框绘制时，通常使用（　）标注工具。

A.多边形标注工具

B.点云标注工具

C.目标检测标注工具

D.关键点标注工具

答案 C

边界框（bounding box）= 目标检测标注的标配。多边形用于轮廓，点云用于3D，关键点用于姿态估计。

模型训练 & 评估 & 部署（121-127, 150-165）

121

深度学习中防止过拟合的方法是（　）。

A.仅使用一层隐藏层

B.增加模型的复杂度

C.应用早停技术

D.减少训练数据量

答案 C

早停（Early Stopping）= 验证集loss不再下降时停止训练。BD 反而会加重问题。

122

交叉验证的主要目的是（　）。

A.提高模型的训练速度

B.减少模型的复杂性

C.增加模型的预测准确性

D.评估模型的泛化能力

答案 D

交叉验证 = 多次划分数据集来评估模型，核心目的是评估泛化能力，不是直接提高准确性。

123

模型训练自动化工具中，（　）是通过自动化迭代优化模型性能。

A.模型评估

B.模型训练

C.特征工程

D.数据清洗

答案 B

迭代优化模型 = 模型训练本身在做的事（不断调整参数最小化损失）。

124

（　）主要用于实时收集和分析日志数据。

A.Apache Hadoop

B.ELK Stack

C.TensorFlow

D.PyTorch

答案 B

ELK = Elasticsearch + Logstash + Kibana，日志实时收集分析的标配。Hadoop 是离线批处理。

125

GAN 中的生成器通常使用（　）类型的神经网络。

A.卷积神经网络

B.循环神经网络

C.自编码器

D.生成对抗网络

答案 A

GAN 中生成器用反卷积（转置卷积）CNN 生成图像，判别器也用 CNN。DCGAN 就是全卷积的 GAN。

126

使用 Python 或 R 的主要原因是（　）。

A.提供了丰富的库和框架，专门用于数据处理和机器学习

B.不需要编程知识

C.唯一能做数据处理的语言

D.处理速度最快

答案 A

Python 有 pandas/sklearn/numpy/tensorflow 等生态，R 有 ggplot2/caret 等。核心优势是库丰富。

127

（　）不是模型部署工具的使用方法。

A.选择合适的部署环境

B.将模型文件上传到部署环境中

C.编写测试代码来验证模型的准确性

D.对模型进行微调以提高性能

答案 D

微调模型是训练阶段的事，不是部署阶段的事。部署是把已训练好的模型放到生产环境。

150

（　）不属于模型选择过程。

A.了解不同模型的优缺点

B.根据任务需求选择合适的模型

C.对模型进行调参优化

D.对模型进行评估和比较

答案 C

调参是选完模型之后的优化步骤，不属于"选择"过程本身。

151

提高模型准确性的划分方法是（　）。

A.随机划分

B.按比例划分

C.分层划分

D.交叉验证

答案 C

分层划分（stratified split）确保各类别比例在训练/测试集一致，避免数据不平衡导致的偏差。

155

模型训练的目标是（　）。

A.最大化模型准确率

B.最小化模型损失

C.最大化模型泛化能力

D.最小化模型复杂度

答案 B

训练 = 不断调整参数使损失函数（loss function）最小化。这是优化问题的数学定义。

156

线性规划用于求解（　）问题。

A.线性

B.非线性

C.凸

D.离散

答案 A

线性规划 = 线性目标函数 + 线性约束。名字已经告诉你了。

157

高效训练大规模数据集，（　）软件组件最关键。

A.数据库管理系统

B.版本控制系统

C.分布式训练框架

D.集成开发环境

答案 C

大规模数据 → 必须分布式 → 分布式训练框架（如 TensorFlow/PyTorch 的分布式模块）。

158

大规模分布式训练，（　）框架提供较成熟的支持。

A.TensorFlow

B.PyTorch

C.MXNet

D.Chainer

答案 A

TensorFlow 的分布式训练（TF Distributed）是最早成熟的工业级分布式训练方案。

159

算法验证的形式化方法包括模型检验和（　）。

A.形式化描述

B.逻辑推理

C.代码审查

D.测试用例

答案 A

形式化方法 = 形式化描述（formal specification）+ 模型检验（model checking）。

160

超参数调优中通常使用（　）来评估模型性能。

A.交叉验证

B.网格搜索

C.随机搜索

D.贝叶斯优化

答案 A

网格搜索/随机搜索/贝叶斯优化是搜索策略，交叉验证才是"评估性能"的方法。

161

（　）不是模型训练动态监控工具的典型功能。

A.提供训练损失和验证损失的实时图表

B.检测并报告过拟合或欠拟合现象

C.自动调整模型参数以优化性能

D.允许用户远程访问和操作训练环境

答案 C

监控工具只"看"不"动"——自动调整参数是自动调参工具的事，监控工具只负责展示和报警。

162

解决模型性能不佳问题，推荐（　）。

A.立即增加模型参数数量

B.检查训练数据质量，确保没有错误或偏差

C.忽略验证集，只关注训练集准确率

D.停止训练

答案 B

数据质量是一切的根基。"Garbage in, garbage out" —— 先查数据再调模型。

163

（　）不是常用的 ML 评价指标。

A.准确率 Accuracy

B.精确率 Precision

C.召回率 Recall

D.运行时间 Run Time

答案 D

ABC 是标准ML评价指标。运行时间不是模型"预测质量"的评价指标。

164

关于模型部署描述正确的是（　）。

A.只需要考虑技术因素

B.是一次性完成的过程

C.需要确保模型的安全性和隐私性

D.不需要考虑用户体验

答案 C

部署不是只管技术（A×），不是一次性（B×），必须考虑安全和隐私。D 明显错误。

165

自动化模型更新和版本管理通常使用（　）工具。

A.Git

B.SVN

C.Jenkins

D.Spinnaker

答案 C

Jenkins 是最主流的 CI/CD 工具，自动化构建/测试/部署流水线。

数据预处理（128-138, 143-146, 152-153）

128

数据探索分析的结果通常用于支持（　）决策。

A.业务策略制定

B.产品研发

C.市场推广

D.客户关系管理

答案 A

数据探索分析（EDA）的最终目的是帮助制定业务策略。

129

（　）可以帮助我们更好地理解数据的结构和特点。

A.数据可视化

B.统计分析

C.数据挖掘

D.机器学习

答案 A

"理解数据的结构和特点" → 一图胜千言，数据可视化最直观。

130

缺失数据处理中，（　）适用于存在大量相似观测值的情况。

A.删除法

B.填充法

C.插值法

D.替换法

答案 B

大量相似观测值 → 可以用均值/中位数等统计量填充缺失值。

131

分类数据的缺失值可以用（　）处理。

A.删除法

B.均值填充

C.中位数填充

D.众数填充

答案 D

分类数据 = 类别型（如"红/蓝/绿"）→ 用众数（出现最多的值）填充。均值/中位数只适用于数值型。

132

箱线图法在异常值检测中的作用是（　）。

A.确定数据的分布范围

B.识别数据中的异常值

C.评估数据的离散程度

D.判断数据的集中趋势

答案 B

箱线图中超出上下须（1.5×IQR）的点就是异常值。这题在问"异常值检测中的作用"，直接选 B。

133

Z-score 方法是一种基于（　）的异常值检测方法。

A.最大值

B.中位数

C.众数

D.标准差

答案 D

Z-score = (x - μ) / σ，σ 就是标准差。|Z| > 3 通常认为是异常值。

134

消除信号中平稳随机噪声主要用（　）。

A.滤波法

B.变换法

C.统计法

D.模型法

答案 A

滤波（如均值滤波、中值滤波）是消除噪声的经典方法。

135

位图法在数据去重中通过（　）。

A.比较每个数据与已有数据的相似度

B.记录每个数据是否出现过

C.对数据进行排序

D.对数据进行压缩

答案 B

位图（bitmap）：每个bit位标记某个值是否出现过，1=出现过，0=没出现过。

136

数据归一化处理的定义是（　）。

A.将所有值转换为相同的格式

B.将所有值缩放到 0 到 1 之间

C.将所有值增加到最大可能值

D.将所有值减少到最小可能值

答案 B

归一化（Normalization）= Min-Max Scaling，公式：(x - min) / (max - min)，结果在 [0,1]。你实操用的 StandardScaler 是标准化（Z-score），概念不同但同属数据缩放。

137

数据白化处理的主要目的是（　）。

A.提高数据的准确性

B.减少数据的冗余

C.增强数据的可读性

D.保护数据的隐私

答案 B

白化 = 让数据各维度方差为1且互不相关 → 消除特征间冗余。

139

选择数据标注工具时，应该权衡（　）。

A.准确性、易用性、成本

B.准确性、易用性、速度

C.准确性、成本、速度

D.易用性、成本、速度

答案 A

选择标注工具的三大要素：标注是否准确、好不好用、贵不贵。

140

数据标注技术的目的是（　）。

A.提高数据质量

B.降低数据成本

C.优化数据结构

D.简化数据处理流程

答案 A

标注 = 给数据打标签，让模型能学习。核心目的就是提高训练数据的质量。

141

确保泛化能力，数据集通常划分为（　）。

A.40% / 30% / 30%

B.80% / 10% / 10%

C.40% / 40% / 20%

D.30% / 50% / 20%

答案 B

80%训练 / 10%验证 / 10%测试是最经典的划分比例。你实操用的 test_size=0.2 就是这个。

142

自动化标注能够显著降低（　）成本。

A.数据收集

B.数据存储

C.数据标注

D.数据传输

答案 C

自动标注 → 减少人工标注工作量 → 降低标注成本。题干已经告诉你了。

147

（　）是一种常用的图像读取方法，可以从文件中提取像素数据。

A.图像编码

B.图像解码

C.图像压缩

D.图像解压缩

答案 B

图像文件是编码后的数据，读取时需要解码才能提取像素。你实操用的 Image.open() 就是解码过程。

148

文本类数据标注过程步骤中，（　）是不需要的。

A.对数据进行分词

B.构建词典

C.进行情感分析

D.标记实体

答案 C

情感分析是具体任务，不是所有文本标注都需要。分词、构建词典、标记实体是通用的文本标注步骤。

149

视觉类数据制定规范的目的是（　）。

A.增加数据集的多样性

B.保证训练模型时的数据处理一致性和数据质量

C.减少数据存储的空间需求

D.加快数据处理的速度

答案 B

制定规范的目的是统一标准 → 一致性 → 数据质量。

154

对图像中多个对象进行精确边界框绘制时，通常使用（　）标注工具。

A.多边形标注工具

B.点云标注工具

C.目标检测标注工具

D.关键点标注工具

答案 C

边界框（bounding box）= 目标检测标注的标配。多边形用于轮廓，点云用于3D，关键点用于姿态估计。

模型训练 & 评估 & 部署（121-127, 150-165）

121

深度学习中防止过拟合的方法是（　）。

A.仅使用一层隐藏层

B.增加模型的复杂度

C.应用早停技术

D.减少训练数据量

答案 C

早停（Early Stopping）= 验证集loss不再下降时停止训练。BD 反而会加重问题。

122

交叉验证的主要目的是（　）。

A.提高模型的训练速度

B.减少模型的复杂性

C.增加模型的预测准确性

D.评估模型的泛化能力

答案 D

交叉验证 = 多次划分数据集来评估模型，核心目的是评估泛化能力，不是直接提高准确性。

123

模型训练自动化工具中，（　）是通过自动化迭代优化模型性能。

A.模型评估

B.模型训练

C.特征工程

D.数据清洗

答案 B

迭代优化模型 = 模型训练本身在做的事（不断调整参数最小化损失）。

124

（　）主要用于实时收集和分析日志数据。

A.Apache Hadoop

B.ELK Stack

C.TensorFlow

D.PyTorch

答案 B

ELK = Elasticsearch + Logstash + Kibana，日志实时收集分析的标配。Hadoop 是离线批处理。

125

GAN 中的生成器通常使用（　）类型的神经网络。

A.卷积神经网络

B.循环神经网络

C.自编码器

D.生成对抗网络

答案 A

GAN 中生成器用反卷积（转置卷积）CNN 生成图像，判别器也用 CNN。DCGAN 就是全卷积的 GAN。

126

使用 Python 或 R 的主要原因是（　）。

A.提供了丰富的库和框架，专门用于数据处理和机器学习

B.不需要编程知识

C.唯一能做数据处理的语言

D.处理速度最快

答案 A

Python 有 pandas/sklearn/numpy/tensorflow 等生态，R 有 ggplot2/caret 等。核心优势是库丰富。

127

（　）不是模型部署工具的使用方法。

A.选择合适的部署环境

B.将模型文件上传到部署环境中

C.编写测试代码来验证模型的准确性

D.对模型进行微调以提高性能

答案 D

微调模型是训练阶段的事，不是部署阶段的事。部署是把已训练好的模型放到生产环境。

150

（　）不属于模型选择过程。

A.了解不同模型的优缺点

B.根据任务需求选择合适的模型

C.对模型进行调参优化

D.对模型进行评估和比较

答案 C

调参是选完模型之后的优化步骤，不属于"选择"过程本身。

151

提高模型准确性的划分方法是（　）。

A.随机划分

B.按比例划分

C.分层划分

D.交叉验证

答案 C

分层划分（stratified split）确保各类别比例在训练/测试集一致，避免数据不平衡导致的偏差。

155

模型训练的目标是（　）。

A.最大化模型准确率

B.最小化模型损失

C.最大化模型泛化能力

D.最小化模型复杂度

答案 B

训练 = 不断调整参数使损失函数（loss function）最小化。这是优化问题的数学定义。

156

线性规划用于求解（　）问题。

A.线性

B.非线性

C.凸

D.离散

答案 A

线性规划 = 线性目标函数 + 线性约束。名字已经告诉你了。

157

高效训练大规模数据集，（　）软件组件最关键。

A.数据库管理系统

B.版本控制系统

C.分布式训练框架

D.集成开发环境

答案 C

大规模数据 → 必须分布式 → 分布式训练框架（如 TensorFlow/PyTorch 的分布式模块）。

158

大规模分布式训练，（　）框架提供较成熟的支持。

A.TensorFlow

B.PyTorch

C.MXNet

D.Chainer

答案 A

TensorFlow 的分布式训练（TF Distributed）是最早成熟的工业级分布式训练方案。

159

算法验证的形式化方法包括模型检验和（　）。

A.形式化描述

B.逻辑推理

C.代码审查

D.测试用例

答案 A

形式化方法 = 形式化描述（formal specification）+ 模型检验（model checking）。

160

超参数调优中通常使用（　）来评估模型性能。

A.交叉验证

B.网格搜索

C.随机搜索

D.贝叶斯优化

答案 A

网格搜索/随机搜索/贝叶斯优化是搜索策略，交叉验证才是"评估性能"的方法。

161

（　）不是模型训练动态监控工具的典型功能。

A.提供训练损失和验证损失的实时图表

B.检测并报告过拟合或欠拟合现象

C.自动调整模型参数以优化性能

D.允许用户远程访问和操作训练环境

答案 C

监控工具只"看"不"动"——自动调整参数是自动调参工具的事，监控工具只负责展示和报警。

162

解决模型性能不佳问题，推荐（　）。

A.立即增加模型参数数量

B.检查训练数据质量，确保没有错误或偏差

C.忽略验证集，只关注训练集准确率

D.停止训练

答案 B

数据质量是一切的根基。"Garbage in, garbage out" —— 先查数据再调模型。

163

（　）不是常用的 ML 评价指标。

A.准确率 Accuracy

B.精确率 Precision

C.召回率 Recall

D.运行时间 Run Time

答案 D

ABC 是标准ML评价指标。运行时间不是模型"预测质量"的评价指标。

164

关于模型部署描述正确的是（　）。

A.只需要考虑技术因素

B.是一次性完成的过程

C.需要确保模型的安全性和隐私性

D.不需要考虑用户体验

答案 C

部署不是只管技术（A×），不是一次性（B×），必须考虑安全和隐私。D 明显错误。

165

自动化模型更新和版本管理通常使用（　）工具。

A.Git

B.SVN

C.Jenkins

D.Spinnaker

答案 C

Jenkins 是最主流的 CI/CD 工具，自动化构建/测试/部署流水线。

数据预处理（128-138, 143-146, 152-153）

128

数据探索分析的结果通常用于支持（　）决策。

A.业务策略制定

B.产品研发

C.市场推广

D.客户关系管理

答案 A

数据探索分析（EDA）的最终目的是帮助制定业务策略。

129

（　）可以帮助我们更好地理解数据的结构和特点。

A.数据可视化

B.统计分析

C.数据挖掘

D.机器学习

答案 A

"理解数据的结构和特点" → 一图胜千言，数据可视化最直观。

130

缺失数据处理中，（　）适用于存在大量相似观测值的情况。

A.删除法

B.填充法

C.插值法

D.替换法

答案 B

大量相似观测值 → 可以用均值/中位数等统计量填充缺失值。

131

分类数据的缺失值可以用（　）处理。

A.删除法

B.均值填充

C.中位数填充

D.众数填充

答案 D

分类数据 = 类别型（如"红/蓝/绿"）→ 用众数（出现最多的值）填充。均值/中位数只适用于数值型。

132

箱线图法在异常值检测中的作用是（　）。

A.确定数据的分布范围

B.识别数据中的异常值

C.评估数据的离散程度

D.判断数据的集中趋势

答案 B

箱线图中超出上下须（1.5×IQR）的点就是异常值。这题在问"异常值检测中的作用"，直接选 B。

133

Z-score 方法是一种基于（　）的异常值检测方法。

A.最大值

B.中位数

C.众数

D.标准差

答案 D

Z-score = (x - μ) / σ，σ 就是标准差。|Z| > 3 通常认为是异常值。

134

消除信号中平稳随机噪声主要用（　）。

A.滤波法

B.变换法

C.统计法

D.模型法

答案 A

滤波（如均值滤波、中值滤波）是消除噪声的经典方法。

135

位图法在数据去重中通过（　）。

A.比较每个数据与已有数据的相似度

B.记录每个数据是否出现过

C.对数据进行排序

D.对数据进行压缩

答案 B

位图（bitmap）：每个bit位标记某个值是否出现过，1=出现过，0=没出现过。

136

数据归一化处理的定义是（　）。

A.将所有值转换为相同的格式

B.将所有值缩放到 0 到 1 之间

C.将所有值增加到最大可能值

D.将所有值减少到最小可能值

答案 B

归一化（Normalization）= Min-Max Scaling，公式：(x - min) / (max - min)，结果在 [0,1]。你实操用的 StandardScaler 是标准化（Z-score），概念不同但同属数据缩放。

137

数据白化处理的主要目的是（　）。

A.提高数据的准确性

B.减少数据的冗余

C.增强数据的可读性

D.保护数据的隐私

答案 B

白化 = 让数据各维度方差为1且互不相关 → 消除特征间冗余。

138

特征工程通常需要对数据进行（　）。

A.数据清洗

B.数据集成

C.数据变换

D.数据划分

答案 C

特征工程的核心是数据变换（标准化、编码、构造新特征等），让数据更适合模型学习。

143

分布式数据处理的优势主要得益于（　）。

A.负载均衡技术

B.数据压缩技术

C.数据缓存技术

D.数据加密技术

答案 A

分布式 = 把任务分给多台机器 → 负载均衡让各机器均衡地处理任务。

144

确保数据可追溯性，数据管理流程包括数据的（　）、存储、传输和销毁。

A.创建

B.收集

C.分析

D.应用

答案 B

数据生命周期：收集 → 存储 → 传输 → 销毁。收集是第一步。

145

数据可追溯性的主要目的是（　）。

A.提高数据处理速度

B.减少数据存储成本

C.确保数据来源和修改历史的透明度

D.增加数据的复杂性

答案 C

可追溯 = 能追踪"数据从哪来、经过了什么处理"。核心就是透明度。

146

Excel 中识别重复数据的最佳实践是（　）。

A.使用"条件格式"高亮显示重复值

B.手动检查每一行

C.使用排序查找重复值

D.将数据转换为文本格式

答案 A

条件格式 → 突出显示单元格规则 → 重复值，一键搞定。

152

文本预处理中，（　）步骤将文本转换为数值型数据。

A.分词

B.去除停用词

C.词干提取

D.编码转换

答案 D

编码（如 One-Hot、TF-IDF、Word2Vec）把文字变成数字向量，模型才能处理。

154

对图像中多个对象进行精确边界框绘制时，通常使用（　）标注工具。

A.多边形标注工具

B.点云标注工具

C.目标检测标注工具

D.关键点标注工具

答案 C

边界框（bounding box）= 目标检测标注的标配。多边形用于轮廓，点云用于3D，关键点用于姿态估计。

模型训练 & 评估 & 部署（121-127, 150-165）

121

深度学习中防止过拟合的方法是（　）。

A.仅使用一层隐藏层

B.增加模型的复杂度

C.应用早停技术

D.减少训练数据量

答案 C

早停（Early Stopping）= 验证集loss不再下降时停止训练。BD 反而会加重问题。

122

交叉验证的主要目的是（　）。

A.提高模型的训练速度

B.减少模型的复杂性

C.增加模型的预测准确性

D.评估模型的泛化能力

答案 D

交叉验证 = 多次划分数据集来评估模型，核心目的是评估泛化能力，不是直接提高准确性。

123

模型训练自动化工具中，（　）是通过自动化迭代优化模型性能。

A.模型评估

B.模型训练

C.特征工程

D.数据清洗

答案 B

迭代优化模型 = 模型训练本身在做的事（不断调整参数最小化损失）。

124

（　）主要用于实时收集和分析日志数据。

A.Apache Hadoop

B.ELK Stack

C.TensorFlow

D.PyTorch

答案 B

ELK = Elasticsearch + Logstash + Kibana，日志实时收集分析的标配。Hadoop 是离线批处理。

125

GAN 中的生成器通常使用（　）类型的神经网络。

A.卷积神经网络

B.循环神经网络

C.自编码器

D.生成对抗网络

答案 A

GAN 中生成器用反卷积（转置卷积）CNN 生成图像，判别器也用 CNN。DCGAN 就是全卷积的 GAN。

126

使用 Python 或 R 的主要原因是（　）。

A.提供了丰富的库和框架，专门用于数据处理和机器学习

B.不需要编程知识

C.唯一能做数据处理的语言

D.处理速度最快

答案 A

Python 有 pandas/sklearn/numpy/tensorflow 等生态，R 有 ggplot2/caret 等。核心优势是库丰富。

127

（　）不是模型部署工具的使用方法。

A.选择合适的部署环境

B.将模型文件上传到部署环境中

C.编写测试代码来验证模型的准确性

D.对模型进行微调以提高性能

答案 D

微调模型是训练阶段的事，不是部署阶段的事。部署是把已训练好的模型放到生产环境。

150

（　）不属于模型选择过程。

A.了解不同模型的优缺点

B.根据任务需求选择合适的模型

C.对模型进行调参优化

D.对模型进行评估和比较

答案 C

调参是选完模型之后的优化步骤，不属于"选择"过程本身。

151

提高模型准确性的划分方法是（　）。

A.随机划分

B.按比例划分

C.分层划分

D.交叉验证

答案 C

分层划分（stratified split）确保各类别比例在训练/测试集一致，避免数据不平衡导致的偏差。

155

模型训练的目标是（　）。

A.最大化模型准确率

B.最小化模型损失

C.最大化模型泛化能力

D.最小化模型复杂度

答案 B

训练 = 不断调整参数使损失函数（loss function）最小化。这是优化问题的数学定义。

156

线性规划用于求解（　）问题。

A.线性

B.非线性

C.凸

D.离散

答案 A

线性规划 = 线性目标函数 + 线性约束。名字已经告诉你了。

157

高效训练大规模数据集，（　）软件组件最关键。

A.数据库管理系统

B.版本控制系统

C.分布式训练框架

D.集成开发环境

答案 C

大规模数据 → 必须分布式 → 分布式训练框架（如 TensorFlow/PyTorch 的分布式模块）。

158

大规模分布式训练，（　）框架提供较成熟的支持。

A.TensorFlow

B.PyTorch

C.MXNet

D.Chainer

答案 A

TensorFlow 的分布式训练（TF Distributed）是最早成熟的工业级分布式训练方案。

159

算法验证的形式化方法包括模型检验和（　）。

A.形式化描述

B.逻辑推理

C.代码审查

D.测试用例

答案 A

形式化方法 = 形式化描述（formal specification）+ 模型检验（model checking）。

160

超参数调优中通常使用（　）来评估模型性能。

A.交叉验证

B.网格搜索

C.随机搜索

D.贝叶斯优化

答案 A

网格搜索/随机搜索/贝叶斯优化是搜索策略，交叉验证才是"评估性能"的方法。

161

（　）不是模型训练动态监控工具的典型功能。

A.提供训练损失和验证损失的实时图表

B.检测并报告过拟合或欠拟合现象

C.自动调整模型参数以优化性能

D.允许用户远程访问和操作训练环境

答案 C

监控工具只"看"不"动"——自动调整参数是自动调参工具的事，监控工具只负责展示和报警。

162

解决模型性能不佳问题，推荐（　）。

A.立即增加模型参数数量

B.检查训练数据质量，确保没有错误或偏差

C.忽略验证集，只关注训练集准确率

D.停止训练

答案 B

数据质量是一切的根基。"Garbage in, garbage out" —— 先查数据再调模型。

163

（　）不是常用的 ML 评价指标。

A.准确率 Accuracy

B.精确率 Precision

C.召回率 Recall

D.运行时间 Run Time

答案 D

ABC 是标准ML评价指标。运行时间不是模型"预测质量"的评价指标。

164

关于模型部署描述正确的是（　）。

A.只需要考虑技术因素

B.是一次性完成的过程

C.需要确保模型的安全性和隐私性

D.不需要考虑用户体验

答案 C

部署不是只管技术（A×），不是一次性（B×），必须考虑安全和隐私。D 明显错误。

165

自动化模型更新和版本管理通常使用（　）工具。

A.Git

B.SVN

C.Jenkins

D.Spinnaker

答案 C

Jenkins 是最主流的 CI/CD 工具，自动化构建/测试/部署流水线。

数据预处理（128-138, 143-146, 152-153）

128

数据探索分析的结果通常用于支持（　）决策。

A.业务策略制定

B.产品研发

C.市场推广

D.客户关系管理

答案 A

数据探索分析（EDA）的最终目的是帮助制定业务策略。

129

（　）可以帮助我们更好地理解数据的结构和特点。

A.数据可视化

B.统计分析

C.数据挖掘

D.机器学习

答案 A

"理解数据的结构和特点" → 一图胜千言，数据可视化最直观。

130

缺失数据处理中，（　）适用于存在大量相似观测值的情况。

A.删除法

B.填充法

C.插值法

D.替换法

答案 B

大量相似观测值 → 可以用均值/中位数等统计量填充缺失值。

131

分类数据的缺失值可以用（　）处理。

A.删除法

B.均值填充

C.中位数填充

D.众数填充

答案 D

分类数据 = 类别型（如"红/蓝/绿"）→ 用众数（出现最多的值）填充。均值/中位数只适用于数值型。

132

箱线图法在异常值检测中的作用是（　）。

A.确定数据的分布范围

B.识别数据中的异常值

C.评估数据的离散程度

D.判断数据的集中趋势

答案 B

箱线图中超出上下须（1.5×IQR）的点就是异常值。这题在问"异常值检测中的作用"，直接选 B。

133

Z-score 方法是一种基于（　）的异常值检测方法。

A.最大值

B.中位数

C.众数

D.标准差

答案 D

Z-score = (x - μ) / σ，σ 就是标准差。|Z| > 3 通常认为是异常值。

134

消除信号中平稳随机噪声主要用（　）。

A.滤波法

B.变换法

C.统计法

D.模型法

答案 A

滤波（如均值滤波、中值滤波）是消除噪声的经典方法。

135

位图法在数据去重中通过（　）。

A.比较每个数据与已有数据的相似度

B.记录每个数据是否出现过

C.对数据进行排序

D.对数据进行压缩

答案 B

位图（bitmap）：每个bit位标记某个值是否出现过，1=出现过，0=没出现过。

136

数据归一化处理的定义是（　）。

A.将所有值转换为相同的格式

B.将所有值缩放到 0 到 1 之间

C.将所有值增加到最大可能值

D.将所有值减少到最小可能值

答案 B

归一化（Normalization）= Min-Max Scaling，公式：(x - min) / (max - min)，结果在 [0,1]。你实操用的 StandardScaler 是标准化（Z-score），概念不同但同属数据缩放。

137

数据白化处理的主要目的是（　）。

A.提高数据的准确性

B.减少数据的冗余

C.增强数据的可读性

D.保护数据的隐私

答案 B

白化 = 让数据各维度方差为1且互不相关 → 消除特征间冗余。

139

选择数据标注工具时，应该权衡（　）。

A.准确性、易用性、成本

B.准确性、易用性、速度

C.准确性、成本、速度

D.易用性、成本、速度

答案 A

选择标注工具的三大要素：标注是否准确、好不好用、贵不贵。

140

数据标注技术的目的是（　）。

A.提高数据质量

B.降低数据成本

C.优化数据结构

D.简化数据处理流程

答案 A

标注 = 给数据打标签，让模型能学习。核心目的就是提高训练数据的质量。

141

确保泛化能力，数据集通常划分为（　）。

A.40% / 30% / 30%

B.80% / 10% / 10%

C.40% / 40% / 20%

D.30% / 50% / 20%

答案 B

80%训练 / 10%验证 / 10%测试是最经典的划分比例。你实操用的 test_size=0.2 就是这个。

142

自动化标注能够显著降低（　）成本。

A.数据收集

B.数据存储

C.数据标注

D.数据传输

答案 C

自动标注 → 减少人工标注工作量 → 降低标注成本。题干已经告诉你了。

147

（　）是一种常用的图像读取方法，可以从文件中提取像素数据。

A.图像编码

B.图像解码

C.图像压缩

D.图像解压缩

答案 B

图像文件是编码后的数据，读取时需要解码才能提取像素。你实操用的 Image.open() 就是解码过程。

148

文本类数据标注过程步骤中，（　）是不需要的。

A.对数据进行分词

B.构建词典

C.进行情感分析

D.标记实体

答案 C

情感分析是具体任务，不是所有文本标注都需要。分词、构建词典、标记实体是通用的文本标注步骤。

149

视觉类数据制定规范的目的是（　）。

A.增加数据集的多样性

B.保证训练模型时的数据处理一致性和数据质量

C.减少数据存储的空间需求

D.加快数据处理的速度

答案 B

制定规范的目的是统一标准 → 一致性 → 数据质量。

154

对图像中多个对象进行精确边界框绘制时，通常使用（　）标注工具。

A.多边形标注工具

B.点云标注工具

C.目标检测标注工具

D.关键点标注工具

答案 C

边界框（bounding box）= 目标检测标注的标配。多边形用于轮廓，点云用于3D，关键点用于姿态估计。

模型训练 & 评估 & 部署（121-127, 150-165）

121

深度学习中防止过拟合的方法是（　）。

A.仅使用一层隐藏层

B.增加模型的复杂度

C.应用早停技术

D.减少训练数据量

答案 C

早停（Early Stopping）= 验证集loss不再下降时停止训练。BD 反而会加重问题。

122

交叉验证的主要目的是（　）。

A.提高模型的训练速度

B.减少模型的复杂性

C.增加模型的预测准确性

D.评估模型的泛化能力

答案 D

交叉验证 = 多次划分数据集来评估模型，核心目的是评估泛化能力，不是直接提高准确性。

123

模型训练自动化工具中，（　）是通过自动化迭代优化模型性能。

A.模型评估

B.模型训练

C.特征工程

D.数据清洗

答案 B

迭代优化模型 = 模型训练本身在做的事（不断调整参数最小化损失）。

124

（　）主要用于实时收集和分析日志数据。

A.Apache Hadoop

B.ELK Stack

C.TensorFlow

D.PyTorch

答案 B

ELK = Elasticsearch + Logstash + Kibana，日志实时收集分析的标配。Hadoop 是离线批处理。

125

GAN 中的生成器通常使用（　）类型的神经网络。

A.卷积神经网络

B.循环神经网络

C.自编码器

D.生成对抗网络

答案 A

GAN 中生成器用反卷积（转置卷积）CNN 生成图像，判别器也用 CNN。DCGAN 就是全卷积的 GAN。

126

使用 Python 或 R 的主要原因是（　）。

A.提供了丰富的库和框架，专门用于数据处理和机器学习

B.不需要编程知识

C.唯一能做数据处理的语言

D.处理速度最快

答案 A

Python 有 pandas/sklearn/numpy/tensorflow 等生态，R 有 ggplot2/caret 等。核心优势是库丰富。

127

（　）不是模型部署工具的使用方法。

A.选择合适的部署环境

B.将模型文件上传到部署环境中

C.编写测试代码来验证模型的准确性

D.对模型进行微调以提高性能

答案 D

微调模型是训练阶段的事，不是部署阶段的事。部署是把已训练好的模型放到生产环境。

150

（　）不属于模型选择过程。

A.了解不同模型的优缺点

B.根据任务需求选择合适的模型

C.对模型进行调参优化

D.对模型进行评估和比较

答案 C

调参是选完模型之后的优化步骤，不属于"选择"过程本身。

151

提高模型准确性的划分方法是（　）。

A.随机划分

B.按比例划分

C.分层划分

D.交叉验证

答案 C

分层划分（stratified split）确保各类别比例在训练/测试集一致，避免数据不平衡导致的偏差。

155

模型训练的目标是（　）。

A.最大化模型准确率

B.最小化模型损失

C.最大化模型泛化能力

D.最小化模型复杂度

答案 B

训练 = 不断调整参数使损失函数（loss function）最小化。这是优化问题的数学定义。

156

线性规划用于求解（　）问题。

A.线性

B.非线性

C.凸

D.离散

答案 A

线性规划 = 线性目标函数 + 线性约束。名字已经告诉你了。

157

高效训练大规模数据集，（　）软件组件最关键。

A.数据库管理系统

B.版本控制系统

C.分布式训练框架

D.集成开发环境

答案 C

大规模数据 → 必须分布式 → 分布式训练框架（如 TensorFlow/PyTorch 的分布式模块）。

158

大规模分布式训练，（　）框架提供较成熟的支持。

A.TensorFlow

B.PyTorch

C.MXNet

D.Chainer

答案 A

TensorFlow 的分布式训练（TF Distributed）是最早成熟的工业级分布式训练方案。

159

算法验证的形式化方法包括模型检验和（　）。

A.形式化描述

B.逻辑推理

C.代码审查

D.测试用例

答案 A

形式化方法 = 形式化描述（formal specification）+ 模型检验（model checking）。

160

超参数调优中通常使用（　）来评估模型性能。

A.交叉验证

B.网格搜索

C.随机搜索

D.贝叶斯优化

答案 A

网格搜索/随机搜索/贝叶斯优化是搜索策略，交叉验证才是"评估性能"的方法。

161

（　）不是模型训练动态监控工具的典型功能。

A.提供训练损失和验证损失的实时图表

B.检测并报告过拟合或欠拟合现象

C.自动调整模型参数以优化性能

D.允许用户远程访问和操作训练环境

答案 C

监控工具只"看"不"动"——自动调整参数是自动调参工具的事，监控工具只负责展示和报警。

162

解决模型性能不佳问题，推荐（　）。

A.立即增加模型参数数量

B.检查训练数据质量，确保没有错误或偏差

C.忽略验证集，只关注训练集准确率

D.停止训练

答案 B

数据质量是一切的根基。"Garbage in, garbage out" —— 先查数据再调模型。

163

（　）不是常用的 ML 评价指标。

A.准确率 Accuracy

B.精确率 Precision

C.召回率 Recall

D.运行时间 Run Time

答案 D

ABC 是标准ML评价指标。运行时间不是模型"预测质量"的评价指标。

164

关于模型部署描述正确的是（　）。

A.只需要考虑技术因素

B.是一次性完成的过程

C.需要确保模型的安全性和隐私性

D.不需要考虑用户体验

答案 C

部署不是只管技术（A×），不是一次性（B×），必须考虑安全和隐私。D 明显错误。

165

自动化模型更新和版本管理通常使用（　）工具。

A.Git

B.SVN

C.Jenkins

D.Spinnaker

答案 C

Jenkins 是最主流的 CI/CD 工具，自动化构建/测试/部署流水线。

数据预处理（128-138, 143-146, 152-153）

128

数据探索分析的结果通常用于支持（　）决策。

A.业务策略制定

B.产品研发

C.市场推广

D.客户关系管理

答案 A

数据探索分析（EDA）的最终目的是帮助制定业务策略。

129

（　）可以帮助我们更好地理解数据的结构和特点。

A.数据可视化

B.统计分析

C.数据挖掘

D.机器学习

答案 A

"理解数据的结构和特点" → 一图胜千言，数据可视化最直观。

130

缺失数据处理中，（　）适用于存在大量相似观测值的情况。

A.删除法

B.填充法

C.插值法

D.替换法

答案 B

大量相似观测值 → 可以用均值/中位数等统计量填充缺失值。

131

分类数据的缺失值可以用（　）处理。

A.删除法

B.均值填充

C.中位数填充

D.众数填充

答案 D

分类数据 = 类别型（如"红/蓝/绿"）→ 用众数（出现最多的值）填充。均值/中位数只适用于数值型。

132

箱线图法在异常值检测中的作用是（　）。

A.确定数据的分布范围

B.识别数据中的异常值

C.评估数据的离散程度

D.判断数据的集中趋势

答案 B

箱线图中超出上下须（1.5×IQR）的点就是异常值。这题在问"异常值检测中的作用"，直接选 B。

133

Z-score 方法是一种基于（　）的异常值检测方法。

A.最大值

B.中位数

C.众数

D.标准差

答案 D

Z-score = (x - μ) / σ，σ 就是标准差。|Z| > 3 通常认为是异常值。

134

消除信号中平稳随机噪声主要用（　）。

A.滤波法

B.变换法

C.统计法

D.模型法

答案 A

滤波（如均值滤波、中值滤波）是消除噪声的经典方法。

135

位图法在数据去重中通过（　）。

A.比较每个数据与已有数据的相似度

B.记录每个数据是否出现过

C.对数据进行排序

D.对数据进行压缩

答案 B

位图（bitmap）：每个bit位标记某个值是否出现过，1=出现过，0=没出现过。

136

数据归一化处理的定义是（　）。

A.将所有值转换为相同的格式

B.将所有值缩放到 0 到 1 之间

C.将所有值增加到最大可能值

D.将所有值减少到最小可能值

答案 B

归一化（Normalization）= Min-Max Scaling，公式：(x - min) / (max - min)，结果在 [0,1]。你实操用的 StandardScaler 是标准化（Z-score），概念不同但同属数据缩放。

137

数据白化处理的主要目的是（　）。

A.提高数据的准确性

B.减少数据的冗余

C.增强数据的可读性

D.保护数据的隐私

答案 B

白化 = 让数据各维度方差为1且互不相关 → 消除特征间冗余。

138

特征工程通常需要对数据进行（　）。

A.数据清洗

B.数据集成

C.数据变换

D.数据划分

答案 C

特征工程的核心是数据变换（标准化、编码、构造新特征等），让数据更适合模型学习。

143

分布式数据处理的优势主要得益于（　）。

A.负载均衡技术

B.数据压缩技术

C.数据缓存技术

D.数据加密技术

答案 A

分布式 = 把任务分给多台机器 → 负载均衡让各机器均衡地处理任务。

144

确保数据可追溯性，数据管理流程包括数据的（　）、存储、传输和销毁。

A.创建

B.收集

C.分析

D.应用

答案 B

数据生命周期：收集 → 存储 → 传输 → 销毁。收集是第一步。

145

数据可追溯性的主要目的是（　）。

A.提高数据处理速度

B.减少数据存储成本

C.确保数据来源和修改历史的透明度

D.增加数据的复杂性

答案 C

可追溯 = 能追踪"数据从哪来、经过了什么处理"。核心就是透明度。

147

（　）是一种常用的图像读取方法，可以从文件中提取像素数据。

A.图像编码

B.图像解码

C.图像压缩

D.图像解压缩

答案 B

图像文件是编码后的数据，读取时需要解码才能提取像素。你实操用的 Image.open() 就是解码过程。

148

文本类数据标注过程步骤中，（　）是不需要的。

A.对数据进行分词

B.构建词典

C.进行情感分析

D.标记实体

答案 C

情感分析是具体任务，不是所有文本标注都需要。分词、构建词典、标记实体是通用的文本标注步骤。

149

视觉类数据制定规范的目的是（　）。

A.增加数据集的多样性

B.保证训练模型时的数据处理一致性和数据质量

C.减少数据存储的空间需求

D.加快数据处理的速度

答案 B

制定规范的目的是统一标准 → 一致性 → 数据质量。

154

对图像中多个对象进行精确边界框绘制时，通常使用（　）标注工具。

A.多边形标注工具

B.点云标注工具

C.目标检测标注工具

D.关键点标注工具

答案 C

边界框（bounding box）= 目标检测标注的标配。多边形用于轮廓，点云用于3D，关键点用于姿态估计。

模型训练 & 评估 & 部署（121-127, 150-165）

121

深度学习中防止过拟合的方法是（　）。

A.仅使用一层隐藏层

B.增加模型的复杂度

C.应用早停技术

D.减少训练数据量

答案 C

早停（Early Stopping）= 验证集loss不再下降时停止训练。BD 反而会加重问题。

122

交叉验证的主要目的是（　）。

A.提高模型的训练速度

B.减少模型的复杂性

C.增加模型的预测准确性

D.评估模型的泛化能力

答案 D

交叉验证 = 多次划分数据集来评估模型，核心目的是评估泛化能力，不是直接提高准确性。

123

模型训练自动化工具中，（　）是通过自动化迭代优化模型性能。

A.模型评估

B.模型训练

C.特征工程

D.数据清洗

答案 B

迭代优化模型 = 模型训练本身在做的事（不断调整参数最小化损失）。

124

（　）主要用于实时收集和分析日志数据。

A.Apache Hadoop

B.ELK Stack

C.TensorFlow

D.PyTorch

答案 B

ELK = Elasticsearch + Logstash + Kibana，日志实时收集分析的标配。Hadoop 是离线批处理。

125

GAN 中的生成器通常使用（　）类型的神经网络。

A.卷积神经网络

B.循环神经网络

C.自编码器

D.生成对抗网络

答案 A

GAN 中生成器用反卷积（转置卷积）CNN 生成图像，判别器也用 CNN。DCGAN 就是全卷积的 GAN。

126

使用 Python 或 R 的主要原因是（　）。

A.提供了丰富的库和框架，专门用于数据处理和机器学习

B.不需要编程知识

C.唯一能做数据处理的语言

D.处理速度最快

答案 A

Python 有 pandas/sklearn/numpy/tensorflow 等生态，R 有 ggplot2/caret 等。核心优势是库丰富。

127

（　）不是模型部署工具的使用方法。

A.选择合适的部署环境

B.将模型文件上传到部署环境中

C.编写测试代码来验证模型的准确性

D.对模型进行微调以提高性能

答案 D

微调模型是训练阶段的事，不是部署阶段的事。部署是把已训练好的模型放到生产环境。

150

（　）不属于模型选择过程。

A.了解不同模型的优缺点

B.根据任务需求选择合适的模型

C.对模型进行调参优化

D.对模型进行评估和比较

答案 C

调参是选完模型之后的优化步骤，不属于"选择"过程本身。

151

提高模型准确性的划分方法是（　）。

A.随机划分

B.按比例划分

C.分层划分

D.交叉验证

答案 C

分层划分（stratified split）确保各类别比例在训练/测试集一致，避免数据不平衡导致的偏差。

155

模型训练的目标是（　）。

A.最大化模型准确率

B.最小化模型损失

C.最大化模型泛化能力

D.最小化模型复杂度

答案 B

训练 = 不断调整参数使损失函数（loss function）最小化。这是优化问题的数学定义。

156

线性规划用于求解（　）问题。

A.线性

B.非线性

C.凸

D.离散

答案 A

线性规划 = 线性目标函数 + 线性约束。名字已经告诉你了。

157

高效训练大规模数据集，（　）软件组件最关键。

A.数据库管理系统

B.版本控制系统

C.分布式训练框架

D.集成开发环境

答案 C

大规模数据 → 必须分布式 → 分布式训练框架（如 TensorFlow/PyTorch 的分布式模块）。

158

大规模分布式训练，（　）框架提供较成熟的支持。

A.TensorFlow

B.PyTorch

C.MXNet

D.Chainer

答案 A

TensorFlow 的分布式训练（TF Distributed）是最早成熟的工业级分布式训练方案。

159

算法验证的形式化方法包括模型检验和（　）。

A.形式化描述

B.逻辑推理

C.代码审查

D.测试用例

答案 A

形式化方法 = 形式化描述（formal specification）+ 模型检验（model checking）。

160

超参数调优中通常使用（　）来评估模型性能。

A.交叉验证

B.网格搜索

C.随机搜索

D.贝叶斯优化

答案 A

网格搜索/随机搜索/贝叶斯优化是搜索策略，交叉验证才是"评估性能"的方法。

161

（　）不是模型训练动态监控工具的典型功能。

A.提供训练损失和验证损失的实时图表

B.检测并报告过拟合或欠拟合现象

C.自动调整模型参数以优化性能

D.允许用户远程访问和操作训练环境

答案 C

监控工具只"看"不"动"——自动调整参数是自动调参工具的事，监控工具只负责展示和报警。

162

解决模型性能不佳问题，推荐（　）。

A.立即增加模型参数数量

B.检查训练数据质量，确保没有错误或偏差

C.忽略验证集，只关注训练集准确率

D.停止训练

答案 B

数据质量是一切的根基。"Garbage in, garbage out" —— 先查数据再调模型。

163

（　）不是常用的 ML 评价指标。

A.准确率 Accuracy

B.精确率 Precision

C.召回率 Recall

D.运行时间 Run Time

答案 D

ABC 是标准ML评价指标。运行时间不是模型"预测质量"的评价指标。

164

关于模型部署描述正确的是（　）。

A.只需要考虑技术因素

B.是一次性完成的过程

C.需要确保模型的安全性和隐私性

D.不需要考虑用户体验

答案 C

部署不是只管技术（A×），不是一次性（B×），必须考虑安全和隐私。D 明显错误。

165

自动化模型更新和版本管理通常使用（　）工具。

A.Git

B.SVN

C.Jenkins

D.Spinnaker

答案 C

Jenkins 是最主流的 CI/CD 工具，自动化构建/测试/部署流水线。

数据预处理（128-138, 143-146, 152-153）

128

数据探索分析的结果通常用于支持（　）决策。

A.业务策略制定

B.产品研发

C.市场推广

D.客户关系管理

答案 A

数据探索分析（EDA）的最终目的是帮助制定业务策略。

129

（　）可以帮助我们更好地理解数据的结构和特点。

A.数据可视化

B.统计分析

C.数据挖掘

D.机器学习

答案 A

"理解数据的结构和特点" → 一图胜千言，数据可视化最直观。

130

缺失数据处理中，（　）适用于存在大量相似观测值的情况。

A.删除法

B.填充法

C.插值法

D.替换法

答案 B

大量相似观测值 → 可以用均值/中位数等统计量填充缺失值。

131

分类数据的缺失值可以用（　）处理。

A.删除法

B.均值填充

C.中位数填充

D.众数填充

答案 D

分类数据 = 类别型（如"红/蓝/绿"）→ 用众数（出现最多的值）填充。均值/中位数只适用于数值型。

132

箱线图法在异常值检测中的作用是（　）。

A.确定数据的分布范围

B.识别数据中的异常值

C.评估数据的离散程度

D.判断数据的集中趋势

答案 B

箱线图中超出上下须（1.5×IQR）的点就是异常值。这题在问"异常值检测中的作用"，直接选 B。

133

Z-score 方法是一种基于（　）的异常值检测方法。

A.最大值

B.中位数

C.众数

D.标准差

答案 D

Z-score = (x - μ) / σ，σ 就是标准差。|Z| > 3 通常认为是异常值。

134

消除信号中平稳随机噪声主要用（　）。

A.滤波法

B.变换法

C.统计法

D.模型法

答案 A

滤波（如均值滤波、中值滤波）是消除噪声的经典方法。

135

位图法在数据去重中通过（　）。

A.比较每个数据与已有数据的相似度

B.记录每个数据是否出现过

C.对数据进行排序

D.对数据进行压缩

答案 B

位图（bitmap）：每个bit位标记某个值是否出现过，1=出现过，0=没出现过。

136

数据归一化处理的定义是（　）。

A.将所有值转换为相同的格式

B.将所有值缩放到 0 到 1 之间

C.将所有值增加到最大可能值

D.将所有值减少到最小可能值

答案 B

归一化（Normalization）= Min-Max Scaling，公式：(x - min) / (max - min)，结果在 [0,1]。你实操用的 StandardScaler 是标准化（Z-score），概念不同但同属数据缩放。

137

数据白化处理的主要目的是（　）。

A.提高数据的准确性

B.减少数据的冗余

C.增强数据的可读性

D.保护数据的隐私

答案 B

白化 = 让数据各维度方差为1且互不相关 → 消除特征间冗余。

139

选择数据标注工具时，应该权衡（　）。

A.准确性、易用性、成本

B.准确性、易用性、速度

C.准确性、成本、速度

D.易用性、成本、速度

答案 A

选择标注工具的三大要素：标注是否准确、好不好用、贵不贵。

140

数据标注技术的目的是（　）。

A.提高数据质量

B.降低数据成本

C.优化数据结构

D.简化数据处理流程

答案 A

标注 = 给数据打标签，让模型能学习。核心目的就是提高训练数据的质量。

141

确保泛化能力，数据集通常划分为（　）。

A.40% / 30% / 30%

B.80% / 10% / 10%

C.40% / 40% / 20%

D.30% / 50% / 20%

答案 B

80%训练 / 10%验证 / 10%测试是最经典的划分比例。你实操用的 test_size=0.2 就是这个。

142

自动化标注能够显著降低（　）成本。

A.数据收集

B.数据存储

C.数据标注

D.数据传输

答案 C

自动标注 → 减少人工标注工作量 → 降低标注成本。题干已经告诉你了。

147

（　）是一种常用的图像读取方法，可以从文件中提取像素数据。

A.图像编码

B.图像解码

C.图像压缩

D.图像解压缩

答案 B

图像文件是编码后的数据，读取时需要解码才能提取像素。你实操用的 Image.open() 就是解码过程。

148

文本类数据标注过程步骤中，（　）是不需要的。

A.对数据进行分词

B.构建词典

C.进行情感分析

D.标记实体

答案 C

情感分析是具体任务，不是所有文本标注都需要。分词、构建词典、标记实体是通用的文本标注步骤。

149

视觉类数据制定规范的目的是（　）。

A.增加数据集的多样性

B.保证训练模型时的数据处理一致性和数据质量

C.减少数据存储的空间需求

D.加快数据处理的速度

答案 B

制定规范的目的是统一标准 → 一致性 → 数据质量。

154

对图像中多个对象进行精确边界框绘制时，通常使用（　）标注工具。

A.多边形标注工具

B.点云标注工具

C.目标检测标注工具

D.关键点标注工具

答案 C

边界框（bounding box）= 目标检测标注的标配。多边形用于轮廓，点云用于3D，关键点用于姿态估计。

模型训练 & 评估 & 部署（121-127, 150-165）

121

深度学习中防止过拟合的方法是（　）。

A.仅使用一层隐藏层

B.增加模型的复杂度

C.应用早停技术

D.减少训练数据量

答案 C

早停（Early Stopping）= 验证集loss不再下降时停止训练。BD 反而会加重问题。

122

交叉验证的主要目的是（　）。

A.提高模型的训练速度

B.减少模型的复杂性

C.增加模型的预测准确性

D.评估模型的泛化能力

答案 D

交叉验证 = 多次划分数据集来评估模型，核心目的是评估泛化能力，不是直接提高准确性。

123

模型训练自动化工具中，（　）是通过自动化迭代优化模型性能。

A.模型评估

B.模型训练

C.特征工程

D.数据清洗

答案 B

迭代优化模型 = 模型训练本身在做的事（不断调整参数最小化损失）。

124

（　）主要用于实时收集和分析日志数据。

A.Apache Hadoop

B.ELK Stack

C.TensorFlow

D.PyTorch

答案 B

ELK = Elasticsearch + Logstash + Kibana，日志实时收集分析的标配。Hadoop 是离线批处理。

125

GAN 中的生成器通常使用（　）类型的神经网络。

A.卷积神经网络

B.循环神经网络

C.自编码器

D.生成对抗网络

答案 A

GAN 中生成器用反卷积（转置卷积）CNN 生成图像，判别器也用 CNN。DCGAN 就是全卷积的 GAN。

126

使用 Python 或 R 的主要原因是（　）。

A.提供了丰富的库和框架，专门用于数据处理和机器学习

B.不需要编程知识

C.唯一能做数据处理的语言

D.处理速度最快

答案 A

Python 有 pandas/sklearn/numpy/tensorflow 等生态，R 有 ggplot2/caret 等。核心优势是库丰富。

127

（　）不是模型部署工具的使用方法。

A.选择合适的部署环境

B.将模型文件上传到部署环境中

C.编写测试代码来验证模型的准确性

D.对模型进行微调以提高性能

答案 D

微调模型是训练阶段的事，不是部署阶段的事。部署是把已训练好的模型放到生产环境。

150

（　）不属于模型选择过程。

A.了解不同模型的优缺点

B.根据任务需求选择合适的模型

C.对模型进行调参优化

D.对模型进行评估和比较

答案 C

调参是选完模型之后的优化步骤，不属于"选择"过程本身。

151

提高模型准确性的划分方法是（　）。

A.随机划分

B.按比例划分

C.分层划分

D.交叉验证

答案 C

分层划分（stratified split）确保各类别比例在训练/测试集一致，避免数据不平衡导致的偏差。

155

模型训练的目标是（　）。

A.最大化模型准确率

B.最小化模型损失

C.最大化模型泛化能力

D.最小化模型复杂度

答案 B

训练 = 不断调整参数使损失函数（loss function）最小化。这是优化问题的数学定义。

156

线性规划用于求解（　）问题。

A.线性

B.非线性

C.凸

D.离散

答案 A

线性规划 = 线性目标函数 + 线性约束。名字已经告诉你了。

157

高效训练大规模数据集，（　）软件组件最关键。

A.数据库管理系统

B.版本控制系统

C.分布式训练框架

D.集成开发环境

答案 C

大规模数据 → 必须分布式 → 分布式训练框架（如 TensorFlow/PyTorch 的分布式模块）。

158

大规模分布式训练，（　）框架提供较成熟的支持。

A.TensorFlow

B.PyTorch

C.MXNet

D.Chainer

答案 A

TensorFlow 的分布式训练（TF Distributed）是最早成熟的工业级分布式训练方案。

159

算法验证的形式化方法包括模型检验和（　）。

A.形式化描述

B.逻辑推理

C.代码审查

D.测试用例

答案 A

形式化方法 = 形式化描述（formal specification）+ 模型检验（model checking）。

160

超参数调优中通常使用（　）来评估模型性能。

A.交叉验证

B.网格搜索

C.随机搜索

D.贝叶斯优化

答案 A

网格搜索/随机搜索/贝叶斯优化是搜索策略，交叉验证才是"评估性能"的方法。

161

（　）不是模型训练动态监控工具的典型功能。

A.提供训练损失和验证损失的实时图表

B.检测并报告过拟合或欠拟合现象

C.自动调整模型参数以优化性能

D.允许用户远程访问和操作训练环境

答案 C

监控工具只"看"不"动"——自动调整参数是自动调参工具的事，监控工具只负责展示和报警。

162

解决模型性能不佳问题，推荐（　）。

A.立即增加模型参数数量

B.检查训练数据质量，确保没有错误或偏差

C.忽略验证集，只关注训练集准确率

D.停止训练

答案 B

数据质量是一切的根基。"Garbage in, garbage out" —— 先查数据再调模型。

163

（　）不是常用的 ML 评价指标。

A.准确率 Accuracy

B.精确率 Precision

C.召回率 Recall

D.运行时间 Run Time

答案 D

ABC 是标准ML评价指标。运行时间不是模型"预测质量"的评价指标。

164

关于模型部署描述正确的是（　）。

A.只需要考虑技术因素

B.是一次性完成的过程

C.需要确保模型的安全性和隐私性

D.不需要考虑用户体验

答案 C

部署不是只管技术（A×），不是一次性（B×），必须考虑安全和隐私。D 明显错误。

165

自动化模型更新和版本管理通常使用（　）工具。

A.Git

B.SVN

C.Jenkins

D.Spinnaker

答案 C

Jenkins 是最主流的 CI/CD 工具，自动化构建/测试/部署流水线。

数据预处理（128-138, 143-146, 152-153）

128

数据探索分析的结果通常用于支持（　）决策。

A.业务策略制定

B.产品研发

C.市场推广

D.客户关系管理

答案 A

数据探索分析（EDA）的最终目的是帮助制定业务策略。

129

（　）可以帮助我们更好地理解数据的结构和特点。

A.数据可视化

B.统计分析

C.数据挖掘

D.机器学习

答案 A

"理解数据的结构和特点" → 一图胜千言，数据可视化最直观。

130

缺失数据处理中，（　）适用于存在大量相似观测值的情况。

A.删除法

B.填充法

C.插值法

D.替换法

答案 B

大量相似观测值 → 可以用均值/中位数等统计量填充缺失值。

131

分类数据的缺失值可以用（　）处理。

A.删除法

B.均值填充

C.中位数填充

D.众数填充

答案 D

分类数据 = 类别型（如"红/蓝/绿"）→ 用众数（出现最多的值）填充。均值/中位数只适用于数值型。

132

箱线图法在异常值检测中的作用是（　）。

A.确定数据的分布范围

B.识别数据中的异常值

C.评估数据的离散程度

D.判断数据的集中趋势

答案 B

箱线图中超出上下须（1.5×IQR）的点就是异常值。这题在问"异常值检测中的作用"，直接选 B。

133

Z-score 方法是一种基于（　）的异常值检测方法。

A.最大值

B.中位数

C.众数

D.标准差

答案 D

Z-score = (x - μ) / σ，σ 就是标准差。|Z| > 3 通常认为是异常值。

134

消除信号中平稳随机噪声主要用（　）。

A.滤波法

B.变换法

C.统计法

D.模型法

答案 A

滤波（如均值滤波、中值滤波）是消除噪声的经典方法。

135

位图法在数据去重中通过（　）。

A.比较每个数据与已有数据的相似度

B.记录每个数据是否出现过

C.对数据进行排序

D.对数据进行压缩

答案 B

位图（bitmap）：每个bit位标记某个值是否出现过，1=出现过，0=没出现过。

136

数据归一化处理的定义是（　）。

A.将所有值转换为相同的格式

B.将所有值缩放到 0 到 1 之间

C.将所有值增加到最大可能值

D.将所有值减少到最小可能值

答案 B

归一化（Normalization）= Min-Max Scaling，公式：(x - min) / (max - min)，结果在 [0,1]。你实操用的 StandardScaler 是标准化（Z-score），概念不同但同属数据缩放。

137

数据白化处理的主要目的是（　）。

A.提高数据的准确性

B.减少数据的冗余

C.增强数据的可读性

D.保护数据的隐私

答案 B

白化 = 让数据各维度方差为1且互不相关 → 消除特征间冗余。

138

特征工程通常需要对数据进行（　）。

A.数据清洗

B.数据集成

C.数据变换

D.数据划分

答案 C

特征工程的核心是数据变换（标准化、编码、构造新特征等），让数据更适合模型学习。

143

分布式数据处理的优势主要得益于（　）。

A.负载均衡技术

B.数据压缩技术

C.数据缓存技术

D.数据加密技术

答案 A

分布式 = 把任务分给多台机器 → 负载均衡让各机器均衡地处理任务。

144

确保数据可追溯性，数据管理流程包括数据的（　）、存储、传输和销毁。

A.创建

B.收集

C.分析

D.应用

答案 B

数据生命周期：收集 → 存储 → 传输 → 销毁。收集是第一步。

145

数据可追溯性的主要目的是（　）。

A.提高数据处理速度

B.减少数据存储成本

C.确保数据来源和修改历史的透明度

D.增加数据的复杂性

答案 C

可追溯 = 能追踪"数据从哪来、经过了什么处理"。核心就是透明度。

146

Excel 中识别重复数据的最佳实践是（　）。

A.使用"条件格式"高亮显示重复值

B.手动检查每一行

C.使用排序查找重复值

D.将数据转换为文本格式

答案 A

条件格式 → 突出显示单元格规则 → 重复值，一键搞定。

152

文本预处理中，（　）步骤将文本转换为数值型数据。

A.分词

B.去除停用词

C.词干提取

D.编码转换

答案 D

编码（如 One-Hot、TF-IDF、Word2Vec）把文字变成数字向量，模型才能处理。

153

将高维数据映射到低维空间的降维方法是（　）。

A.主成分分析

B.线性判别分析

C.决策树

D.遗传算法

答案 A

PCA 是最经典的降维方法。LDA 也可以降维但更侧重分类。

容器化 & 云平台 & 测试（166-200）

166

（　）不是云平台提供的优势或服务。

A.弹性计算资源

B.预配置的 AI/ML 服务

C.限制用户只能选择特定区域的数据中心

D.按需付费模式

答案 C

"限制"不是优势。云平台的卖点恰恰是全球多区域可选。

167

容器化技术的核心优势是（　）。

A.提供丰富的用户图形界面

B.需要占用大量系统资源

C.实现应用的快速部署和高效资源利用

D.主要用于网络安全防护

答案 C

容器 = 轻量级打包 + 一键部署。比虚拟机更省资源，比裸机部署更方便。

168

容器化与虚拟机的主要区别是（　）。

A.容器运行在 OS 之上，虚拟机运行在硬件之上

B.容器用轻量级隔离环境，虚拟机用完整操作系统

C.容器不支持多操作系统

D.容器不涉及硬件抽象

答案 B

容器共享宿主 OS 内核（轻量级隔离），虚拟机每个都带完整 OS（重量级隔离）。

169

大规模数据的分布式处理最适合（　）。

A.Pandas

B.NumPy

C.Apache Spark

D.Matplotlib

答案 C

Spark 专为大规模分布式数据处理设计。Pandas/NumPy 是单机库，Matplotlib 是画图库。

170

高性能计算资源主要关注（　）方面。

A.硬件设备的物理维护

B.算法的优化与调参

C.网络带宽的分配

D.操作系统的升级

答案 B

HPC 环境中训练师的核心工作是算法优化与调参，充分利用计算资源。

171

性能监控工具可以帮我们（　）系统性能瓶颈。

A.发现

B.解决

C.预测

D.优化

答案 A

监控工具"发现"瓶颈，"解决"和"优化"要靠人来操作。

172

识别软件边界条件的测试方法是（　）。

A.等价类划分法

B.边界值分析法

C.因果图法

D.决策表技术

答案 B

边界值分析 = 测试输入的边界情况（如最小值、最大值、刚好超出范围）。名字就是答案。

173

AI 测试的主要目的是（　）。

A.降低研发成本

B.提升算法计算速度

C.确保 AI 系统的功能和性能符合预期

D.增加数据输入量

答案 C

测试的目的就是验证"做出来的东西是不是符合预期"。

174

AI 测试工具的主要目的是（　）。

A.发现缺陷

B.提高代码质量

C.优化算法性能

D.降低开发成本

答案 A

测试工具的核心目的 = 找bug/发现缺陷。

175

使用测试框架时不推荐的操作是（　）。

A.频繁修改测试代码

B.在测试过程中查看日志

C.在测试之前编写详细的测试计划

D.在测试之后编写测试报告

答案 A

频繁修改测试代码 = 测试不稳定 = 不可靠。BCD 都是推荐的实践。

176

回归测试通常采用（　）方法。

A.自动化

B.手动

C.性能

D.兼容性

答案 A

回归测试 = 每次改代码后重新跑全部测试 → 必须自动化才有可行性。

177

实时系统中确保响应速度的关键指标是（　）。

A.模型的复杂度

B.训练时间

C.数据集大小

D.推理时间

答案 D

实时系统 → 用户等的是推理结果 → 推理时间（inference time）决定响应速度。训练时间是一次性的。

178

避免过拟合，将数据集划分为训练集和（　）。

A.验证集

B.测试集

C.开发集

D.学习集

答案 A

验证集用来监控训练过程中的过拟合（训练集 loss 在降但验证集 loss 在升 = 过拟合了）。

179

算法鲁棒性测试通常采用的方法是（　）。

A.边界值分析

B.等价类划分

C.因果图法

D.错误推测法

答案 A

鲁棒性 = 在极端/边界情况下是否还能正常工作 → 边界值分析。

180

算法安全性测试需要考虑（　）。

A.输入数据的合法性

B.算法的执行效率

C.算法的输出结果

D.算法的健壮性

答案 A

安全性测试的核心 = 检查恶意/非法输入会不会导致系统崩溃或被攻击。

181

可解释性测试中关注算法内部逻辑的方法是（　）。

A.基于模型

B.基于规则

C.基于数据

D.基于经验

答案 A

基于模型的方法直接分析模型内部结构和决策逻辑。

182

数据多样性与公平性测试中最重要的原则是（　）。

A.确保数据的全面性

B.关注数据的代表性

C.评估算法的公平性

D.保证数据的准确性

答案 C

题目问的是"公平性测试"→ 最重要的原则当然是评估算法的公平性。

183

K 折交叉验证中 K 的取值通常为（　）。

A.2

B.3

C.5

D.1

答案 C

5折和10折是最常用的。1折没有意义，2折太少。

184

算法部署之前进行的步骤是（　）。

A.数据收集与处理

B.模型训练与优化

C.算法部署

D.效果评估

答案 B

流程：数据准备 → 模型训练与优化 → 部署 → 效果评估。部署之前当然是训练。

185

用户反馈集成的主要目的是（　）。

A.减少测试用例数量

B.收集用户定量评价

C.利用用户的实际使用情况来评估和改进系统

D.将用户反馈作为训练的主要数据来源

答案 C

用户反馈 = 真实使用情况 → 用来评估和改进。不是替代训练数据（D×）。

186

评估预测值与实际值关系强度用什么统计量。

A.方差

B.相关系数

C.标准差

D.中位数

答案 B

相关系数（correlation coefficient）衡量两个变量之间的线性关系强度，范围 [-1, 1]。

187

测试报告中不是必须的是（　）。

A.测试用例的描述

B.测试结果的详细数据

C.测试环境的配置信息

D.开发者的个人感想

答案 D

测试报告是正式文档，不需要个人感想。ABC 都是标准组成部分。

188

查看异常详细信息使用（　）。

A.输出语句

B.日志记录

C.单元测试

D.调试器

答案 D

调试器（debugger）可以设置断点、单步执行、查看变量值 → 最详细的异常分析。

189

模型可视化工具的关键应用是（　）。

A.替代编码调试

B.帮助识别过拟合或欠拟合现象

C.代替数据预处理

D.生成随机数据

答案 B

如 TensorBoard 可视化训练/验证 loss 曲线，一看就知道是过拟合还是欠拟合。

190

日志分析中使用正则表达式的目的是（　）。

A.压缩日志文件

B.快速定位和提取日志中的特定模式或关键信息

C.将日志数据转换为另一种格式

D.创建日志数据的备份

答案 B

正则表达式 = 模式匹配利器，从大量日志中快速提取关键信息。

191

（　）工具可以帮助自动化测试过程。

A.代码编辑器

B.版本控制系统

C.测试框架

D.文档管理系统

答案 C

测试框架（如 pytest, JUnit）就是用来自动化运行测试的。

192

敏捷开发强调（　）。

A.频繁的代码审查和修复

B.长期的项目规划和执行

C.严格的需求分析和设计

D.定期的项目评审和反馈

答案 D

敏捷 = 快速迭代 + 持续反馈。D 最符合"快速响应变化并持续改进"。

193

合规性测试的标准不包括（　）。

A.符合法律法规要求

B.符合行业规范

C.符合公司内部政策

D.符合员工需求

答案 D

合规 = 法律 + 行业标准 + 公司政策。员工需求不属于合规范畴。

194

性能优化应遵循（　）原则。

A.先易后难

B.先难后易

C.一次性解决所有问题

D.逐步进行优化

答案 D

性能优化 = 度量 → 优化 → 再度量 → 再优化，是一个逐步迭代的过程。

195

企业平衡经济效益和伦理的方法是（　）。

A.以经济为主，伦理为辅

B.以伦理为重，经济为辅

C.寻找经济效益和伦理的最佳平衡点

D.直接追求经济最大化

答案 C

平衡 = 找平衡点。A/B/D 都是一边倒，只有 C 是真正的"平衡"。

196

数据拆解的主要目的是（　）。

A.增加数据的复杂性

B.简化数据分析过程

C.提高数据处理的效率

D.使数据更难以理解

答案 B

拆解 = 把复杂问题拆成简单部分 → 简化分析。AD 明显错误。

197

关于数据拆解模型原理，（　）说法不正确。

A.数据拆解可以提高模型训练效率

B.数据拆解无法帮助避免过拟合问题

C.数据拆解有助于更准确地评估模型性能

D.数据拆解能够减少运行时间和计算量

答案 B

数据拆解（如划分训练/验证集）恰好就是用来检测和避免过拟合的，说"无法帮助"是错误的。

198

训练集/验证集/测试集的常见合理比例是（　）。

A.50% / 25% / 25%

B.20% / 60% / 20%

C.70% / 15% / 15%

D.40% / 30% / 30%

答案 C

70/15/15 是经典比例。训练集需要占大头，验证和测试各占一小部分。B 中训练集只有20%太少。

199

PCA 在数据拆解中主要用于（　）。

A.增加数据的维度

B.降低数据维度，减少计算复杂度

C.保持数据维度不变

D.随机改变数据维度

答案 B

PCA = 降维。保留主要信息的同时减少维度，降低计算复杂度。

200

特征之间存在高度共线性时，最可能发生（　）。

A.特征的重要性会被低估

B.特征的重要性会被高估

C.特征选择将无法进行

D.特征之间的相关性将被忽略

答案 A

高度共线 = 多个特征说同样的信息 → 模型难以区分谁重要 → 各自的重要性被稀释/低估。

智能训练模块 · 单选题 106-200（关键词版）