智能训练模块 · 单选题 106-200(关键词版)

95 题 · 题干↔答案关键词连线 · 点击展开解析 · 点击已看标记完成
已看 0/95剩余 95
ML 基础 & 模型概念(106-117)
106
监督学习是( )。
A.通过已知数据进行模型训练,以预测新数据的类别或值
B.预测新数据的特征
C.预测新数据的分布
D.预测新数据的关联性
答案 A
监督学习的核心:用标签数据训练 → 预测未知数据的类别(分类)或值(回归)。
107
CNN 中( )层用于提取图像特征
A.卷积层
B.池化层
C.全连接层
D.激活层
答案 A
卷积层通过卷积核扫描图像提取局部特征(边缘、纹理等)。池化层负责降维,全连接层负责分类。
108
特征提取的主要方法之一是( )。
A.决策树
B.贝叶斯分类器
C.K-均值聚类
D.主成分分析
答案 D
PCA(主成分分析)是经典的特征提取/降维方法。A/B 是分类算法,C 是聚类算法。
109
( )策略可以帮助模型更快地收敛到最优解。
A.学习率调整
B.动量减速
C.梯度裁剪
D.早停法
答案 A
学习率(learning rate)直接决定每步更新的幅度,调整它是最直接影响收敛速度的手段。
110
过滤法通常基于( )准则来选择特征。
A.信息增益
B.相关性系数
C.方差阈值
D.互信息
答案 B
过滤法最常用的就是计算特征与目标变量之间的相关性系数。ACD 也是过滤法的指标,但相关性系数是最基础的准则。
111
( )是一种常见的图像变换技术,可以改变图像的大小和形状
A.裁剪
B.缩放
C.旋转
D.平移
答案 B
缩放(scaling)直接改变图像的大小。裁剪是截取局部,旋转改变角度,平移改变位置。
112
数据分片中,( )用来决定如何将数据分割到各个分片。
A.主键
B.外键
C.分区键
D.唯一键
答案 C
分区键(partition key)就是专门用来决定数据分配到哪个分片的字段。
113
自动标注方法是指利用( )技术对数据进行自动标注。
A.计算机程序
B.机器学习算法
C.数据挖掘技术
D.自动化
答案 B
自动标注的核心是利用已有的机器学习模型来预测标签。
114
召回率 Recall 的计算方法是( )。
A.真正例数 / (真正例数 + 假负例数)
B.假正例数 / (真正例数 + 假负例数)
C.正确预测的样本数 / 总样本数
D.错误预测的样本数 / 总样本数
答案 A
Recall = TP / (TP + FN),即"实际为正的样本中,被正确识别出来的比例"。C 是 Accuracy。
115
评估分类模型的准确性通常使用( )指标。
A.均方误差
B.准确率
C.均方根误差
D.对数损失
答案 B
分类模型 → 准确率(Accuracy)。MSE/RMSE 用于回归问题。
116
快速原型设计和实验,( )机器学习库更适合。
A.TensorFlow
B.PyTorch
C.Scikit-learn
D.Keras
答案 D
Keras 的设计理念就是"以最少的延迟从想法到结果",专为快速原型设计而生。
117
NumPy 库的优势在于其高效的( )。
A.数组计算
B.字符串处理
C.图形绘制
D.数据库连接
答案 A
NumPy = Numerical Python,核心是 ndarray 多维数组的高效计算。
数据收集 & 标注(118-120, 139-142, 147-149, 154)
118
( )方法适用于收集结构化数据
A.问卷调查
B.访谈
C.观察法
D.实验法
答案 A
问卷有固定选项和格式,天然产出结构化数据。访谈/观察产出的是非结构化数据。
119
自动化标注中,利用( )机制来不断优化标注能力。
A.随机猜测
B.专家系统
C.机器学习
D.手动校验
答案 C
自动标注系统通过机器学习模型不断从反馈中学习,优化自身标注能力。
120
( )工具库主要用于数据的加载和预处理
A.NumPy
B.Pandas
C.Matplotlib
D.Scikit-learn
答案 B
Pandas 提供 read_csv/read_excel 等数据加载和清洗预处理功能,是数据加载预处理首选。
139
选择数据标注工具时,应该权衡( )。
A.准确性、易用性、成本
B.准确性、易用性、速度
C.准确性、成本、速度
D.易用性、成本、速度
答案 A
选择标注工具的三大要素:标注是否准确、好不好用、贵不贵。
140
数据标注技术的目的是( )。
A.提高数据质量
B.降低数据成本
C.优化数据结构
D.简化数据处理流程
答案 A
标注 = 给数据打标签,让模型能学习。核心目的就是提高训练数据的质量。
141
确保泛化能力,数据集通常划分为( )。
A.40% / 30% / 30%
B.80% / 10% / 10%
C.40% / 40% / 20%
D.30% / 50% / 20%
答案 B
80%训练 / 10%验证 / 10%测试 是最经典的划分比例。你实操用的 test_size=0.2 就是这个。
142
自动化标注能够显著降低( )成本。
A.数据收集
B.数据存储
C.数据标注
D.数据传输
答案 C
自动标注 → 减少人工标注工作量 → 降低标注成本。题干已经告诉你了。
147
( )是一种常用的图像读取方法,可以从文件中提取像素数据。
A.图像编码
B.图像解码
C.图像压缩
D.图像解压缩
答案 B
图像文件是编码后的数据,读取时需要解码才能提取像素。你实操用的 Image.open() 就是解码过程。
148
文本类数据标注过程步骤中,( )是不需要的。
A.对数据进行分词
B.构建词典
C.进行情感分析
D.标记实体
答案 C
情感分析是具体任务,不是所有文本标注都需要。分词、构建词典、标记实体是通用的文本标注步骤。
149
视觉类数据制定规范的目的是( )。
A.增加数据集的多样性
B.保证训练模型时的数据处理一致性和数据质量
C.减少数据存储的空间需求
D.加快数据处理的速度
答案 B
制定规范的目的是统一标准 → 一致性 → 数据质量。
154
对图像中多个对象进行精确边界框绘制时,通常使用( )标注工具。
A.多边形标注工具
B.点云标注工具
C.目标检测标注工具
D.关键点标注工具
答案 C
边界框(bounding box)= 目标检测标注的标配。多边形用于轮廓,点云用于3D,关键点用于姿态估计。
模型训练 & 评估 & 部署(121-127, 150-165)
121
深度学习中防止过拟合的方法是( )。
A.仅使用一层隐藏层
B.增加模型的复杂度
C.应用早停技术
D.减少训练数据量
答案 C
早停(Early Stopping)= 验证集loss不再下降时停止训练。BD 反而会加重问题。
122
交叉验证的主要目的是( )。
A.提高模型的训练速度
B.减少模型的复杂性
C.增加模型的预测准确性
D.评估模型的泛化能力
答案 D
交叉验证 = 多次划分数据集来评估模型,核心目的是评估泛化能力,不是直接提高准确性。
123
模型训练自动化工具中,( )是通过自动化迭代优化模型性能。
A.模型评估
B.模型训练
C.特征工程
D.数据清洗
答案 B
迭代优化模型 = 模型训练本身在做的事(不断调整参数最小化损失)。
124
( )主要用于实时收集和分析日志数据。
A.Apache Hadoop
B.ELK Stack
C.TensorFlow
D.PyTorch
答案 B
ELK = Elasticsearch + Logstash + Kibana,日志实时收集分析的标配。Hadoop 是离线批处理。
125
GAN 中的生成器通常使用( )类型的神经网络。
A.卷积神经网络
B.循环神经网络
C.自编码器
D.生成对抗网络
答案 A
GAN 中生成器用反卷积(转置卷积)CNN 生成图像,判别器也用 CNN。DCGAN 就是全卷积的 GAN。
126
使用 Python 或 R 的主要原因是( )。
A.提供了丰富的库和框架,专门用于数据处理和机器学习
B.不需要编程知识
C.唯一能做数据处理的语言
D.处理速度最快
答案 A
Python 有 pandas/sklearn/numpy/tensorflow 等生态,R 有 ggplot2/caret 等。核心优势是库丰富。
127
( )不是模型部署工具的使用方法。
A.选择合适的部署环境
B.将模型文件上传到部署环境中
C.编写测试代码来验证模型的准确性
D.对模型进行微调以提高性能
答案 D
微调模型是训练阶段的事,不是部署阶段的事。部署是把已训练好的模型放到生产环境。
150
( )不属于模型选择过程
A.了解不同模型的优缺点
B.根据任务需求选择合适的模型
C.对模型进行调参优化
D.对模型进行评估和比较
答案 C
调参是选完模型之后的优化步骤,不属于"选择"过程本身。
151
提高模型准确性的划分方法是( )。
A.随机划分
B.按比例划分
C.分层划分
D.交叉验证
答案 C
分层划分(stratified split)确保各类别比例在训练/测试集一致,避免数据不平衡导致的偏差。
155
模型训练的目标是( )。
A.最大化模型准确率
B.最小化模型损失
C.最大化模型泛化能力
D.最小化模型复杂度
答案 B
训练 = 不断调整参数使损失函数(loss function)最小化。这是优化问题的数学定义。
156
线性规划用于求解( )问题。
A.线性
B.非线性
C.
D.离散
答案 A
线性规划 = 线性目标函数 + 线性约束。名字已经告诉你了。
157
高效训练大规模数据集,( )软件组件最关键。
A.数据库管理系统
B.版本控制系统
C.分布式训练框架
D.集成开发环境
答案 C
大规模数据 → 必须分布式 → 分布式训练框架(如 TensorFlow/PyTorch 的分布式模块)。
158
大规模分布式训练,( )框架提供较成熟的支持。
A.TensorFlow
B.PyTorch
C.MXNet
D.Chainer
答案 A
TensorFlow 的分布式训练(TF Distributed)是最早成熟的工业级分布式训练方案。
159
算法验证的形式化方法包括模型检验和( )。
A.形式化描述
B.逻辑推理
C.代码审查
D.测试用例
答案 A
形式化方法 = 形式化描述(formal specification)+ 模型检验(model checking)。
160
超参数调优中通常使用( )来评估模型性能。
A.交叉验证
B.网格搜索
C.随机搜索
D.贝叶斯优化
答案 A
网格搜索/随机搜索/贝叶斯优化是搜索策略,交叉验证才是"评估性能"的方法。
161
( )不是模型训练动态监控工具的典型功能。
A.提供训练损失和验证损失的实时图表
B.检测并报告过拟合或欠拟合现象
C.自动调整模型参数以优化性能
D.允许用户远程访问和操作训练环境
答案 C
监控工具只"看"不"动"——自动调整参数是自动调参工具的事,监控工具只负责展示和报警。
162
解决模型性能不佳问题,推荐( )。
A.立即增加模型参数数量
B.检查训练数据质量,确保没有错误或偏差
C.忽略验证集,只关注训练集准确率
D.停止训练
答案 B
数据质量是一切的根基。"Garbage in, garbage out" —— 先查数据再调模型。
163
( )不是常用的 ML 评价指标。
A.准确率 Accuracy
B.精确率 Precision
C.召回率 Recall
D.运行时间 Run Time
答案 D
ABC 是标准ML评价指标。运行时间不是模型"预测质量"的评价指标。
164
关于模型部署描述正确的是( )。
A.只需要考虑技术因素
B.是一次性完成的过程
C.需要确保模型的安全性和隐私性
D.不需要考虑用户体验
答案 C
部署不是只管技术(A×),不是一次性(B×),必须考虑安全和隐私。D 明显错误。
165
自动化模型更新和版本管理通常使用( )工具。
A.Git
B.SVN
C.Jenkins
D.Spinnaker
答案 C
Jenkins 是最主流的 CI/CD 工具,自动化构建/测试/部署流水线。
数据预处理(128-138, 143-146, 152-153)
128
数据探索分析的结果通常用于支持( )决策。
A.业务策略制定
B.产品研发
C.市场推广
D.客户关系管理
答案 A
数据探索分析(EDA)的最终目的是帮助制定业务策略。
129
( )可以帮助我们更好地理解数据的结构和特点
A.数据可视化
B.统计分析
C.数据挖掘
D.机器学习
答案 A
"理解数据的结构和特点" → 一图胜千言,数据可视化最直观。
130
缺失数据处理中,( )适用于存在大量相似观测值的情况。
A.删除法
B.填充法
C.插值法
D.替换法
答案 B
大量相似观测值 → 可以用均值/中位数等统计量填充缺失值。
131
分类数据的缺失值可以用( )处理。
A.删除法
B.均值填充
C.中位数填充
D.众数填充
答案 D
分类数据 = 类别型(如"红/蓝/绿")→ 用众数(出现最多的值)填充。均值/中位数只适用于数值型。
132
箱线图法在异常值检测中的作用是( )。
A.确定数据的分布范围
B.识别数据中的异常值
C.评估数据的离散程度
D.判断数据的集中趋势
答案 B
箱线图中超出上下须(1.5×IQR)的点就是异常值。这题在问"异常值检测中的作用",直接选 B。
133
Z-score 方法是一种基于( )的异常值检测方法。
A.最大值
B.中位数
C.众数
D.标准差
答案 D
Z-score = (x - μ) / σ,σ 就是标准差。|Z| > 3 通常认为是异常值。
134
消除信号中平稳随机噪声主要用( )。
A.滤波法
B.变换法
C.统计法
D.模型法
答案 A
滤波(如均值滤波、中值滤波)是消除噪声的经典方法。
135
位图法在数据去重中通过( )。
A.比较每个数据与已有数据的相似度
B.记录每个数据是否出现过
C.对数据进行排序
D.对数据进行压缩
答案 B
位图(bitmap):每个bit位标记某个值是否出现过,1=出现过,0=没出现过。
136
数据归一化处理的定义是( )。
A.将所有值转换为相同的格式
B.将所有值缩放到 0 到 1 之间
C.将所有值增加到最大可能值
D.将所有值减少到最小可能值
答案 B
归一化(Normalization)= Min-Max Scaling,公式:(x - min) / (max - min),结果在 [0,1]。你实操用的 StandardScaler 是标准化(Z-score),概念不同但同属数据缩放。
137
数据白化处理的主要目的是( )。
A.提高数据的准确性
B.减少数据的冗余
C.增强数据的可读性
D.保护数据的隐私
答案 B
白化 = 让数据各维度方差为1且互不相关 → 消除特征间冗余。
139
选择数据标注工具时,应该权衡( )。
A.准确性、易用性、成本
B.准确性、易用性、速度
C.准确性、成本、速度
D.易用性、成本、速度
答案 A
选择标注工具的三大要素:标注是否准确、好不好用、贵不贵。
140
数据标注技术的目的是( )。
A.提高数据质量
B.降低数据成本
C.优化数据结构
D.简化数据处理流程
答案 A
标注 = 给数据打标签,让模型能学习。核心目的就是提高训练数据的质量。
141
确保泛化能力,数据集通常划分为( )。
A.40% / 30% / 30%
B.80% / 10% / 10%
C.40% / 40% / 20%
D.30% / 50% / 20%
答案 B
80%训练 / 10%验证 / 10%测试 是最经典的划分比例。你实操用的 test_size=0.2 就是这个。
142
自动化标注能够显著降低( )成本。
A.数据收集
B.数据存储
C.数据标注
D.数据传输
答案 C
自动标注 → 减少人工标注工作量 → 降低标注成本。题干已经告诉你了。
147
( )是一种常用的图像读取方法,可以从文件中提取像素数据。
A.图像编码
B.图像解码
C.图像压缩
D.图像解压缩
答案 B
图像文件是编码后的数据,读取时需要解码才能提取像素。你实操用的 Image.open() 就是解码过程。
148
文本类数据标注过程步骤中,( )是不需要的。
A.对数据进行分词
B.构建词典
C.进行情感分析
D.标记实体
答案 C
情感分析是具体任务,不是所有文本标注都需要。分词、构建词典、标记实体是通用的文本标注步骤。
149
视觉类数据制定规范的目的是( )。
A.增加数据集的多样性
B.保证训练模型时的数据处理一致性和数据质量
C.减少数据存储的空间需求
D.加快数据处理的速度
答案 B
制定规范的目的是统一标准 → 一致性 → 数据质量。
154
对图像中多个对象进行精确边界框绘制时,通常使用( )标注工具。
A.多边形标注工具
B.点云标注工具
C.目标检测标注工具
D.关键点标注工具
答案 C
边界框(bounding box)= 目标检测标注的标配。多边形用于轮廓,点云用于3D,关键点用于姿态估计。
模型训练 & 评估 & 部署(121-127, 150-165)
121
深度学习中防止过拟合的方法是( )。
A.仅使用一层隐藏层
B.增加模型的复杂度
C.应用早停技术
D.减少训练数据量
答案 C
早停(Early Stopping)= 验证集loss不再下降时停止训练。BD 反而会加重问题。
122
交叉验证的主要目的是( )。
A.提高模型的训练速度
B.减少模型的复杂性
C.增加模型的预测准确性
D.评估模型的泛化能力
答案 D
交叉验证 = 多次划分数据集来评估模型,核心目的是评估泛化能力,不是直接提高准确性。
123
模型训练自动化工具中,( )是通过自动化迭代优化模型性能。
A.模型评估
B.模型训练
C.特征工程
D.数据清洗
答案 B
迭代优化模型 = 模型训练本身在做的事(不断调整参数最小化损失)。
124
( )主要用于实时收集和分析日志数据。
A.Apache Hadoop
B.ELK Stack
C.TensorFlow
D.PyTorch
答案 B
ELK = Elasticsearch + Logstash + Kibana,日志实时收集分析的标配。Hadoop 是离线批处理。
125
GAN 中的生成器通常使用( )类型的神经网络。
A.卷积神经网络
B.循环神经网络
C.自编码器
D.生成对抗网络
答案 A
GAN 中生成器用反卷积(转置卷积)CNN 生成图像,判别器也用 CNN。DCGAN 就是全卷积的 GAN。
126
使用 Python 或 R 的主要原因是( )。
A.提供了丰富的库和框架,专门用于数据处理和机器学习
B.不需要编程知识
C.唯一能做数据处理的语言
D.处理速度最快
答案 A
Python 有 pandas/sklearn/numpy/tensorflow 等生态,R 有 ggplot2/caret 等。核心优势是库丰富。
127
( )不是模型部署工具的使用方法。
A.选择合适的部署环境
B.将模型文件上传到部署环境中
C.编写测试代码来验证模型的准确性
D.对模型进行微调以提高性能
答案 D
微调模型是训练阶段的事,不是部署阶段的事。部署是把已训练好的模型放到生产环境。
150
( )不属于模型选择过程。
A.了解不同模型的优缺点
B.根据任务需求选择合适的模型
C.对模型进行调参优化
D.对模型进行评估和比较
答案 C
调参是选完模型之后的优化步骤,不属于"选择"过程本身。
151
提高模型准确性的划分方法是( )。
A.随机划分
B.按比例划分
C.分层划分
D.交叉验证
答案 C
分层划分(stratified split)确保各类别比例在训练/测试集一致,避免数据不平衡导致的偏差。
155
模型训练的目标是( )。
A.最大化模型准确率
B.最小化模型损失
C.最大化模型泛化能力
D.最小化模型复杂度
答案 B
训练 = 不断调整参数使损失函数(loss function)最小化。这是优化问题的数学定义。
156
线性规划用于求解( )问题。
A.线性
B.非线性
C.
D.离散
答案 A
线性规划 = 线性目标函数 + 线性约束。名字已经告诉你了。
157
高效训练大规模数据集,( )软件组件最关键。
A.数据库管理系统
B.版本控制系统
C.分布式训练框架
D.集成开发环境
答案 C
大规模数据 → 必须分布式 → 分布式训练框架(如 TensorFlow/PyTorch 的分布式模块)。
158
大规模分布式训练,( )框架提供较成熟的支持。
A.TensorFlow
B.PyTorch
C.MXNet
D.Chainer
答案 A
TensorFlow 的分布式训练(TF Distributed)是最早成熟的工业级分布式训练方案。
159
算法验证的形式化方法包括模型检验和( )。
A.形式化描述
B.逻辑推理
C.代码审查
D.测试用例
答案 A
形式化方法 = 形式化描述(formal specification)+ 模型检验(model checking)。
160
超参数调优中通常使用( )来评估模型性能。
A.交叉验证
B.网格搜索
C.随机搜索
D.贝叶斯优化
答案 A
网格搜索/随机搜索/贝叶斯优化是搜索策略,交叉验证才是"评估性能"的方法。
161
( )不是模型训练动态监控工具的典型功能。
A.提供训练损失和验证损失的实时图表
B.检测并报告过拟合或欠拟合现象
C.自动调整模型参数以优化性能
D.允许用户远程访问和操作训练环境
答案 C
监控工具只"看"不"动"——自动调整参数是自动调参工具的事,监控工具只负责展示和报警。
162
解决模型性能不佳问题,推荐( )。
A.立即增加模型参数数量
B.检查训练数据质量,确保没有错误或偏差
C.忽略验证集,只关注训练集准确率
D.停止训练
答案 B
数据质量是一切的根基。"Garbage in, garbage out" —— 先查数据再调模型。
163
( )不是常用的 ML 评价指标。
A.准确率 Accuracy
B.精确率 Precision
C.召回率 Recall
D.运行时间 Run Time
答案 D
ABC 是标准ML评价指标。运行时间不是模型"预测质量"的评价指标。
164
关于模型部署描述正确的是( )。
A.只需要考虑技术因素
B.是一次性完成的过程
C.需要确保模型的安全性和隐私性
D.不需要考虑用户体验
答案 C
部署不是只管技术(A×),不是一次性(B×),必须考虑安全和隐私。D 明显错误。
165
自动化模型更新和版本管理通常使用( )工具。
A.Git
B.SVN
C.Jenkins
D.Spinnaker
答案 C
Jenkins 是最主流的 CI/CD 工具,自动化构建/测试/部署流水线。
数据预处理(128-138, 143-146, 152-153)
128
数据探索分析的结果通常用于支持( )决策。
A.业务策略制定
B.产品研发
C.市场推广
D.客户关系管理
答案 A
数据探索分析(EDA)的最终目的是帮助制定业务策略。
129
( )可以帮助我们更好地理解数据的结构和特点
A.数据可视化
B.统计分析
C.数据挖掘
D.机器学习
答案 A
"理解数据的结构和特点" → 一图胜千言,数据可视化最直观。
130
缺失数据处理中,( )适用于存在大量相似观测值的情况。
A.删除法
B.填充法
C.插值法
D.替换法
答案 B
大量相似观测值 → 可以用均值/中位数等统计量填充缺失值。
131
分类数据的缺失值可以用( )处理。
A.删除法
B.均值填充
C.中位数填充
D.众数填充
答案 D
分类数据 = 类别型(如"红/蓝/绿")→ 用众数(出现最多的值)填充。均值/中位数只适用于数值型。
132
箱线图法在异常值检测中的作用是( )。
A.确定数据的分布范围
B.识别数据中的异常值
C.评估数据的离散程度
D.判断数据的集中趋势
答案 B
箱线图中超出上下须(1.5×IQR)的点就是异常值。这题在问"异常值检测中的作用",直接选 B。
133
Z-score 方法是一种基于( )的异常值检测方法。
A.最大值
B.中位数
C.众数
D.标准差
答案 D
Z-score = (x - μ) / σ,σ 就是标准差。|Z| > 3 通常认为是异常值。
134
消除信号中平稳随机噪声主要用( )。
A.滤波法
B.变换法
C.统计法
D.模型法
答案 A
滤波(如均值滤波、中值滤波)是消除噪声的经典方法。
135
位图法在数据去重中通过( )。
A.比较每个数据与已有数据的相似度
B.记录每个数据是否出现过
C.对数据进行排序
D.对数据进行压缩
答案 B
位图(bitmap):每个bit位标记某个值是否出现过,1=出现过,0=没出现过。
136
数据归一化处理的定义是( )。
A.将所有值转换为相同的格式
B.将所有值缩放到 0 到 1 之间
C.将所有值增加到最大可能值
D.将所有值减少到最小可能值
答案 B
归一化(Normalization)= Min-Max Scaling,公式:(x - min) / (max - min),结果在 [0,1]。你实操用的 StandardScaler 是标准化(Z-score),概念不同但同属数据缩放。
137
数据白化处理的主要目的是( )。
A.提高数据的准确性
B.减少数据的冗余
C.增强数据的可读性
D.保护数据的隐私
答案 B
白化 = 让数据各维度方差为1且互不相关 → 消除特征间冗余。
138
特征工程通常需要对数据进行( )。
A.数据清洗
B.数据集成
C.数据变换
D.数据划分
答案 C
特征工程的核心是数据变换(标准化、编码、构造新特征等),让数据更适合模型学习。
143
分布式数据处理的优势主要得益于( )。
A.负载均衡技术
B.数据压缩技术
C.数据缓存技术
D.数据加密技术
答案 A
分布式 = 把任务分给多台机器 → 负载均衡让各机器均衡地处理任务。
144
确保数据可追溯性,数据管理流程包括数据的( )、存储、传输和销毁。
A.创建
B.收集
C.分析
D.应用
答案 B
数据生命周期:收集 → 存储 → 传输 → 销毁。收集是第一步。
145
数据可追溯性的主要目的是( )。
A.提高数据处理速度
B.减少数据存储成本
C.确保数据来源和修改历史的透明度
D.增加数据的复杂性
答案 C
可追溯 = 能追踪"数据从哪来、经过了什么处理"。核心就是透明度。
147
( )是一种常用的图像读取方法,可以从文件中提取像素数据。
A.图像编码
B.图像解码
C.图像压缩
D.图像解压缩
答案 B
图像文件是编码后的数据,读取时需要解码才能提取像素。你实操用的 Image.open() 就是解码过程。
148
文本类数据标注过程步骤中,( )是不需要的。
A.对数据进行分词
B.构建词典
C.进行情感分析
D.标记实体
答案 C
情感分析是具体任务,不是所有文本标注都需要。分词、构建词典、标记实体是通用的文本标注步骤。
149
视觉类数据制定规范的目的是( )。
A.增加数据集的多样性
B.保证训练模型时的数据处理一致性和数据质量
C.减少数据存储的空间需求
D.加快数据处理的速度
答案 B
制定规范的目的是统一标准 → 一致性 → 数据质量。
154
对图像中多个对象进行精确边界框绘制时,通常使用( )标注工具。
A.多边形标注工具
B.点云标注工具
C.目标检测标注工具
D.关键点标注工具
答案 C
边界框(bounding box)= 目标检测标注的标配。多边形用于轮廓,点云用于3D,关键点用于姿态估计。
模型训练 & 评估 & 部署(121-127, 150-165)
121
深度学习中防止过拟合的方法是( )。
A.仅使用一层隐藏层
B.增加模型的复杂度
C.应用早停技术
D.减少训练数据量
答案 C
早停(Early Stopping)= 验证集loss不再下降时停止训练。BD 反而会加重问题。
122
交叉验证的主要目的是( )。
A.提高模型的训练速度
B.减少模型的复杂性
C.增加模型的预测准确性
D.评估模型的泛化能力
答案 D
交叉验证 = 多次划分数据集来评估模型,核心目的是评估泛化能力,不是直接提高准确性。
123
模型训练自动化工具中,( )是通过自动化迭代优化模型性能。
A.模型评估
B.模型训练
C.特征工程
D.数据清洗
答案 B
迭代优化模型 = 模型训练本身在做的事(不断调整参数最小化损失)。
124
( )主要用于实时收集和分析日志数据。
A.Apache Hadoop
B.ELK Stack
C.TensorFlow
D.PyTorch
答案 B
ELK = Elasticsearch + Logstash + Kibana,日志实时收集分析的标配。Hadoop 是离线批处理。
125
GAN 中的生成器通常使用( )类型的神经网络。
A.卷积神经网络
B.循环神经网络
C.自编码器
D.生成对抗网络
答案 A
GAN 中生成器用反卷积(转置卷积)CNN 生成图像,判别器也用 CNN。DCGAN 就是全卷积的 GAN。
126
使用 Python 或 R 的主要原因是( )。
A.提供了丰富的库和框架,专门用于数据处理和机器学习
B.不需要编程知识
C.唯一能做数据处理的语言
D.处理速度最快
答案 A
Python 有 pandas/sklearn/numpy/tensorflow 等生态,R 有 ggplot2/caret 等。核心优势是库丰富。
127
( )不是模型部署工具的使用方法。
A.选择合适的部署环境
B.将模型文件上传到部署环境中
C.编写测试代码来验证模型的准确性
D.对模型进行微调以提高性能
答案 D
微调模型是训练阶段的事,不是部署阶段的事。部署是把已训练好的模型放到生产环境。
150
( )不属于模型选择过程。
A.了解不同模型的优缺点
B.根据任务需求选择合适的模型
C.对模型进行调参优化
D.对模型进行评估和比较
答案 C
调参是选完模型之后的优化步骤,不属于"选择"过程本身。
151
提高模型准确性的划分方法是( )。
A.随机划分
B.按比例划分
C.分层划分
D.交叉验证
答案 C
分层划分(stratified split)确保各类别比例在训练/测试集一致,避免数据不平衡导致的偏差。
155
模型训练的目标是( )。
A.最大化模型准确率
B.最小化模型损失
C.最大化模型泛化能力
D.最小化模型复杂度
答案 B
训练 = 不断调整参数使损失函数(loss function)最小化。这是优化问题的数学定义。
156
线性规划用于求解( )问题。
A.线性
B.非线性
C.
D.离散
答案 A
线性规划 = 线性目标函数 + 线性约束。名字已经告诉你了。
157
高效训练大规模数据集,( )软件组件最关键。
A.数据库管理系统
B.版本控制系统
C.分布式训练框架
D.集成开发环境
答案 C
大规模数据 → 必须分布式 → 分布式训练框架(如 TensorFlow/PyTorch 的分布式模块)。
158
大规模分布式训练,( )框架提供较成熟的支持。
A.TensorFlow
B.PyTorch
C.MXNet
D.Chainer
答案 A
TensorFlow 的分布式训练(TF Distributed)是最早成熟的工业级分布式训练方案。
159
算法验证的形式化方法包括模型检验和( )。
A.形式化描述
B.逻辑推理
C.代码审查
D.测试用例
答案 A
形式化方法 = 形式化描述(formal specification)+ 模型检验(model checking)。
160
超参数调优中通常使用( )来评估模型性能。
A.交叉验证
B.网格搜索
C.随机搜索
D.贝叶斯优化
答案 A
网格搜索/随机搜索/贝叶斯优化是搜索策略,交叉验证才是"评估性能"的方法。
161
( )不是模型训练动态监控工具的典型功能。
A.提供训练损失和验证损失的实时图表
B.检测并报告过拟合或欠拟合现象
C.自动调整模型参数以优化性能
D.允许用户远程访问和操作训练环境
答案 C
监控工具只"看"不"动"——自动调整参数是自动调参工具的事,监控工具只负责展示和报警。
162
解决模型性能不佳问题,推荐( )。
A.立即增加模型参数数量
B.检查训练数据质量,确保没有错误或偏差
C.忽略验证集,只关注训练集准确率
D.停止训练
答案 B
数据质量是一切的根基。"Garbage in, garbage out" —— 先查数据再调模型。
163
( )不是常用的 ML 评价指标。
A.准确率 Accuracy
B.精确率 Precision
C.召回率 Recall
D.运行时间 Run Time
答案 D
ABC 是标准ML评价指标。运行时间不是模型"预测质量"的评价指标。
164
关于模型部署描述正确的是( )。
A.只需要考虑技术因素
B.是一次性完成的过程
C.需要确保模型的安全性和隐私性
D.不需要考虑用户体验
答案 C
部署不是只管技术(A×),不是一次性(B×),必须考虑安全和隐私。D 明显错误。
165
自动化模型更新和版本管理通常使用( )工具。
A.Git
B.SVN
C.Jenkins
D.Spinnaker
答案 C
Jenkins 是最主流的 CI/CD 工具,自动化构建/测试/部署流水线。
数据预处理(128-138, 143-146, 152-153)
128
数据探索分析的结果通常用于支持( )决策。
A.业务策略制定
B.产品研发
C.市场推广
D.客户关系管理
答案 A
数据探索分析(EDA)的最终目的是帮助制定业务策略。
129
( )可以帮助我们更好地理解数据的结构和特点
A.数据可视化
B.统计分析
C.数据挖掘
D.机器学习
答案 A
"理解数据的结构和特点" → 一图胜千言,数据可视化最直观。
130
缺失数据处理中,( )适用于存在大量相似观测值的情况。
A.删除法
B.填充法
C.插值法
D.替换法
答案 B
大量相似观测值 → 可以用均值/中位数等统计量填充缺失值。
131
分类数据的缺失值可以用( )处理。
A.删除法
B.均值填充
C.中位数填充
D.众数填充
答案 D
分类数据 = 类别型(如"红/蓝/绿")→ 用众数(出现最多的值)填充。均值/中位数只适用于数值型。
132
箱线图法在异常值检测中的作用是( )。
A.确定数据的分布范围
B.识别数据中的异常值
C.评估数据的离散程度
D.判断数据的集中趋势
答案 B
箱线图中超出上下须(1.5×IQR)的点就是异常值。这题在问"异常值检测中的作用",直接选 B。
133
Z-score 方法是一种基于( )的异常值检测方法。
A.最大值
B.中位数
C.众数
D.标准差
答案 D
Z-score = (x - μ) / σ,σ 就是标准差。|Z| > 3 通常认为是异常值。
134
消除信号中平稳随机噪声主要用( )。
A.滤波法
B.变换法
C.统计法
D.模型法
答案 A
滤波(如均值滤波、中值滤波)是消除噪声的经典方法。
135
位图法在数据去重中通过( )。
A.比较每个数据与已有数据的相似度
B.记录每个数据是否出现过
C.对数据进行排序
D.对数据进行压缩
答案 B
位图(bitmap):每个bit位标记某个值是否出现过,1=出现过,0=没出现过。
136
数据归一化处理的定义是( )。
A.将所有值转换为相同的格式
B.将所有值缩放到 0 到 1 之间
C.将所有值增加到最大可能值
D.将所有值减少到最小可能值
答案 B
归一化(Normalization)= Min-Max Scaling,公式:(x - min) / (max - min),结果在 [0,1]。你实操用的 StandardScaler 是标准化(Z-score),概念不同但同属数据缩放。
137
数据白化处理的主要目的是( )。
A.提高数据的准确性
B.减少数据的冗余
C.增强数据的可读性
D.保护数据的隐私
答案 B
白化 = 让数据各维度方差为1且互不相关 → 消除特征间冗余。
139
选择数据标注工具时,应该权衡( )。
A.准确性、易用性、成本
B.准确性、易用性、速度
C.准确性、成本、速度
D.易用性、成本、速度
答案 A
选择标注工具的三大要素:标注是否准确、好不好用、贵不贵。
140
数据标注技术的目的是( )。
A.提高数据质量
B.降低数据成本
C.优化数据结构
D.简化数据处理流程
答案 A
标注 = 给数据打标签,让模型能学习。核心目的就是提高训练数据的质量。
141
确保泛化能力,数据集通常划分为( )。
A.40% / 30% / 30%
B.80% / 10% / 10%
C.40% / 40% / 20%
D.30% / 50% / 20%
答案 B
80%训练 / 10%验证 / 10%测试 是最经典的划分比例。你实操用的 test_size=0.2 就是这个。
142
自动化标注能够显著降低( )成本。
A.数据收集
B.数据存储
C.数据标注
D.数据传输
答案 C
自动标注 → 减少人工标注工作量 → 降低标注成本。题干已经告诉你了。
147
( )是一种常用的图像读取方法,可以从文件中提取像素数据。
A.图像编码
B.图像解码
C.图像压缩
D.图像解压缩
答案 B
图像文件是编码后的数据,读取时需要解码才能提取像素。你实操用的 Image.open() 就是解码过程。
148
文本类数据标注过程步骤中,( )是不需要的。
A.对数据进行分词
B.构建词典
C.进行情感分析
D.标记实体
答案 C
情感分析是具体任务,不是所有文本标注都需要。分词、构建词典、标记实体是通用的文本标注步骤。
149
视觉类数据制定规范的目的是( )。
A.增加数据集的多样性
B.保证训练模型时的数据处理一致性和数据质量
C.减少数据存储的空间需求
D.加快数据处理的速度
答案 B
制定规范的目的是统一标准 → 一致性 → 数据质量。
154
对图像中多个对象进行精确边界框绘制时,通常使用( )标注工具。
A.多边形标注工具
B.点云标注工具
C.目标检测标注工具
D.关键点标注工具
答案 C
边界框(bounding box)= 目标检测标注的标配。多边形用于轮廓,点云用于3D,关键点用于姿态估计。
模型训练 & 评估 & 部署(121-127, 150-165)
121
深度学习中防止过拟合的方法是( )。
A.仅使用一层隐藏层
B.增加模型的复杂度
C.应用早停技术
D.减少训练数据量
答案 C
早停(Early Stopping)= 验证集loss不再下降时停止训练。BD 反而会加重问题。
122
交叉验证的主要目的是( )。
A.提高模型的训练速度
B.减少模型的复杂性
C.增加模型的预测准确性
D.评估模型的泛化能力
答案 D
交叉验证 = 多次划分数据集来评估模型,核心目的是评估泛化能力,不是直接提高准确性。
123
模型训练自动化工具中,( )是通过自动化迭代优化模型性能。
A.模型评估
B.模型训练
C.特征工程
D.数据清洗
答案 B
迭代优化模型 = 模型训练本身在做的事(不断调整参数最小化损失)。
124
( )主要用于实时收集和分析日志数据。
A.Apache Hadoop
B.ELK Stack
C.TensorFlow
D.PyTorch
答案 B
ELK = Elasticsearch + Logstash + Kibana,日志实时收集分析的标配。Hadoop 是离线批处理。
125
GAN 中的生成器通常使用( )类型的神经网络。
A.卷积神经网络
B.循环神经网络
C.自编码器
D.生成对抗网络
答案 A
GAN 中生成器用反卷积(转置卷积)CNN 生成图像,判别器也用 CNN。DCGAN 就是全卷积的 GAN。
126
使用 Python 或 R 的主要原因是( )。
A.提供了丰富的库和框架,专门用于数据处理和机器学习
B.不需要编程知识
C.唯一能做数据处理的语言
D.处理速度最快
答案 A
Python 有 pandas/sklearn/numpy/tensorflow 等生态,R 有 ggplot2/caret 等。核心优势是库丰富。
127
( )不是模型部署工具的使用方法。
A.选择合适的部署环境
B.将模型文件上传到部署环境中
C.编写测试代码来验证模型的准确性
D.对模型进行微调以提高性能
答案 D
微调模型是训练阶段的事,不是部署阶段的事。部署是把已训练好的模型放到生产环境。
150
( )不属于模型选择过程。
A.了解不同模型的优缺点
B.根据任务需求选择合适的模型
C.对模型进行调参优化
D.对模型进行评估和比较
答案 C
调参是选完模型之后的优化步骤,不属于"选择"过程本身。
151
提高模型准确性的划分方法是( )。
A.随机划分
B.按比例划分
C.分层划分
D.交叉验证
答案 C
分层划分(stratified split)确保各类别比例在训练/测试集一致,避免数据不平衡导致的偏差。
155
模型训练的目标是( )。
A.最大化模型准确率
B.最小化模型损失
C.最大化模型泛化能力
D.最小化模型复杂度
答案 B
训练 = 不断调整参数使损失函数(loss function)最小化。这是优化问题的数学定义。
156
线性规划用于求解( )问题。
A.线性
B.非线性
C.
D.离散
答案 A
线性规划 = 线性目标函数 + 线性约束。名字已经告诉你了。
157
高效训练大规模数据集,( )软件组件最关键。
A.数据库管理系统
B.版本控制系统
C.分布式训练框架
D.集成开发环境
答案 C
大规模数据 → 必须分布式 → 分布式训练框架(如 TensorFlow/PyTorch 的分布式模块)。
158
大规模分布式训练,( )框架提供较成熟的支持。
A.TensorFlow
B.PyTorch
C.MXNet
D.Chainer
答案 A
TensorFlow 的分布式训练(TF Distributed)是最早成熟的工业级分布式训练方案。
159
算法验证的形式化方法包括模型检验和( )。
A.形式化描述
B.逻辑推理
C.代码审查
D.测试用例
答案 A
形式化方法 = 形式化描述(formal specification)+ 模型检验(model checking)。
160
超参数调优中通常使用( )来评估模型性能。
A.交叉验证
B.网格搜索
C.随机搜索
D.贝叶斯优化
答案 A
网格搜索/随机搜索/贝叶斯优化是搜索策略,交叉验证才是"评估性能"的方法。
161
( )不是模型训练动态监控工具的典型功能。
A.提供训练损失和验证损失的实时图表
B.检测并报告过拟合或欠拟合现象
C.自动调整模型参数以优化性能
D.允许用户远程访问和操作训练环境
答案 C
监控工具只"看"不"动"——自动调整参数是自动调参工具的事,监控工具只负责展示和报警。
162
解决模型性能不佳问题,推荐( )。
A.立即增加模型参数数量
B.检查训练数据质量,确保没有错误或偏差
C.忽略验证集,只关注训练集准确率
D.停止训练
答案 B
数据质量是一切的根基。"Garbage in, garbage out" —— 先查数据再调模型。
163
( )不是常用的 ML 评价指标。
A.准确率 Accuracy
B.精确率 Precision
C.召回率 Recall
D.运行时间 Run Time
答案 D
ABC 是标准ML评价指标。运行时间不是模型"预测质量"的评价指标。
164
关于模型部署描述正确的是( )。
A.只需要考虑技术因素
B.是一次性完成的过程
C.需要确保模型的安全性和隐私性
D.不需要考虑用户体验
答案 C
部署不是只管技术(A×),不是一次性(B×),必须考虑安全和隐私。D 明显错误。
165
自动化模型更新和版本管理通常使用( )工具。
A.Git
B.SVN
C.Jenkins
D.Spinnaker
答案 C
Jenkins 是最主流的 CI/CD 工具,自动化构建/测试/部署流水线。
数据预处理(128-138, 143-146, 152-153)
128
数据探索分析的结果通常用于支持( )决策。
A.业务策略制定
B.产品研发
C.市场推广
D.客户关系管理
答案 A
数据探索分析(EDA)的最终目的是帮助制定业务策略。
129
( )可以帮助我们更好地理解数据的结构和特点
A.数据可视化
B.统计分析
C.数据挖掘
D.机器学习
答案 A
"理解数据的结构和特点" → 一图胜千言,数据可视化最直观。
130
缺失数据处理中,( )适用于存在大量相似观测值的情况。
A.删除法
B.填充法
C.插值法
D.替换法
答案 B
大量相似观测值 → 可以用均值/中位数等统计量填充缺失值。
131
分类数据的缺失值可以用( )处理。
A.删除法
B.均值填充
C.中位数填充
D.众数填充
答案 D
分类数据 = 类别型(如"红/蓝/绿")→ 用众数(出现最多的值)填充。均值/中位数只适用于数值型。
132
箱线图法在异常值检测中的作用是( )。
A.确定数据的分布范围
B.识别数据中的异常值
C.评估数据的离散程度
D.判断数据的集中趋势
答案 B
箱线图中超出上下须(1.5×IQR)的点就是异常值。这题在问"异常值检测中的作用",直接选 B。
133
Z-score 方法是一种基于( )的异常值检测方法。
A.最大值
B.中位数
C.众数
D.标准差
答案 D
Z-score = (x - μ) / σ,σ 就是标准差。|Z| > 3 通常认为是异常值。
134
消除信号中平稳随机噪声主要用( )。
A.滤波法
B.变换法
C.统计法
D.模型法
答案 A
滤波(如均值滤波、中值滤波)是消除噪声的经典方法。
135
位图法在数据去重中通过( )。
A.比较每个数据与已有数据的相似度
B.记录每个数据是否出现过
C.对数据进行排序
D.对数据进行压缩
答案 B
位图(bitmap):每个bit位标记某个值是否出现过,1=出现过,0=没出现过。
136
数据归一化处理的定义是( )。
A.将所有值转换为相同的格式
B.将所有值缩放到 0 到 1 之间
C.将所有值增加到最大可能值
D.将所有值减少到最小可能值
答案 B
归一化(Normalization)= Min-Max Scaling,公式:(x - min) / (max - min),结果在 [0,1]。你实操用的 StandardScaler 是标准化(Z-score),概念不同但同属数据缩放。
137
数据白化处理的主要目的是( )。
A.提高数据的准确性
B.减少数据的冗余
C.增强数据的可读性
D.保护数据的隐私
答案 B
白化 = 让数据各维度方差为1且互不相关 → 消除特征间冗余。
138
特征工程通常需要对数据进行( )。
A.数据清洗
B.数据集成
C.数据变换
D.数据划分
答案 C
特征工程的核心是数据变换(标准化、编码、构造新特征等),让数据更适合模型学习。
143
分布式数据处理的优势主要得益于( )。
A.负载均衡技术
B.数据压缩技术
C.数据缓存技术
D.数据加密技术
答案 A
分布式 = 把任务分给多台机器 → 负载均衡让各机器均衡地处理任务。
144
确保数据可追溯性,数据管理流程包括数据的( )、存储、传输和销毁。
A.创建
B.收集
C.分析
D.应用
答案 B
数据生命周期:收集 → 存储 → 传输 → 销毁。收集是第一步。
145
数据可追溯性的主要目的是( )。
A.提高数据处理速度
B.减少数据存储成本
C.确保数据来源和修改历史的透明度
D.增加数据的复杂性
答案 C
可追溯 = 能追踪"数据从哪来、经过了什么处理"。核心就是透明度。
146
Excel 中识别重复数据的最佳实践是( )。
A.使用"条件格式"高亮显示重复值
B.手动检查每一行
C.使用排序查找重复值
D.将数据转换为文本格式
答案 A
条件格式 → 突出显示单元格规则 → 重复值,一键搞定。
152
文本预处理中,( )步骤将文本转换为数值型数据
A.分词
B.去除停用词
C.词干提取
D.编码转换
答案 D
编码(如 One-Hot、TF-IDF、Word2Vec)把文字变成数字向量,模型才能处理。
154
对图像中多个对象进行精确边界框绘制时,通常使用( )标注工具。
A.多边形标注工具
B.点云标注工具
C.目标检测标注工具
D.关键点标注工具
答案 C
边界框(bounding box)= 目标检测标注的标配。多边形用于轮廓,点云用于3D,关键点用于姿态估计。
模型训练 & 评估 & 部署(121-127, 150-165)
121
深度学习中防止过拟合的方法是( )。
A.仅使用一层隐藏层
B.增加模型的复杂度
C.应用早停技术
D.减少训练数据量
答案 C
早停(Early Stopping)= 验证集loss不再下降时停止训练。BD 反而会加重问题。
122
交叉验证的主要目的是( )。
A.提高模型的训练速度
B.减少模型的复杂性
C.增加模型的预测准确性
D.评估模型的泛化能力
答案 D
交叉验证 = 多次划分数据集来评估模型,核心目的是评估泛化能力,不是直接提高准确性。
123
模型训练自动化工具中,( )是通过自动化迭代优化模型性能。
A.模型评估
B.模型训练
C.特征工程
D.数据清洗
答案 B
迭代优化模型 = 模型训练本身在做的事(不断调整参数最小化损失)。
124
( )主要用于实时收集和分析日志数据。
A.Apache Hadoop
B.ELK Stack
C.TensorFlow
D.PyTorch
答案 B
ELK = Elasticsearch + Logstash + Kibana,日志实时收集分析的标配。Hadoop 是离线批处理。
125
GAN 中的生成器通常使用( )类型的神经网络。
A.卷积神经网络
B.循环神经网络
C.自编码器
D.生成对抗网络
答案 A
GAN 中生成器用反卷积(转置卷积)CNN 生成图像,判别器也用 CNN。DCGAN 就是全卷积的 GAN。
126
使用 Python 或 R 的主要原因是( )。
A.提供了丰富的库和框架,专门用于数据处理和机器学习
B.不需要编程知识
C.唯一能做数据处理的语言
D.处理速度最快
答案 A
Python 有 pandas/sklearn/numpy/tensorflow 等生态,R 有 ggplot2/caret 等。核心优势是库丰富。
127
( )不是模型部署工具的使用方法。
A.选择合适的部署环境
B.将模型文件上传到部署环境中
C.编写测试代码来验证模型的准确性
D.对模型进行微调以提高性能
答案 D
微调模型是训练阶段的事,不是部署阶段的事。部署是把已训练好的模型放到生产环境。
150
( )不属于模型选择过程
A.了解不同模型的优缺点
B.根据任务需求选择合适的模型
C.对模型进行调参优化
D.对模型进行评估和比较
答案 C
调参是选完模型之后的优化步骤,不属于"选择"过程本身。
151
提高模型准确性的划分方法是( )。
A.随机划分
B.按比例划分
C.分层划分
D.交叉验证
答案 C
分层划分(stratified split)确保各类别比例在训练/测试集一致,避免数据不平衡导致的偏差。
155
模型训练的目标是( )。
A.最大化模型准确率
B.最小化模型损失
C.最大化模型泛化能力
D.最小化模型复杂度
答案 B
训练 = 不断调整参数使损失函数(loss function)最小化。这是优化问题的数学定义。
156
线性规划用于求解( )问题。
A.线性
B.非线性
C.
D.离散
答案 A
线性规划 = 线性目标函数 + 线性约束。名字已经告诉你了。
157
高效训练大规模数据集,( )软件组件最关键。
A.数据库管理系统
B.版本控制系统
C.分布式训练框架
D.集成开发环境
答案 C
大规模数据 → 必须分布式 → 分布式训练框架(如 TensorFlow/PyTorch 的分布式模块)。
158
大规模分布式训练,( )框架提供较成熟的支持。
A.TensorFlow
B.PyTorch
C.MXNet
D.Chainer
答案 A
TensorFlow 的分布式训练(TF Distributed)是最早成熟的工业级分布式训练方案。
159
算法验证的形式化方法包括模型检验和( )。
A.形式化描述
B.逻辑推理
C.代码审查
D.测试用例
答案 A
形式化方法 = 形式化描述(formal specification)+ 模型检验(model checking)。
160
超参数调优中通常使用( )来评估模型性能。
A.交叉验证
B.网格搜索
C.随机搜索
D.贝叶斯优化
答案 A
网格搜索/随机搜索/贝叶斯优化是搜索策略,交叉验证才是"评估性能"的方法。
161
( )不是模型训练动态监控工具的典型功能。
A.提供训练损失和验证损失的实时图表
B.检测并报告过拟合或欠拟合现象
C.自动调整模型参数以优化性能
D.允许用户远程访问和操作训练环境
答案 C
监控工具只"看"不"动"——自动调整参数是自动调参工具的事,监控工具只负责展示和报警。
162
解决模型性能不佳问题,推荐( )。
A.立即增加模型参数数量
B.检查训练数据质量,确保没有错误或偏差
C.忽略验证集,只关注训练集准确率
D.停止训练
答案 B
数据质量是一切的根基。"Garbage in, garbage out" —— 先查数据再调模型。
163
( )不是常用的 ML 评价指标。
A.准确率 Accuracy
B.精确率 Precision
C.召回率 Recall
D.运行时间 Run Time
答案 D
ABC 是标准ML评价指标。运行时间不是模型"预测质量"的评价指标。
164
关于模型部署描述正确的是( )。
A.只需要考虑技术因素
B.是一次性完成的过程
C.需要确保模型的安全性和隐私性
D.不需要考虑用户体验
答案 C
部署不是只管技术(A×),不是一次性(B×),必须考虑安全和隐私。D 明显错误。
165
自动化模型更新和版本管理通常使用( )工具。
A.Git
B.SVN
C.Jenkins
D.Spinnaker
答案 C
Jenkins 是最主流的 CI/CD 工具,自动化构建/测试/部署流水线。
数据预处理(128-138, 143-146, 152-153)
128
数据探索分析的结果通常用于支持( )决策。
A.业务策略制定
B.产品研发
C.市场推广
D.客户关系管理
答案 A
数据探索分析(EDA)的最终目的是帮助制定业务策略。
129
( )可以帮助我们更好地理解数据的结构和特点
A.数据可视化
B.统计分析
C.数据挖掘
D.机器学习
答案 A
"理解数据的结构和特点" → 一图胜千言,数据可视化最直观。
130
缺失数据处理中,( )适用于存在大量相似观测值的情况。
A.删除法
B.填充法
C.插值法
D.替换法
答案 B
大量相似观测值 → 可以用均值/中位数等统计量填充缺失值。
131
分类数据的缺失值可以用( )处理。
A.删除法
B.均值填充
C.中位数填充
D.众数填充
答案 D
分类数据 = 类别型(如"红/蓝/绿")→ 用众数(出现最多的值)填充。均值/中位数只适用于数值型。
132
箱线图法在异常值检测中的作用是( )。
A.确定数据的分布范围
B.识别数据中的异常值
C.评估数据的离散程度
D.判断数据的集中趋势
答案 B
箱线图中超出上下须(1.5×IQR)的点就是异常值。这题在问"异常值检测中的作用",直接选 B。
133
Z-score 方法是一种基于( )的异常值检测方法。
A.最大值
B.中位数
C.众数
D.标准差
答案 D
Z-score = (x - μ) / σ,σ 就是标准差。|Z| > 3 通常认为是异常值。
134
消除信号中平稳随机噪声主要用( )。
A.滤波法
B.变换法
C.统计法
D.模型法
答案 A
滤波(如均值滤波、中值滤波)是消除噪声的经典方法。
135
位图法在数据去重中通过( )。
A.比较每个数据与已有数据的相似度
B.记录每个数据是否出现过
C.对数据进行排序
D.对数据进行压缩
答案 B
位图(bitmap):每个bit位标记某个值是否出现过,1=出现过,0=没出现过。
136
数据归一化处理的定义是( )。
A.将所有值转换为相同的格式
B.将所有值缩放到 0 到 1 之间
C.将所有值增加到最大可能值
D.将所有值减少到最小可能值
答案 B
归一化(Normalization)= Min-Max Scaling,公式:(x - min) / (max - min),结果在 [0,1]。你实操用的 StandardScaler 是标准化(Z-score),概念不同但同属数据缩放。
137
数据白化处理的主要目的是( )。
A.提高数据的准确性
B.减少数据的冗余
C.增强数据的可读性
D.保护数据的隐私
答案 B
白化 = 让数据各维度方差为1且互不相关 → 消除特征间冗余。
139
选择数据标注工具时,应该权衡( )。
A.准确性、易用性、成本
B.准确性、易用性、速度
C.准确性、成本、速度
D.易用性、成本、速度
答案 A
选择标注工具的三大要素:标注是否准确、好不好用、贵不贵。
140
数据标注技术的目的是( )。
A.提高数据质量
B.降低数据成本
C.优化数据结构
D.简化数据处理流程
答案 A
标注 = 给数据打标签,让模型能学习。核心目的就是提高训练数据的质量。
141
确保泛化能力,数据集通常划分为( )。
A.40% / 30% / 30%
B.80% / 10% / 10%
C.40% / 40% / 20%
D.30% / 50% / 20%
答案 B
80%训练 / 10%验证 / 10%测试 是最经典的划分比例。你实操用的 test_size=0.2 就是这个。
142
自动化标注能够显著降低( )成本。
A.数据收集
B.数据存储
C.数据标注
D.数据传输
答案 C
自动标注 → 减少人工标注工作量 → 降低标注成本。题干已经告诉你了。
147
( )是一种常用的图像读取方法,可以从文件中提取像素数据。
A.图像编码
B.图像解码
C.图像压缩
D.图像解压缩
答案 B
图像文件是编码后的数据,读取时需要解码才能提取像素。你实操用的 Image.open() 就是解码过程。
148
文本类数据标注过程步骤中,( )是不需要的。
A.对数据进行分词
B.构建词典
C.进行情感分析
D.标记实体
答案 C
情感分析是具体任务,不是所有文本标注都需要。分词、构建词典、标记实体是通用的文本标注步骤。
149
视觉类数据制定规范的目的是( )。
A.增加数据集的多样性
B.保证训练模型时的数据处理一致性和数据质量
C.减少数据存储的空间需求
D.加快数据处理的速度
答案 B
制定规范的目的是统一标准 → 一致性 → 数据质量。
154
对图像中多个对象进行精确边界框绘制时,通常使用( )标注工具。
A.多边形标注工具
B.点云标注工具
C.目标检测标注工具
D.关键点标注工具
答案 C
边界框(bounding box)= 目标检测标注的标配。多边形用于轮廓,点云用于3D,关键点用于姿态估计。
模型训练 & 评估 & 部署(121-127, 150-165)
121
深度学习中防止过拟合的方法是( )。
A.仅使用一层隐藏层
B.增加模型的复杂度
C.应用早停技术
D.减少训练数据量
答案 C
早停(Early Stopping)= 验证集loss不再下降时停止训练。BD 反而会加重问题。
122
交叉验证的主要目的是( )。
A.提高模型的训练速度
B.减少模型的复杂性
C.增加模型的预测准确性
D.评估模型的泛化能力
答案 D
交叉验证 = 多次划分数据集来评估模型,核心目的是评估泛化能力,不是直接提高准确性。
123
模型训练自动化工具中,( )是通过自动化迭代优化模型性能。
A.模型评估
B.模型训练
C.特征工程
D.数据清洗
答案 B
迭代优化模型 = 模型训练本身在做的事(不断调整参数最小化损失)。
124
( )主要用于实时收集和分析日志数据。
A.Apache Hadoop
B.ELK Stack
C.TensorFlow
D.PyTorch
答案 B
ELK = Elasticsearch + Logstash + Kibana,日志实时收集分析的标配。Hadoop 是离线批处理。
125
GAN 中的生成器通常使用( )类型的神经网络。
A.卷积神经网络
B.循环神经网络
C.自编码器
D.生成对抗网络
答案 A
GAN 中生成器用反卷积(转置卷积)CNN 生成图像,判别器也用 CNN。DCGAN 就是全卷积的 GAN。
126
使用 Python 或 R 的主要原因是( )。
A.提供了丰富的库和框架,专门用于数据处理和机器学习
B.不需要编程知识
C.唯一能做数据处理的语言
D.处理速度最快
答案 A
Python 有 pandas/sklearn/numpy/tensorflow 等生态,R 有 ggplot2/caret 等。核心优势是库丰富。
127
( )不是模型部署工具的使用方法。
A.选择合适的部署环境
B.将模型文件上传到部署环境中
C.编写测试代码来验证模型的准确性
D.对模型进行微调以提高性能
答案 D
微调模型是训练阶段的事,不是部署阶段的事。部署是把已训练好的模型放到生产环境。
150
( )不属于模型选择过程。
A.了解不同模型的优缺点
B.根据任务需求选择合适的模型
C.对模型进行调参优化
D.对模型进行评估和比较
答案 C
调参是选完模型之后的优化步骤,不属于"选择"过程本身。
151
提高模型准确性的划分方法是( )。
A.随机划分
B.按比例划分
C.分层划分
D.交叉验证
答案 C
分层划分(stratified split)确保各类别比例在训练/测试集一致,避免数据不平衡导致的偏差。
155
模型训练的目标是( )。
A.最大化模型准确率
B.最小化模型损失
C.最大化模型泛化能力
D.最小化模型复杂度
答案 B
训练 = 不断调整参数使损失函数(loss function)最小化。这是优化问题的数学定义。
156
线性规划用于求解( )问题。
A.线性
B.非线性
C.
D.离散
答案 A
线性规划 = 线性目标函数 + 线性约束。名字已经告诉你了。
157
高效训练大规模数据集,( )软件组件最关键。
A.数据库管理系统
B.版本控制系统
C.分布式训练框架
D.集成开发环境
答案 C
大规模数据 → 必须分布式 → 分布式训练框架(如 TensorFlow/PyTorch 的分布式模块)。
158
大规模分布式训练,( )框架提供较成熟的支持。
A.TensorFlow
B.PyTorch
C.MXNet
D.Chainer
答案 A
TensorFlow 的分布式训练(TF Distributed)是最早成熟的工业级分布式训练方案。
159
算法验证的形式化方法包括模型检验和( )。
A.形式化描述
B.逻辑推理
C.代码审查
D.测试用例
答案 A
形式化方法 = 形式化描述(formal specification)+ 模型检验(model checking)。
160
超参数调优中通常使用( )来评估模型性能。
A.交叉验证
B.网格搜索
C.随机搜索
D.贝叶斯优化
答案 A
网格搜索/随机搜索/贝叶斯优化是搜索策略,交叉验证才是"评估性能"的方法。
161
( )不是模型训练动态监控工具的典型功能。
A.提供训练损失和验证损失的实时图表
B.检测并报告过拟合或欠拟合现象
C.自动调整模型参数以优化性能
D.允许用户远程访问和操作训练环境
答案 C
监控工具只"看"不"动"——自动调整参数是自动调参工具的事,监控工具只负责展示和报警。
162
解决模型性能不佳问题,推荐( )。
A.立即增加模型参数数量
B.检查训练数据质量,确保没有错误或偏差
C.忽略验证集,只关注训练集准确率
D.停止训练
答案 B
数据质量是一切的根基。"Garbage in, garbage out" —— 先查数据再调模型。
163
( )不是常用的 ML 评价指标。
A.准确率 Accuracy
B.精确率 Precision
C.召回率 Recall
D.运行时间 Run Time
答案 D
ABC 是标准ML评价指标。运行时间不是模型"预测质量"的评价指标。
164
关于模型部署描述正确的是( )。
A.只需要考虑技术因素
B.是一次性完成的过程
C.需要确保模型的安全性和隐私性
D.不需要考虑用户体验
答案 C
部署不是只管技术(A×),不是一次性(B×),必须考虑安全和隐私。D 明显错误。
165
自动化模型更新和版本管理通常使用( )工具。
A.Git
B.SVN
C.Jenkins
D.Spinnaker
答案 C
Jenkins 是最主流的 CI/CD 工具,自动化构建/测试/部署流水线。
数据预处理(128-138, 143-146, 152-153)
128
数据探索分析的结果通常用于支持( )决策。
A.业务策略制定
B.产品研发
C.市场推广
D.客户关系管理
答案 A
数据探索分析(EDA)的最终目的是帮助制定业务策略。
129
( )可以帮助我们更好地理解数据的结构和特点
A.数据可视化
B.统计分析
C.数据挖掘
D.机器学习
答案 A
"理解数据的结构和特点" → 一图胜千言,数据可视化最直观。
130
缺失数据处理中,( )适用于存在大量相似观测值的情况。
A.删除法
B.填充法
C.插值法
D.替换法
答案 B
大量相似观测值 → 可以用均值/中位数等统计量填充缺失值。
131
分类数据的缺失值可以用( )处理。
A.删除法
B.均值填充
C.中位数填充
D.众数填充
答案 D
分类数据 = 类别型(如"红/蓝/绿")→ 用众数(出现最多的值)填充。均值/中位数只适用于数值型。
132
箱线图法在异常值检测中的作用是( )。
A.确定数据的分布范围
B.识别数据中的异常值
C.评估数据的离散程度
D.判断数据的集中趋势
答案 B
箱线图中超出上下须(1.5×IQR)的点就是异常值。这题在问"异常值检测中的作用",直接选 B。
133
Z-score 方法是一种基于( )的异常值检测方法。
A.最大值
B.中位数
C.众数
D.标准差
答案 D
Z-score = (x - μ) / σ,σ 就是标准差。|Z| > 3 通常认为是异常值。
134
消除信号中平稳随机噪声主要用( )。
A.滤波法
B.变换法
C.统计法
D.模型法
答案 A
滤波(如均值滤波、中值滤波)是消除噪声的经典方法。
135
位图法在数据去重中通过( )。
A.比较每个数据与已有数据的相似度
B.记录每个数据是否出现过
C.对数据进行排序
D.对数据进行压缩
答案 B
位图(bitmap):每个bit位标记某个值是否出现过,1=出现过,0=没出现过。
136
数据归一化处理的定义是( )。
A.将所有值转换为相同的格式
B.将所有值缩放到 0 到 1 之间
C.将所有值增加到最大可能值
D.将所有值减少到最小可能值
答案 B
归一化(Normalization)= Min-Max Scaling,公式:(x - min) / (max - min),结果在 [0,1]。你实操用的 StandardScaler 是标准化(Z-score),概念不同但同属数据缩放。
137
数据白化处理的主要目的是( )。
A.提高数据的准确性
B.减少数据的冗余
C.增强数据的可读性
D.保护数据的隐私
答案 B
白化 = 让数据各维度方差为1且互不相关 → 消除特征间冗余。
138
特征工程通常需要对数据进行( )。
A.数据清洗
B.数据集成
C.数据变换
D.数据划分
答案 C
特征工程的核心是数据变换(标准化、编码、构造新特征等),让数据更适合模型学习。
143
分布式数据处理的优势主要得益于( )。
A.负载均衡技术
B.数据压缩技术
C.数据缓存技术
D.数据加密技术
答案 A
分布式 = 把任务分给多台机器 → 负载均衡让各机器均衡地处理任务。
144
确保数据可追溯性,数据管理流程包括数据的( )、存储、传输和销毁。
A.创建
B.收集
C.分析
D.应用
答案 B
数据生命周期:收集 → 存储 → 传输 → 销毁。收集是第一步。
145
数据可追溯性的主要目的是( )。
A.提高数据处理速度
B.减少数据存储成本
C.确保数据来源和修改历史的透明度
D.增加数据的复杂性
答案 C
可追溯 = 能追踪"数据从哪来、经过了什么处理"。核心就是透明度。
147
( )是一种常用的图像读取方法,可以从文件中提取像素数据。
A.图像编码
B.图像解码
C.图像压缩
D.图像解压缩
答案 B
图像文件是编码后的数据,读取时需要解码才能提取像素。你实操用的 Image.open() 就是解码过程。
148
文本类数据标注过程步骤中,( )是不需要的。
A.对数据进行分词
B.构建词典
C.进行情感分析
D.标记实体
答案 C
情感分析是具体任务,不是所有文本标注都需要。分词、构建词典、标记实体是通用的文本标注步骤。
149
视觉类数据制定规范的目的是( )。
A.增加数据集的多样性
B.保证训练模型时的数据处理一致性和数据质量
C.减少数据存储的空间需求
D.加快数据处理的速度
答案 B
制定规范的目的是统一标准 → 一致性 → 数据质量。
154
对图像中多个对象进行精确边界框绘制时,通常使用( )标注工具。
A.多边形标注工具
B.点云标注工具
C.目标检测标注工具
D.关键点标注工具
答案 C
边界框(bounding box)= 目标检测标注的标配。多边形用于轮廓,点云用于3D,关键点用于姿态估计。
模型训练 & 评估 & 部署(121-127, 150-165)
121
深度学习中防止过拟合的方法是( )。
A.仅使用一层隐藏层
B.增加模型的复杂度
C.应用早停技术
D.减少训练数据量
答案 C
早停(Early Stopping)= 验证集loss不再下降时停止训练。BD 反而会加重问题。
122
交叉验证的主要目的是( )。
A.提高模型的训练速度
B.减少模型的复杂性
C.增加模型的预测准确性
D.评估模型的泛化能力
答案 D
交叉验证 = 多次划分数据集来评估模型,核心目的是评估泛化能力,不是直接提高准确性。
123
模型训练自动化工具中,( )是通过自动化迭代优化模型性能。
A.模型评估
B.模型训练
C.特征工程
D.数据清洗
答案 B
迭代优化模型 = 模型训练本身在做的事(不断调整参数最小化损失)。
124
( )主要用于实时收集和分析日志数据。
A.Apache Hadoop
B.ELK Stack
C.TensorFlow
D.PyTorch
答案 B
ELK = Elasticsearch + Logstash + Kibana,日志实时收集分析的标配。Hadoop 是离线批处理。
125
GAN 中的生成器通常使用( )类型的神经网络。
A.卷积神经网络
B.循环神经网络
C.自编码器
D.生成对抗网络
答案 A
GAN 中生成器用反卷积(转置卷积)CNN 生成图像,判别器也用 CNN。DCGAN 就是全卷积的 GAN。
126
使用 Python 或 R 的主要原因是( )。
A.提供了丰富的库和框架,专门用于数据处理和机器学习
B.不需要编程知识
C.唯一能做数据处理的语言
D.处理速度最快
答案 A
Python 有 pandas/sklearn/numpy/tensorflow 等生态,R 有 ggplot2/caret 等。核心优势是库丰富。
127
( )不是模型部署工具的使用方法。
A.选择合适的部署环境
B.将模型文件上传到部署环境中
C.编写测试代码来验证模型的准确性
D.对模型进行微调以提高性能
答案 D
微调模型是训练阶段的事,不是部署阶段的事。部署是把已训练好的模型放到生产环境。
150
( )不属于模型选择过程。
A.了解不同模型的优缺点
B.根据任务需求选择合适的模型
C.对模型进行调参优化
D.对模型进行评估和比较
答案 C
调参是选完模型之后的优化步骤,不属于"选择"过程本身。
151
提高模型准确性的划分方法是( )。
A.随机划分
B.按比例划分
C.分层划分
D.交叉验证
答案 C
分层划分(stratified split)确保各类别比例在训练/测试集一致,避免数据不平衡导致的偏差。
155
模型训练的目标是( )。
A.最大化模型准确率
B.最小化模型损失
C.最大化模型泛化能力
D.最小化模型复杂度
答案 B
训练 = 不断调整参数使损失函数(loss function)最小化。这是优化问题的数学定义。
156
线性规划用于求解( )问题。
A.线性
B.非线性
C.
D.离散
答案 A
线性规划 = 线性目标函数 + 线性约束。名字已经告诉你了。
157
高效训练大规模数据集,( )软件组件最关键。
A.数据库管理系统
B.版本控制系统
C.分布式训练框架
D.集成开发环境
答案 C
大规模数据 → 必须分布式 → 分布式训练框架(如 TensorFlow/PyTorch 的分布式模块)。
158
大规模分布式训练,( )框架提供较成熟的支持。
A.TensorFlow
B.PyTorch
C.MXNet
D.Chainer
答案 A
TensorFlow 的分布式训练(TF Distributed)是最早成熟的工业级分布式训练方案。
159
算法验证的形式化方法包括模型检验和( )。
A.形式化描述
B.逻辑推理
C.代码审查
D.测试用例
答案 A
形式化方法 = 形式化描述(formal specification)+ 模型检验(model checking)。
160
超参数调优中通常使用( )来评估模型性能。
A.交叉验证
B.网格搜索
C.随机搜索
D.贝叶斯优化
答案 A
网格搜索/随机搜索/贝叶斯优化是搜索策略,交叉验证才是"评估性能"的方法。
161
( )不是模型训练动态监控工具的典型功能。
A.提供训练损失和验证损失的实时图表
B.检测并报告过拟合或欠拟合现象
C.自动调整模型参数以优化性能
D.允许用户远程访问和操作训练环境
答案 C
监控工具只"看"不"动"——自动调整参数是自动调参工具的事,监控工具只负责展示和报警。
162
解决模型性能不佳问题,推荐( )。
A.立即增加模型参数数量
B.检查训练数据质量,确保没有错误或偏差
C.忽略验证集,只关注训练集准确率
D.停止训练
答案 B
数据质量是一切的根基。"Garbage in, garbage out" —— 先查数据再调模型。
163
( )不是常用的 ML 评价指标。
A.准确率 Accuracy
B.精确率 Precision
C.召回率 Recall
D.运行时间 Run Time
答案 D
ABC 是标准ML评价指标。运行时间不是模型"预测质量"的评价指标。
164
关于模型部署描述正确的是( )。
A.只需要考虑技术因素
B.是一次性完成的过程
C.需要确保模型的安全性和隐私性
D.不需要考虑用户体验
答案 C
部署不是只管技术(A×),不是一次性(B×),必须考虑安全和隐私。D 明显错误。
165
自动化模型更新和版本管理通常使用( )工具。
A.Git
B.SVN
C.Jenkins
D.Spinnaker
答案 C
Jenkins 是最主流的 CI/CD 工具,自动化构建/测试/部署流水线。
数据预处理(128-138, 143-146, 152-153)
128
数据探索分析的结果通常用于支持( )决策。
A.业务策略制定
B.产品研发
C.市场推广
D.客户关系管理
答案 A
数据探索分析(EDA)的最终目的是帮助制定业务策略。
129
( )可以帮助我们更好地理解数据的结构和特点
A.数据可视化
B.统计分析
C.数据挖掘
D.机器学习
答案 A
"理解数据的结构和特点" → 一图胜千言,数据可视化最直观。
130
缺失数据处理中,( )适用于存在大量相似观测值的情况。
A.删除法
B.填充法
C.插值法
D.替换法
答案 B
大量相似观测值 → 可以用均值/中位数等统计量填充缺失值。
131
分类数据的缺失值可以用( )处理。
A.删除法
B.均值填充
C.中位数填充
D.众数填充
答案 D
分类数据 = 类别型(如"红/蓝/绿")→ 用众数(出现最多的值)填充。均值/中位数只适用于数值型。
132
箱线图法在异常值检测中的作用是( )。
A.确定数据的分布范围
B.识别数据中的异常值
C.评估数据的离散程度
D.判断数据的集中趋势
答案 B
箱线图中超出上下须(1.5×IQR)的点就是异常值。这题在问"异常值检测中的作用",直接选 B。
133
Z-score 方法是一种基于( )的异常值检测方法。
A.最大值
B.中位数
C.众数
D.标准差
答案 D
Z-score = (x - μ) / σ,σ 就是标准差。|Z| > 3 通常认为是异常值。
134
消除信号中平稳随机噪声主要用( )。
A.滤波法
B.变换法
C.统计法
D.模型法
答案 A
滤波(如均值滤波、中值滤波)是消除噪声的经典方法。
135
位图法在数据去重中通过( )。
A.比较每个数据与已有数据的相似度
B.记录每个数据是否出现过
C.对数据进行排序
D.对数据进行压缩
答案 B
位图(bitmap):每个bit位标记某个值是否出现过,1=出现过,0=没出现过。
136
数据归一化处理的定义是( )。
A.将所有值转换为相同的格式
B.将所有值缩放到 0 到 1 之间
C.将所有值增加到最大可能值
D.将所有值减少到最小可能值
答案 B
归一化(Normalization)= Min-Max Scaling,公式:(x - min) / (max - min),结果在 [0,1]。你实操用的 StandardScaler 是标准化(Z-score),概念不同但同属数据缩放。
137
数据白化处理的主要目的是( )。
A.提高数据的准确性
B.减少数据的冗余
C.增强数据的可读性
D.保护数据的隐私
答案 B
白化 = 让数据各维度方差为1且互不相关 → 消除特征间冗余。
139
选择数据标注工具时,应该权衡( )。
A.准确性、易用性、成本
B.准确性、易用性、速度
C.准确性、成本、速度
D.易用性、成本、速度
答案 A
选择标注工具的三大要素:标注是否准确、好不好用、贵不贵。
140
数据标注技术的目的是( )。
A.提高数据质量
B.降低数据成本
C.优化数据结构
D.简化数据处理流程
答案 A
标注 = 给数据打标签,让模型能学习。核心目的就是提高训练数据的质量。
141
确保泛化能力,数据集通常划分为( )。
A.40% / 30% / 30%
B.80% / 10% / 10%
C.40% / 40% / 20%
D.30% / 50% / 20%
答案 B
80%训练 / 10%验证 / 10%测试 是最经典的划分比例。你实操用的 test_size=0.2 就是这个。
142
自动化标注能够显著降低( )成本。
A.数据收集
B.数据存储
C.数据标注
D.数据传输
答案 C
自动标注 → 减少人工标注工作量 → 降低标注成本。题干已经告诉你了。
147
( )是一种常用的图像读取方法,可以从文件中提取像素数据。
A.图像编码
B.图像解码
C.图像压缩
D.图像解压缩
答案 B
图像文件是编码后的数据,读取时需要解码才能提取像素。你实操用的 Image.open() 就是解码过程。
148
文本类数据标注过程步骤中,( )是不需要的。
A.对数据进行分词
B.构建词典
C.进行情感分析
D.标记实体
答案 C
情感分析是具体任务,不是所有文本标注都需要。分词、构建词典、标记实体是通用的文本标注步骤。
149
视觉类数据制定规范的目的是( )。
A.增加数据集的多样性
B.保证训练模型时的数据处理一致性和数据质量
C.减少数据存储的空间需求
D.加快数据处理的速度
答案 B
制定规范的目的是统一标准 → 一致性 → 数据质量。
154
对图像中多个对象进行精确边界框绘制时,通常使用( )标注工具。
A.多边形标注工具
B.点云标注工具
C.目标检测标注工具
D.关键点标注工具
答案 C
边界框(bounding box)= 目标检测标注的标配。多边形用于轮廓,点云用于3D,关键点用于姿态估计。
模型训练 & 评估 & 部署(121-127, 150-165)
121
深度学习中防止过拟合的方法是( )。
A.仅使用一层隐藏层
B.增加模型的复杂度
C.应用早停技术
D.减少训练数据量
答案 C
早停(Early Stopping)= 验证集loss不再下降时停止训练。BD 反而会加重问题。
122
交叉验证的主要目的是( )。
A.提高模型的训练速度
B.减少模型的复杂性
C.增加模型的预测准确性
D.评估模型的泛化能力
答案 D
交叉验证 = 多次划分数据集来评估模型,核心目的是评估泛化能力,不是直接提高准确性。
123
模型训练自动化工具中,( )是通过自动化迭代优化模型性能。
A.模型评估
B.模型训练
C.特征工程
D.数据清洗
答案 B
迭代优化模型 = 模型训练本身在做的事(不断调整参数最小化损失)。
124
( )主要用于实时收集和分析日志数据。
A.Apache Hadoop
B.ELK Stack
C.TensorFlow
D.PyTorch
答案 B
ELK = Elasticsearch + Logstash + Kibana,日志实时收集分析的标配。Hadoop 是离线批处理。
125
GAN 中的生成器通常使用( )类型的神经网络。
A.卷积神经网络
B.循环神经网络
C.自编码器
D.生成对抗网络
答案 A
GAN 中生成器用反卷积(转置卷积)CNN 生成图像,判别器也用 CNN。DCGAN 就是全卷积的 GAN。
126
使用 Python 或 R 的主要原因是( )。
A.提供了丰富的库和框架,专门用于数据处理和机器学习
B.不需要编程知识
C.唯一能做数据处理的语言
D.处理速度最快
答案 A
Python 有 pandas/sklearn/numpy/tensorflow 等生态,R 有 ggplot2/caret 等。核心优势是库丰富。
127
( )不是模型部署工具的使用方法。
A.选择合适的部署环境
B.将模型文件上传到部署环境中
C.编写测试代码来验证模型的准确性
D.对模型进行微调以提高性能
答案 D
微调模型是训练阶段的事,不是部署阶段的事。部署是把已训练好的模型放到生产环境。
150
( )不属于模型选择过程。
A.了解不同模型的优缺点
B.根据任务需求选择合适的模型
C.对模型进行调参优化
D.对模型进行评估和比较
答案 C
调参是选完模型之后的优化步骤,不属于"选择"过程本身。
151
提高模型准确性的划分方法是( )。
A.随机划分
B.按比例划分
C.分层划分
D.交叉验证
答案 C
分层划分(stratified split)确保各类别比例在训练/测试集一致,避免数据不平衡导致的偏差。
155
模型训练的目标是( )。
A.最大化模型准确率
B.最小化模型损失
C.最大化模型泛化能力
D.最小化模型复杂度
答案 B
训练 = 不断调整参数使损失函数(loss function)最小化。这是优化问题的数学定义。
156
线性规划用于求解( )问题。
A.线性
B.非线性
C.
D.离散
答案 A
线性规划 = 线性目标函数 + 线性约束。名字已经告诉你了。
157
高效训练大规模数据集,( )软件组件最关键。
A.数据库管理系统
B.版本控制系统
C.分布式训练框架
D.集成开发环境
答案 C
大规模数据 → 必须分布式 → 分布式训练框架(如 TensorFlow/PyTorch 的分布式模块)。
158
大规模分布式训练,( )框架提供较成熟的支持。
A.TensorFlow
B.PyTorch
C.MXNet
D.Chainer
答案 A
TensorFlow 的分布式训练(TF Distributed)是最早成熟的工业级分布式训练方案。
159
算法验证的形式化方法包括模型检验和( )。
A.形式化描述
B.逻辑推理
C.代码审查
D.测试用例
答案 A
形式化方法 = 形式化描述(formal specification)+ 模型检验(model checking)。
160
超参数调优中通常使用( )来评估模型性能。
A.交叉验证
B.网格搜索
C.随机搜索
D.贝叶斯优化
答案 A
网格搜索/随机搜索/贝叶斯优化是搜索策略,交叉验证才是"评估性能"的方法。
161
( )不是模型训练动态监控工具的典型功能。
A.提供训练损失和验证损失的实时图表
B.检测并报告过拟合或欠拟合现象
C.自动调整模型参数以优化性能
D.允许用户远程访问和操作训练环境
答案 C
监控工具只"看"不"动"——自动调整参数是自动调参工具的事,监控工具只负责展示和报警。
162
解决模型性能不佳问题,推荐( )。
A.立即增加模型参数数量
B.检查训练数据质量,确保没有错误或偏差
C.忽略验证集,只关注训练集准确率
D.停止训练
答案 B
数据质量是一切的根基。"Garbage in, garbage out" —— 先查数据再调模型。
163
( )不是常用的 ML 评价指标。
A.准确率 Accuracy
B.精确率 Precision
C.召回率 Recall
D.运行时间 Run Time
答案 D
ABC 是标准ML评价指标。运行时间不是模型"预测质量"的评价指标。
164
关于模型部署描述正确的是( )。
A.只需要考虑技术因素
B.是一次性完成的过程
C.需要确保模型的安全性和隐私性
D.不需要考虑用户体验
答案 C
部署不是只管技术(A×),不是一次性(B×),必须考虑安全和隐私。D 明显错误。
165
自动化模型更新和版本管理通常使用( )工具。
A.Git
B.SVN
C.Jenkins
D.Spinnaker
答案 C
Jenkins 是最主流的 CI/CD 工具,自动化构建/测试/部署流水线。
数据预处理(128-138, 143-146, 152-153)
128
数据探索分析的结果通常用于支持( )决策。
A.业务策略制定
B.产品研发
C.市场推广
D.客户关系管理
答案 A
数据探索分析(EDA)的最终目的是帮助制定业务策略。
129
( )可以帮助我们更好地理解数据的结构和特点
A.数据可视化
B.统计分析
C.数据挖掘
D.机器学习
答案 A
"理解数据的结构和特点" → 一图胜千言,数据可视化最直观。
130
缺失数据处理中,( )适用于存在大量相似观测值的情况。
A.删除法
B.填充法
C.插值法
D.替换法
答案 B
大量相似观测值 → 可以用均值/中位数等统计量填充缺失值。
131
分类数据的缺失值可以用( )处理。
A.删除法
B.均值填充
C.中位数填充
D.众数填充
答案 D
分类数据 = 类别型(如"红/蓝/绿")→ 用众数(出现最多的值)填充。均值/中位数只适用于数值型。
132
箱线图法在异常值检测中的作用是( )。
A.确定数据的分布范围
B.识别数据中的异常值
C.评估数据的离散程度
D.判断数据的集中趋势
答案 B
箱线图中超出上下须(1.5×IQR)的点就是异常值。这题在问"异常值检测中的作用",直接选 B。
133
Z-score 方法是一种基于( )的异常值检测方法。
A.最大值
B.中位数
C.众数
D.标准差
答案 D
Z-score = (x - μ) / σ,σ 就是标准差。|Z| > 3 通常认为是异常值。
134
消除信号中平稳随机噪声主要用( )。
A.滤波法
B.变换法
C.统计法
D.模型法
答案 A
滤波(如均值滤波、中值滤波)是消除噪声的经典方法。
135
位图法在数据去重中通过( )。
A.比较每个数据与已有数据的相似度
B.记录每个数据是否出现过
C.对数据进行排序
D.对数据进行压缩
答案 B
位图(bitmap):每个bit位标记某个值是否出现过,1=出现过,0=没出现过。
136
数据归一化处理的定义是( )。
A.将所有值转换为相同的格式
B.将所有值缩放到 0 到 1 之间
C.将所有值增加到最大可能值
D.将所有值减少到最小可能值
答案 B
归一化(Normalization)= Min-Max Scaling,公式:(x - min) / (max - min),结果在 [0,1]。你实操用的 StandardScaler 是标准化(Z-score),概念不同但同属数据缩放。
137
数据白化处理的主要目的是( )。
A.提高数据的准确性
B.减少数据的冗余
C.增强数据的可读性
D.保护数据的隐私
答案 B
白化 = 让数据各维度方差为1且互不相关 → 消除特征间冗余。
138
特征工程通常需要对数据进行( )。
A.数据清洗
B.数据集成
C.数据变换
D.数据划分
答案 C
特征工程的核心是数据变换(标准化、编码、构造新特征等),让数据更适合模型学习。
143
分布式数据处理的优势主要得益于( )。
A.负载均衡技术
B.数据压缩技术
C.数据缓存技术
D.数据加密技术
答案 A
分布式 = 把任务分给多台机器 → 负载均衡让各机器均衡地处理任务。
144
确保数据可追溯性,数据管理流程包括数据的( )、存储、传输和销毁。
A.创建
B.收集
C.分析
D.应用
答案 B
数据生命周期:收集 → 存储 → 传输 → 销毁。收集是第一步。
145
数据可追溯性的主要目的是( )。
A.提高数据处理速度
B.减少数据存储成本
C.确保数据来源和修改历史的透明度
D.增加数据的复杂性
答案 C
可追溯 = 能追踪"数据从哪来、经过了什么处理"。核心就是透明度。
146
Excel 中识别重复数据的最佳实践是( )。
A.使用"条件格式"高亮显示重复值
B.手动检查每一行
C.使用排序查找重复值
D.将数据转换为文本格式
答案 A
条件格式 → 突出显示单元格规则 → 重复值,一键搞定。
152
文本预处理中,( )步骤将文本转换为数值型数据
A.分词
B.去除停用词
C.词干提取
D.编码转换
答案 D
编码(如 One-Hot、TF-IDF、Word2Vec)把文字变成数字向量,模型才能处理。
153
将高维数据映射到低维空间的降维方法是( )。
A.主成分分析
B.线性判别分析
C.决策树
D.遗传算法
答案 A
PCA 是最经典的降维方法。LDA 也可以降维但更侧重分类。
容器化 & 云平台 & 测试(166-200)
166
( )不是云平台提供的优势或服务。
A.弹性计算资源
B.预配置的 AI/ML 服务
C.限制用户只能选择特定区域的数据中心
D.按需付费模式
答案 C
"限制"不是优势。云平台的卖点恰恰是全球多区域可选。
167
容器化技术的核心优势是( )。
A.提供丰富的用户图形界面
B.需要占用大量系统资源
C.实现应用的快速部署和高效资源利用
D.主要用于网络安全防护
答案 C
容器 = 轻量级打包 + 一键部署。比虚拟机更省资源,比裸机部署更方便。
168
容器化与虚拟机的主要区别是( )。
A.容器运行在 OS 之上,虚拟机运行在硬件之上
B.容器用轻量级隔离环境,虚拟机用完整操作系统
C.容器不支持多操作系统
D.容器不涉及硬件抽象
答案 B
容器共享宿主 OS 内核(轻量级隔离),虚拟机每个都带完整 OS(重量级隔离)。
169
大规模数据的分布式处理最适合( )。
A.Pandas
B.NumPy
C.Apache Spark
D.Matplotlib
答案 C
Spark 专为大规模分布式数据处理设计。Pandas/NumPy 是单机库,Matplotlib 是画图库。
170
高性能计算资源主要关注( )方面。
A.硬件设备的物理维护
B.算法的优化与调参
C.网络带宽的分配
D.操作系统的升级
答案 B
HPC 环境中训练师的核心工作是算法优化与调参,充分利用计算资源。
171
性能监控工具可以帮我们( )系统性能瓶颈。
A.发现
B.解决
C.预测
D.优化
答案 A
监控工具"发现"瓶颈,"解决"和"优化"要靠人来操作。
172
识别软件边界条件的测试方法是( )。
A.等价类划分法
B.边界值分析法
C.因果图法
D.决策表技术
答案 B
边界值分析 = 测试输入的边界情况(如最小值、最大值、刚好超出范围)。名字就是答案。
173
AI 测试的主要目的是( )。
A.降低研发成本
B.提升算法计算速度
C.确保 AI 系统的功能和性能符合预期
D.增加数据输入量
答案 C
测试的目的就是验证"做出来的东西是不是符合预期"。
174
AI 测试工具的主要目的是( )。
A.发现缺陷
B.提高代码质量
C.优化算法性能
D.降低开发成本
答案 A
测试工具的核心目的 = 找bug/发现缺陷。
175
使用测试框架时不推荐的操作是( )。
A.频繁修改测试代码
B.在测试过程中查看日志
C.在测试之前编写详细的测试计划
D.在测试之后编写测试报告
答案 A
频繁修改测试代码 = 测试不稳定 = 不可靠。BCD 都是推荐的实践。
176
回归测试通常采用( )方法。
A.自动化
B.手动
C.性能
D.兼容性
答案 A
回归测试 = 每次改代码后重新跑全部测试 → 必须自动化才有可行性。
177
实时系统中确保响应速度的关键指标是( )。
A.模型的复杂度
B.训练时间
C.数据集大小
D.推理时间
答案 D
实时系统 → 用户等的是推理结果 → 推理时间(inference time)决定响应速度。训练时间是一次性的。
178
避免过拟合,将数据集划分为训练集和( )。
A.验证集
B.测试集
C.开发集
D.学习集
答案 A
验证集用来监控训练过程中的过拟合(训练集 loss 在降但验证集 loss 在升 = 过拟合了)。
179
算法鲁棒性测试通常采用的方法是( )。
A.边界值分析
B.等价类划分
C.因果图法
D.错误推测法
答案 A
鲁棒性 = 在极端/边界情况下是否还能正常工作 → 边界值分析。
180
算法安全性测试需要考虑( )。
A.输入数据的合法性
B.算法的执行效率
C.算法的输出结果
D.算法的健壮性
答案 A
安全性测试的核心 = 检查恶意/非法输入会不会导致系统崩溃或被攻击。
181
可解释性测试中关注算法内部逻辑的方法是( )。
A.基于模型
B.基于规则
C.基于数据
D.基于经验
答案 A
基于模型的方法直接分析模型内部结构和决策逻辑。
182
数据多样性与公平性测试中最重要的原则是( )。
A.确保数据的全面性
B.关注数据的代表性
C.评估算法的公平性
D.保证数据的准确性
答案 C
题目问的是"公平性测试"→ 最重要的原则当然是评估算法的公平性。
183
K 折交叉验证中 K 的取值通常为( )。
A.2
B.3
C.5
D.1
答案 C
5折和10折是最常用的。1折没有意义,2折太少。
184
算法部署之前进行的步骤是( )。
A.数据收集与处理
B.模型训练与优化
C.算法部署
D.效果评估
答案 B
流程:数据准备 → 模型训练与优化 → 部署 → 效果评估。部署之前当然是训练。
185
用户反馈集成的主要目的是( )。
A.减少测试用例数量
B.收集用户定量评价
C.利用用户的实际使用情况来评估和改进系统
D.将用户反馈作为训练的主要数据来源
答案 C
用户反馈 = 真实使用情况 → 用来评估和改进。不是替代训练数据(D×)。
186
评估预测值与实际值关系强度用什么统计量。
A.方差
B.相关系数
C.标准差
D.中位数
答案 B
相关系数(correlation coefficient)衡量两个变量之间的线性关系强度,范围 [-1, 1]。
187
测试报告中不是必须的是( )。
A.测试用例的描述
B.测试结果的详细数据
C.测试环境的配置信息
D.开发者的个人感想
答案 D
测试报告是正式文档,不需要个人感想。ABC 都是标准组成部分。
188
查看异常详细信息使用( )。
A.输出语句
B.日志记录
C.单元测试
D.调试器
答案 D
调试器(debugger)可以设置断点、单步执行、查看变量值 → 最详细的异常分析。
189
模型可视化工具的关键应用是( )。
A.替代编码调试
B.帮助识别过拟合或欠拟合现象
C.代替数据预处理
D.生成随机数据
答案 B
如 TensorBoard 可视化训练/验证 loss 曲线,一看就知道是过拟合还是欠拟合。
190
日志分析中使用正则表达式的目的是( )。
A.压缩日志文件
B.快速定位和提取日志中的特定模式或关键信息
C.将日志数据转换为另一种格式
D.创建日志数据的备份
答案 B
正则表达式 = 模式匹配利器,从大量日志中快速提取关键信息。
191
( )工具可以帮助自动化测试过程
A.代码编辑器
B.版本控制系统
C.测试框架
D.文档管理系统
答案 C
测试框架(如 pytest, JUnit)就是用来自动化运行测试的。
192
敏捷开发强调( )。
A.频繁的代码审查和修复
B.长期的项目规划和执行
C.严格的需求分析和设计
D.定期的项目评审和反馈
答案 D
敏捷 = 快速迭代 + 持续反馈。D 最符合"快速响应变化并持续改进"。
193
合规性测试的标准不包括( )。
A.符合法律法规要求
B.符合行业规范
C.符合公司内部政策
D.符合员工需求
答案 D
合规 = 法律 + 行业标准 + 公司政策。员工需求不属于合规范畴。
194
性能优化应遵循( )原则。
A.先易后难
B.先难后易
C.一次性解决所有问题
D.逐步进行优化
答案 D
性能优化 = 度量 → 优化 → 再度量 → 再优化,是一个逐步迭代的过程。
195
企业平衡经济效益和伦理的方法是( )。
A.以经济为主,伦理为辅
B.以伦理为重,经济为辅
C.寻找经济效益和伦理的最佳平衡点
D.直接追求经济最大化
答案 C
平衡 = 找平衡点。A/B/D 都是一边倒,只有 C 是真正的"平衡"。
196
数据拆解的主要目的是( )。
A.增加数据的复杂性
B.简化数据分析过程
C.提高数据处理的效率
D.使数据更难以理解
答案 B
拆解 = 把复杂问题拆成简单部分 → 简化分析。AD 明显错误。
197
关于数据拆解模型原理,( )说法不正确。
A.数据拆解可以提高模型训练效率
B.数据拆解无法帮助避免过拟合问题
C.数据拆解有助于更准确地评估模型性能
D.数据拆解能够减少运行时间和计算量
答案 B
数据拆解(如划分训练/验证集)恰好就是用来检测和避免过拟合的,说"无法帮助"是错误的。
198
训练集/验证集/测试集的常见合理比例是( )。
A.50% / 25% / 25%
B.20% / 60% / 20%
C.70% / 15% / 15%
D.40% / 30% / 30%
答案 C
70/15/15 是经典比例。训练集需要占大头,验证和测试各占一小部分。B 中训练集只有20%太少。
199
PCA 在数据拆解中主要用于( )。
A.增加数据的维度
B.降低数据维度,减少计算复杂度
C.保持数据维度不变
D.随机改变数据维度
答案 B
PCA = 降维。保留主要信息的同时减少维度,降低计算复杂度。
200
特征之间存在高度共线性时,最可能发生( )。
A.特征的重要性会被低估
B.特征的重要性会被高估
C.特征选择将无法进行
D.特征之间的相关性将被忽略
答案 A
高度共线 = 多个特征说同样的信息 → 模型难以区分谁重要 → 各自的重要性被稀释/低估。