第一章:AI基础概念入门
Q1:什么是数据驱动?
回答: 数据驱动指的是我们基于客观的量化数据,通过主动数据的采集分析以支持决策。与之相对的是经验驱动,比如我们常说的「拍脑袋」。
数据驱动包含几个关键过程:数据获取、数据清洗、数据分析、数据应用、数据反馈。
Q2:什么是模型?
回答: 在AI数据驱动的范畴内,模型指的是基于数据X做决策Y的假设函数,可以有不同的形态,如计算型和规则型等。
Q3:什么是算法?
回答: 算法指学习模型的具体计算方法。统计学习基于训练数据集,根据学习策略,从假设空间中选择最优模型,最后需要考虑用什么样的计算方法求解最优模型。通常是一个最优化问题。
第二章:大语言模型核心概念
Q4:常见的AI模型类型有哪些?
回答: 常见的AI模型类型包括:
- Embedding 模型:将文本转换为向量表示
- Rerank 模型:对搜索结果重新排序
- 语音转文本模型:将语音转换为文字(如Whisper)
- 文本转语音模型:将文字转换为语音
Q5:什么是128k context window?
回答: 128k context window是指大语言模型的上下文窗口大小为128,000个令牌(token)。
- 含义:上下文窗口相当于模型的工作记忆,决定了模型在一次处理中能同时"看到"或"记住"的最大文本量
- 作用:较大的上下文窗口使模型能够考虑更多的前文信息,从而生成更连贯、准确的回答
- 影响:虽然增加上下文窗口大小有诸多好处,但也会带来计算资源需求的增加
第三章:机器学习核心概念
Q6:什么是回归?
回答: 回归是根据对已知属性值数据的训练,为模型寻找最佳拟合参数,基于模型预测新样本的输出值。例如预测房价、股票走势等连续值。
Q7:什么是分类?
回答: 分类是应用以分类数据进行模型训练,根据模型对新样本进行精准分类与预测。例如判断邮件是否为垃圾邮件、图片中是猫还是狗等。
Q8:什么是聚类?
回答: 聚类是从海量数据中识别数据的相似性与差异性,并按照最大共同点聚合为多个类别。例如将用户按照行为特征分成不同群体。
Q9:什么是异常检测?
回答: 异常检测是对数据点的分布规律进行分析,识别与正常数据及差异较大的离群点。例如检测信用卡欺诈、网络入侵等异常行为。
第四章:机器学习工作流程
Q10:机器学习的工作流程是怎样的?
回答: 机器学习工作流(WorkFlow)包含以下四个主要步骤:
- 数据预处理:输入(未处理的数据 + 标签)→处理过程(特征处理、幅度缩放、特征选择、维度约减、采样)→输出(测试集 + 训练集)
- 模型学习:模型算法选择、交叉验证、结果评估、超参选择
- 模型评估:了解模型对于数据集测试的得分
- 新样本预测:预测测试集
Q11:机器学习的数据流程是怎样的?
flowchart TD
A[1. 数据收集] -->|明确数据源+特征/标签| B[2. 数据预处理]
B --> B1[数据清洗
缺失值+异常值+重复值处理]
B1 --> B2[特征工程
选择+变换+构造]
B2 --> B3[数据集划分
训练集+验证集+测试集]
B3 --> B4[特殊处理
类别不平衡数据优化]
B4 --> C[3. 模型训练]
C --> C1[选择适配模型
分类/回归/聚类]
C1 --> C2[初始化超参数]
C2 --> C3[训练集训练模型]
C3 --> C4[验证集监控训练过程]
C4 --> D[4. 模型评估]
D --> D1[测试集评估性能
分类:Acc/P/R/F1
回归:MSE/RMSE/MAE]
D1 --> D2{性能是否达标?}
D2 -->|否| E[5. 模型调优]
E --> E1{诊断问题
过拟合/欠拟合}
E1 -->|过拟合| E2[增加样本/降低复杂度/正则化]
E1 -->|欠拟合| E3[增加特征/提升模型复杂度]
E2 & E3 --> E4[超参数调优
网格/随机/贝叶斯搜索]
E4 --> C2
D2 -->|是| F[6. 模型部署与监控]
F --> F1[封装为API/嵌入式程序]
F1 --> F2[实时监控模型性能]
F2 --> F3{性能下降?}
F3 -->|是| A
F3 -->|否| F4[定期迭代优化]
第五章:机器学习术语详解
Q12:机器学习中的核心术语有哪些?
| 中文术语 | 英文术语 | 符号表示 | 解释 |
|---|---|---|---|
| 数据集 | Dataset | $D$ | 一组记录的集合,每条记录描述一个事件或对象 |
| 样本/示例 | Sample/Instance | $x$ | 数据集中的单条记录,描述事件或对象的特征 |
| 属性/特征 | Attribute/Feature | - | 描述样本的某个特性,如"色泽"“重量” |
| 属性值 | Attribute Value | $x_i$ | 属性取到的具体值,如"青绿"“80㎡” |
| 属性空间/样本空间 | Attribute Space/Sample Space | $\mathcal{X}$ | 由所有属性张成的多维空间 |
| 特征向量 | Feature Vector | $\boldsymbol{x} = (x_1;x_2;\dots;x_d)$ | 样本在属性空间中的坐标表示形式 |
| 维数 | Dimensionality | $d$ | 样本属性的个数,即特征向量的维度 |
| 标记/标签 | Label | $y$ | 样本的"结果"信息,如"好瓜"“房价200万” |
| 样例 | Example | $(\boldsymbol{x}, y)$ | 拥有标记信息的样本,即(特征向量, 标记)对 |
| 训练集 | Training Set | $D_{train}$ | 用于训练模型、让模型学习规律的数据集 |
| 测试集 | Test Set | $D_{test}$ | 用于评估训练后模型泛化能力的数据集 |
| 独立同分布 | Independent and Identically Distributed | i.i.d | 训练集和测试集的样本相互独立,且服从相同概率分布 |
Q13:什么是过拟合和欠拟合?
回答:
- 过拟合(Overfitting):模型在训练集上表现极好,但在测试集上表现很差,泛化能力弱
- 欠拟合(Underfitting):模型在训练集和测试集上表现都很差,未学到数据的核心规律
Q14:如何处理类别不平衡数据?
回答:
| 中文术语 | 英文术语 | 解释 |
|---|---|---|
| 过采样 | Oversampling | 对少数类样本进行复制或生成新样本(如SMOTE算法) |
| 欠采样 | Undersampling | 对多数类样本进行随机删除,平衡样本分布 |
Q15:分类任务和回归任务的评估指标有哪些?
回答:
分类任务评估指标:
| 中文术语 | 英文术语 | 公式 | 解释 |
|---|---|---|---|
| 准确率 | Accuracy | $Acc=\frac{TP+TN}{TP+TN+FP+FN}$ | 正确预测的样本数占总样本数的比例 |
| 精确率/查准率 | Precision | $P=\frac{TP}{TP+FP}$ | 预测为正类的样本中真实正类的比例 |
| 召回率/查全率 | Recall | $R=\frac{TP}{TP+FN}$ | 真实正类样本中被正确预测的比例 |
| F1分数 | F1 Score | $F1=\frac{2\times P\times R}{P+R}$ | 精确率和召回率的调和均值 |
| 混淆矩阵 | Confusion Matrix | - | 展示TP/TN/FP/FN的分布 |
回归任务评估指标:
| 中文术语 | 英文术语 | 公式 | 解释 |
|---|---|---|---|
| 均方误差 | MSE | $MSE=\frac{1}{n}\sum_{i=1}^n(\hat{y}_i-y_i)^2$ | 预测值与真实值差的平方的均值 |
| 均方根误差 | RMSE | $RMSE=\sqrt{MSE}$ | MSE的平方根,量纲与真实值一致 |
| 平均绝对误差 | MAE | $MAE=\frac{1}{n}\sum_{i=1}^n | \hat{y}_i-y_i |
第六章:机器学习应用场景
Q16:机器学习有哪些典型应用场景?
回答: 机器学习已广泛应用于以下领域:
| 应用场景 | 英文 | 实际例子 | 相关算法/模型 |
|---|---|---|---|
| 数据挖掘 | Data Mining | 银行信用风险评估 | 决策树、随机森林、SVM |
| 计算机视觉 | CV | 特斯拉自动驾驶检测行人和车辆 | CNN、YOLO、Mask R-CNN |
| 自然语言处理 | NLP | 谷歌翻译 | RNN、LSTM、Transformer |
| 生物特征识别 | Biometric Recognition | iPhone Face ID | FaceNet、CNN |
| 搜索引擎 | Search Engine | 百度搜索排序 | PageRank、LambdaMART |
| 医学诊断 | Medical Diagnosis | 皮肤癌识别 | CNN、逻辑回归 |
| 信用卡欺诈检测 | CCFD | 银行反欺诈系统 | 梯度提升、随机森林 |
| 证券市场分析 | SMA | 股票价格预测 | 线性回归、随机森林 |
| DNA序列测序 | DNA-seq | 基因序列分析 | CNN、RNN、DNN |
| 语音和手写识别 | SHR | 苹果Siri语音助手 | HMM、RNN、LSTM |
| 机器人 | Robotics | 波士顿动力机器人 | 强化学习、CNN |
第七章:大模型训练进阶
Q17:什么是SFT?
回答: SFT(Supervised Fine-Tuning,监督微调)是在预训练大模型的基础上,使用人工标注的高质量数据进一步训练,让模型学会按照人类期望的方式回答问题或执行任务。它是ChatGPT、Claude等对话模型从"会写字"变成"会聊天"的关键步骤。
Q18:SFT为什么能让模型说得更好?
回答: 预训练模型本质上只是"预测下一个词",虽然知识丰富,但存在三个问题:
- 不会对话:它只是在续写文本,不理解"用户提问→模型回答"的交互格式
- 风格混乱:可能生成冗长、跑题、不相关的内容
- 不懂拒绝:对有害请求或超出能力范围的问题缺乏判断力
SFT通过高质量的人工"问答对"数据,明确教模型:
- 如何理解指令意图
- 如何组织回答结构
- 何时应该拒绝回答
- 采用什么语气风格
相当于把"博览群书但不懂社交的书呆子"训练成"能礼貌、准确、有边界地交流的助手"。
Q19:为什么要有预训练和SFT两个阶段?
回答: 核心原因是成本和能力分工:
- 预训练需要数千亿token的海量数据,全用人工标注成本不可承受
- 预训练阶段学习通用语言能力,SFT阶段学习特定任务能力
Q20:如何选择SFT的训练数据?
回答: 选择数据时要检查:
- 任务匹配:数据要覆盖目标任务的各种场景
- 领域匹配:数据分布要与实际应用场景一致
- 风格匹配:回答风格要符合预期
- 质量达标:标注准确、无噪声
- 边界清晰:涵盖边界case的处理
- 分布均衡:各类样本比例合理