AI学习基本概念基础知识


第一章:AI基础概念入门

Q1:什么是数据驱动?

回答: 数据驱动指的是我们基于客观的量化数据,通过主动数据的采集分析以支持决策。与之相对的是经验驱动,比如我们常说的「拍脑袋」。

数据驱动包含几个关键过程:数据获取、数据清洗、数据分析、数据应用、数据反馈。

Q2:什么是模型?

回答: 在AI数据驱动的范畴内,模型指的是基于数据X做决策Y的假设函数,可以有不同的形态,如计算型和规则型等。

Q3:什么是算法?

回答: 算法指学习模型的具体计算方法。统计学习基于训练数据集,根据学习策略,从假设空间中选择最优模型,最后需要考虑用什么样的计算方法求解最优模型。通常是一个最优化问题。


第二章:大语言模型核心概念

Q4:常见的AI模型类型有哪些?

回答: 常见的AI模型类型包括:

  • Embedding 模型:将文本转换为向量表示
  • Rerank 模型:对搜索结果重新排序
  • 语音转文本模型:将语音转换为文字(如Whisper)
  • 文本转语音模型:将文字转换为语音

Q5:什么是128k context window?

回答: 128k context window是指大语言模型的上下文窗口大小为128,000个令牌(token)。

  • 含义:上下文窗口相当于模型的工作记忆,决定了模型在一次处理中能同时"看到"或"记住"的最大文本量
  • 作用:较大的上下文窗口使模型能够考虑更多的前文信息,从而生成更连贯、准确的回答
  • 影响:虽然增加上下文窗口大小有诸多好处,但也会带来计算资源需求的增加

第三章:机器学习核心概念

Q6:什么是回归?

回答: 回归是根据对已知属性值数据的训练,为模型寻找最佳拟合参数,基于模型预测新样本的输出值。例如预测房价、股票走势等连续值。

Q7:什么是分类?

回答: 分类是应用以分类数据进行模型训练,根据模型对新样本进行精准分类与预测。例如判断邮件是否为垃圾邮件、图片中是猫还是狗等。

Q8:什么是聚类?

回答: 聚类是从海量数据中识别数据的相似性与差异性,并按照最大共同点聚合为多个类别。例如将用户按照行为特征分成不同群体。

Q9:什么是异常检测?

回答: 异常检测是对数据点的分布规律进行分析,识别与正常数据及差异较大的离群点。例如检测信用卡欺诈、网络入侵等异常行为。


第四章:机器学习工作流程

Q10:机器学习的工作流程是怎样的?

回答: 机器学习工作流(WorkFlow)包含以下四个主要步骤:

  1. 数据预处理:输入(未处理的数据 + 标签)→处理过程(特征处理、幅度缩放、特征选择、维度约减、采样)→输出(测试集 + 训练集)
  2. 模型学习:模型算法选择、交叉验证、结果评估、超参选择
  3. 模型评估:了解模型对于数据集测试的得分
  4. 新样本预测:预测测试集

Q11:机器学习的数据流程是怎样的?

flowchart TD
    A[1. 数据收集] -->|明确数据源+特征/标签| B[2. 数据预处理]
    B --> B1[数据清洗
缺失值+异常值+重复值处理] B1 --> B2[特征工程
选择+变换+构造] B2 --> B3[数据集划分
训练集+验证集+测试集] B3 --> B4[特殊处理
类别不平衡数据优化] B4 --> C[3. 模型训练] C --> C1[选择适配模型
分类/回归/聚类] C1 --> C2[初始化超参数] C2 --> C3[训练集训练模型] C3 --> C4[验证集监控训练过程] C4 --> D[4. 模型评估] D --> D1[测试集评估性能
分类:Acc/P/R/F1
回归:MSE/RMSE/MAE] D1 --> D2{性能是否达标?} D2 -->|否| E[5. 模型调优] E --> E1{诊断问题
过拟合/欠拟合} E1 -->|过拟合| E2[增加样本/降低复杂度/正则化] E1 -->|欠拟合| E3[增加特征/提升模型复杂度] E2 & E3 --> E4[超参数调优
网格/随机/贝叶斯搜索] E4 --> C2 D2 -->|是| F[6. 模型部署与监控] F --> F1[封装为API/嵌入式程序] F1 --> F2[实时监控模型性能] F2 --> F3{性能下降?} F3 -->|是| A F3 -->|否| F4[定期迭代优化]

第五章:机器学习术语详解

Q12:机器学习中的核心术语有哪些?

中文术语 英文术语 符号表示 解释
数据集 Dataset $D$ 一组记录的集合,每条记录描述一个事件或对象
样本/示例 Sample/Instance $x$ 数据集中的单条记录,描述事件或对象的特征
属性/特征 Attribute/Feature - 描述样本的某个特性,如"色泽"“重量”
属性值 Attribute Value $x_i$ 属性取到的具体值,如"青绿"“80㎡”
属性空间/样本空间 Attribute Space/Sample Space $\mathcal{X}$ 由所有属性张成的多维空间
特征向量 Feature Vector $\boldsymbol{x} = (x_1;x_2;\dots;x_d)$ 样本在属性空间中的坐标表示形式
维数 Dimensionality $d$ 样本属性的个数,即特征向量的维度
标记/标签 Label $y$ 样本的"结果"信息,如"好瓜"“房价200万”
样例 Example $(\boldsymbol{x}, y)$ 拥有标记信息的样本,即(特征向量, 标记)对
训练集 Training Set $D_{train}$ 用于训练模型、让模型学习规律的数据集
测试集 Test Set $D_{test}$ 用于评估训练后模型泛化能力的数据集
独立同分布 Independent and Identically Distributed i.i.d 训练集和测试集的样本相互独立,且服从相同概率分布

Q13:什么是过拟合和欠拟合?

回答:

  • 过拟合(Overfitting):模型在训练集上表现极好,但在测试集上表现很差,泛化能力弱
  • 欠拟合(Underfitting):模型在训练集和测试集上表现都很差,未学到数据的核心规律

Q14:如何处理类别不平衡数据?

回答:

中文术语 英文术语 解释
过采样 Oversampling 对少数类样本进行复制或生成新样本(如SMOTE算法)
欠采样 Undersampling 对多数类样本进行随机删除,平衡样本分布

Q15:分类任务和回归任务的评估指标有哪些?

回答:

分类任务评估指标:

中文术语 英文术语 公式 解释
准确率 Accuracy $Acc=\frac{TP+TN}{TP+TN+FP+FN}$ 正确预测的样本数占总样本数的比例
精确率/查准率 Precision $P=\frac{TP}{TP+FP}$ 预测为正类的样本中真实正类的比例
召回率/查全率 Recall $R=\frac{TP}{TP+FN}$ 真实正类样本中被正确预测的比例
F1分数 F1 Score $F1=\frac{2\times P\times R}{P+R}$ 精确率和召回率的调和均值
混淆矩阵 Confusion Matrix - 展示TP/TN/FP/FN的分布

回归任务评估指标:

中文术语 英文术语 公式 解释
均方误差 MSE $MSE=\frac{1}{n}\sum_{i=1}^n(\hat{y}_i-y_i)^2$ 预测值与真实值差的平方的均值
均方根误差 RMSE $RMSE=\sqrt{MSE}$ MSE的平方根,量纲与真实值一致
平均绝对误差 MAE $MAE=\frac{1}{n}\sum_{i=1}^n \hat{y}_i-y_i

第六章:机器学习应用场景

Q16:机器学习有哪些典型应用场景?

回答: 机器学习已广泛应用于以下领域:

应用场景 英文 实际例子 相关算法/模型
数据挖掘 Data Mining 银行信用风险评估 决策树、随机森林、SVM
计算机视觉 CV 特斯拉自动驾驶检测行人和车辆 CNN、YOLO、Mask R-CNN
自然语言处理 NLP 谷歌翻译 RNN、LSTM、Transformer
生物特征识别 Biometric Recognition iPhone Face ID FaceNet、CNN
搜索引擎 Search Engine 百度搜索排序 PageRank、LambdaMART
医学诊断 Medical Diagnosis 皮肤癌识别 CNN、逻辑回归
信用卡欺诈检测 CCFD 银行反欺诈系统 梯度提升、随机森林
证券市场分析 SMA 股票价格预测 线性回归、随机森林
DNA序列测序 DNA-seq 基因序列分析 CNN、RNN、DNN
语音和手写识别 SHR 苹果Siri语音助手 HMM、RNN、LSTM
机器人 Robotics 波士顿动力机器人 强化学习、CNN

第七章:大模型训练进阶

Q17:什么是SFT?

回答: SFT(Supervised Fine-Tuning,监督微调)是在预训练大模型的基础上,使用人工标注的高质量数据进一步训练,让模型学会按照人类期望的方式回答问题或执行任务。它是ChatGPT、Claude等对话模型从"会写字"变成"会聊天"的关键步骤。

Q18:SFT为什么能让模型说得更好?

回答: 预训练模型本质上只是"预测下一个词",虽然知识丰富,但存在三个问题:

  • 不会对话:它只是在续写文本,不理解"用户提问→模型回答"的交互格式
  • 风格混乱:可能生成冗长、跑题、不相关的内容
  • 不懂拒绝:对有害请求或超出能力范围的问题缺乏判断力

SFT通过高质量的人工"问答对"数据,明确教模型:

  • 如何理解指令意图
  • 如何组织回答结构
  • 何时应该拒绝回答
  • 采用什么语气风格

相当于把"博览群书但不懂社交的书呆子"训练成"能礼貌、准确、有边界地交流的助手"。

Q19:为什么要有预训练和SFT两个阶段?

回答: 核心原因是成本和能力分工

  • 预训练需要数千亿token的海量数据,全用人工标注成本不可承受
  • 预训练阶段学习通用语言能力,SFT阶段学习特定任务能力

Q20:如何选择SFT的训练数据?

回答: 选择数据时要检查:

  • 任务匹配:数据要覆盖目标任务的各种场景
  • 领域匹配:数据分布要与实际应用场景一致
  • 风格匹配:回答风格要符合预期
  • 质量达标:标注准确、无噪声
  • 边界清晰:涵盖边界case的处理
  • 分布均衡:各类样本比例合理


评论
  目录