AI学习基本概念基础知识


Embedding 模型
Rerank 模型
语音转文本模型
文本转语音模型

128k context window 是指大语言模型的上下文窗口大小为 128,000 个令牌(token)。它是衡量模型长文本处理能力的重要指标。以下是具体介绍:

含义:上下文窗口相当于模型的工作记忆,决定了模型在一次处理中能同时 “看到” 或 “记住” 的最大文本量。例如,GPT-4 Turbo、Llama 3.1 等模型就具备 128k 的上下文窗口,意味着它们可以处理最长达 128,000 个 token 的文本输入,能更好地处理长文档分析、多轮对话等任务。
作用:较大的上下文窗口使模型能够考虑更多的前文信息,从而生成更连贯、准确的回答,减少因遗忘前文导致的回答偏差。例如在处理长篇小说分析时,128k 的上下文窗口能让模型参考更多章节内容,给出更全面的分析。
影响:虽然增加上下文窗口大小有诸多好处,但也会带来计算资源需求的增加,导致成本上升,同时可能增加模型受对抗性攻击的风险。

数据驱动 :数据驱动指的是我们基于客观的量化数据,通过主动数据的采集分析以支持决策。与之相对的是经验驱动,比如我们常说的「拍脑袋」。

几个过程:数据获取,数据清洗,数据分析,数据应用,数据反馈

模型 :在AI数据驱动的范畴内,模型指的是基于数据X做决策Y的假设函数,可以有不同的形态,计算型和规则型等。

算法 :指学习模型的具体计算方法。统计学习基于训练数据集,根据学习策略,从假设空间中选择最优模型,最后需要考虑用什么样的计算方法求解最优模型。通常是一个最优化的问题。

  • 回归 :根据对已知属性值数据的训练,为模型寻找最佳拟合参数,基于模型预测新样本的输出值。
  • 分类 :应用以分类数据进行模型训练,根据模型对新样本进行精准分类与预测。
  • 聚类 :从海量数据中识别数据的相似性与差异性,并按照最大共同点聚合为多个类别。
  • 异常检测 :对数据点的分布规律进行分析,识别与正常数据及差异较大的离群点。

机器学习的步骤

机器学习工作流(WorkFlow)包含数据 预处理 (Processing)、 模型学习 (Learning)、 模型评估 (Evaluation)、 新样本预测 (Prediction)几个步骤。

  • 数据预处理 :输入(未处理的数据 + 标签)→处理过程(特征处理+幅度缩放、特征选择、维度约减、采样)→输出(测试集 + 训练集)。
  • 模型学习 :模型算法选择、交叉验证、结果评估、超参选择。
  • 模型评估 :了解模型对于数据集测试的得分。
  • 新样本预测 :预测测试集。

机器学习基本概念

机器学习数据、预处理及模型评估核心名词对照表

中文术语 英文术语 符号表示 解释
数据集 Dataset DD 一组记录的集合,每条记录描述一个事件或对象
样本/示例 Sample/Instance xx 数据集中的单条记录,描述事件或对象的特征
属性/特征 Attribute/Feature - 描述样本的某个特性,如“色泽”“重量”“房屋面积”
属性值 Attribute Value xix_i 属性取到的具体值,如“青绿”“80㎡”
属性空间/样本空间 Attribute Space/Sample Space X\mathcal{X} 由所有属性张成的多维空间
特征向量 Feature Vector x=(x1;x2;;xd)\boldsymbol{x} = (x_1;x_2;\dots;x_d) 样本在属性空间中的坐标表示形式
维数 Dimensionality dd 样本属性的个数,即特征向量的维度
标记/标签 Label yy 样本的“结果”信息,监督学习的预测目标,如“好瓜”“房价200万”
样例 Example (x,y)(\boldsymbol{x}, y) 拥有标记信息的样本,即(特征向量, 标记)对
标记空间/输出空间 Label Space/Output Space Y\mathcal{Y} 所有可能标记的集合,如{好瓜, 坏瓜}、R\mathbb{R}(连续值)
训练集 Training Set DtrainD_{train} 用于训练模型、让模型学习规律的数据集
测试集 Test Set DtestD_{test} 用于评估训练后模型泛化能力的数据集,模型训练时未见过
独立同分布 Independent and Identically Distributed i.i.d 机器学习基本假设:训练集和测试集的样本相互独立,且服从相同概率分布
数据清洗 Data Cleaning - 处理原始数据中的脏数据,包括缺失值填充、异常值处理、重复值去除
缺失值填充 Missing Value Imputation - 补充数据中缺失的属性值,方法有均值/中位数填充、众数填充、模型预测填充等
异常值处理 Outlier Handling - 识别并处理偏离正常数据分布的异常点,方法有删除、截断、转换等
特征选择 Feature Selection - 筛选与目标标签相关性高的特征,剔除冗余、无关特征,提升模型效率
特征变换 Feature Transformation - 对特征进行数学变换,使其更适配模型,常见操作有标准化、归一化
标准化 Standardization - 将特征转换为均值为0、方差为1的分布,公式:x=xμσx'=\frac{x-\mu}{\sigma}
归一化 Normalization - 将特征缩放到0~1区间,公式:x=xxminxmaxxminx'=\frac{x-x_{min}}{x_{max}-x_{min}}
独热编码 One-Hot Encoding - 处理无序类别特征的方法,将离散类别转为二进制向量,避免类别间大小误导
标签编码 Label Encoding - 将类别特征转为连续数字(如红=0、蓝=1),适合有序类别特征
过采样 Oversampling - 处理类别不平衡数据的方法,对少数类样本进行复制或生成新样本(如SMOTE算法)
欠采样 Undersampling - 处理类别不平衡数据的方法,对多数类样本进行随机删除,平衡样本分布
准确率 Accuracy AccAcc 分类任务评估指标,正确预测的样本数占总样本数的比例,Acc=TP+TNTP+TN+FP+FNAcc=\frac{TP+TN}{TP+TN+FP+FN}
精确率/查准率 Precision PP 分类任务评估指标,预测为正类的样本中真实正类的比例,P=TPTP+FPP=\frac{TP}{TP+FP}
召回率/查全率 Recall RR 分类任务评估指标,真实正类样本中被正确预测的比例,R=TPTP+FNR=\frac{TP}{TP+FN}
F1分数 F1 Score F1F1 精确率和召回率的调和均值,平衡二者矛盾,F1=2×P×RP+RF1=\frac{2\times P\times R}{P+R}
混淆矩阵 Confusion Matrix - 分类任务的可视化评估工具,行表示真实类别,列表示预测类别,展示TP/TN/FP/FN的分布
均方误差 Mean Squared Error MSEMSE 回归任务评估指标,预测值与真实值差的平方的均值,MSE=1ni=1n(y^iyi)2MSE=\frac{1}{n}\sum_{i=1}^n(\hat{y}_i-y_i)^2
均方根误差 Root Mean Squared Error RMSERMSE 回归任务评估指标,MSE的平方根,量纲与真实值一致,RMSE=MSERMSE=\sqrt{MSE}
平均绝对误差 Mean Absolute Error MAEMAE 回归任务评估指标,预测值与真实值差的绝对值的均值,$MAE=\frac{1}{n}\sum_{i=1}^n
过拟合 Overfitting - 模型在训练集上表现极好,但在测试集上表现很差,泛化能力弱
欠拟合 Underfitting - 模型在训练集和测试集上表现都很差,未学到数据的核心规律

需要我帮你整理一份机器学习数据流程速记清单,把数据收集、预处理、训练、评估的关键步骤串联起来吗?


flowchart TD
    A[1. 数据收集] -->|明确数据源+特征/标签| B[2. 数据预处理]
    B --> B1[数据清洗<br/>缺失值+异常值+重复值处理]
    B1 --> B2[特征工程<br/>选择+变换+构造]
    B2 --> B3[数据集划分<br/>训练集+验证集+测试集]
    B3 --> B4[特殊处理<br/>类别不平衡数据优化]
    B4 --> C[3. 模型训练]
    C --> C1[选择适配模型<br/>分类/回归/聚类]
    C1 --> C2[初始化超参数]
    C2 --> C3[训练集训练模型]
    C3 --> C4[验证集监控训练过程]
    C4 --> D[4. 模型评估]
    D --> D1[测试集评估性能<br/>分类:Acc/P/R/F1<br/>回归:MSE/RMSE/MAE]
    D1 --> D2{性能是否达标?}
    D2 -->|否| E[5. 模型调优]
    E --> E1{诊断问题<br/>过拟合/欠拟合}
    E1 -->|过拟合| E2[增加样本/降低复杂度/正则化]
    E1 -->|欠拟合| E3[增加特征/提升模型复杂度]
    E2 & E3 --> E4[超参数调优<br/>网格/随机/贝叶斯搜索]
    E4 --> C2
    D2 -->|是| F[6. 模型部署与监控]
    F --> F1[封装为API/嵌入式程序]
    F1 --> F2[实时监控模型性能]
    F2 --> F3{性能下降?}
    F3 -->|是| A
    F3 -->|否| F4[定期迭代优化]

机器学习应用场景

作为一套数据驱动的方法,机器学习已广泛应用于数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA序列测序、语音和手写识别和机器人等领域。

  1. 数据挖掘
    • 定义:从大量数据中发现有用模式和知识的过程,涉及数据预处理、分类、回归、聚类等多种任务。
    • 英文:Data Mining
    • 英文简称:无常用简称
    • 实际例子:银行通过数据挖掘分析客户交易数据,进行信用风险评估,识别高风险客户。
    • 相关算法模型:决策树(Decision Tree,DT)、随机森林(Random Forest,RF)、支持向量机(Support Vector Machine,SVM)等。
  2. 计算机视觉
    • 定义:让计算机像人类一样“看懂”图像和视频,涉及图像分类、目标检测、图像分割等任务。
    • 英文:Computer Vision
    • 英文简称:CV
    • 实际例子:特斯拉的Autopilot系统使用计算机视觉技术检测道路上的车辆、行人和障碍物,确保自动驾驶的安全性。
    • 相关算法模型:卷积神经网络(Convolutional Neural Network,CNN)、YOLO(You Only Look Once)、Mask R - CNN等。
  3. 自然语言处理
    • 定义:让计算机理解和处理人类自然语言,包括文本分类、情感分析、机器翻译、问答系统等任务。
    • 英文:Natural Language Processing
    • 英文简称:NLP
    • 实际例子:谷歌翻译利用自然语言处理技术实现不同语言之间的自动翻译。
    • 相关算法模型:循环神经网络(Recurrent Neural Network,RNN)、长短时记忆网络(Long Short - Term Memory,LSTM)、Transformer模型等。
  4. 生物特征识别
    • 定义:通过个体的生物特征(如指纹、人脸、虹膜等)进行身份识别或验证。
    • 英文:Biometric Recognition
    • 英文简称:BR
    • 实际例子:iPhone的Face ID通过人脸识别技术实现手机解锁。
    • 相关算法模型:FaceNet用于人脸特征提取,还有一些基于卷积神经网络的模型用于指纹、虹膜等生物特征的识别。
  5. 搜索引擎
    • 定义:根据用户输入的关键词,从大量网页中检索出相关信息并排序展示的系统,涉及网页索引、关键词匹配、排序算法等。
    • 英文:Search Engine
    • 英文简称:SE
    • 实际例子:百度搜索引擎根据用户输入的查询词,返回相关的网页结果。
    • 相关算法模型:PageRank算法用于网页排序,还有一些基于机器学习的排序算法,如LambdaMART,用于根据用户行为等数据优化搜索结果排序。
  6. 医学诊断
    • 定义:利用医学数据(如医学影像、电子健康记录等),辅助医生对疾病进行检测、诊断和预测。
    • 英文:Medical Diagnosis
    • 英文简称:MD
    • 实际例子:斯坦福大学的研究团队利用CNN训练的模型,能够以超过专业医生的准确率识别皮肤癌。
    • 相关算法模型:卷积神经网络(CNN)用于医学影像分析,逻辑回归(Logistic Regression,LR)可用于疾病风险预测。
  7. 检测信用卡欺诈
    • 定义:通过分析信用卡交易数据,识别异常交易行为,检测信用卡欺诈行为。
    • 英文:Credit Card Fraud Detection
    • 英文简称:CCFD
    • 实际例子:银行利用相关技术检测信用卡交易中的欺诈行为,保护用户资金安全。
    • 相关算法模型:梯度提升(Gradient Boosting)、随机森林(RF)、投票分类器(Voting Classifier)等。
  8. 证券市场分析
    • 定义:对证券市场数据(如股票价格、交易量等)进行分析,预测市场趋势、股票价格走势等,为投资决策提供依据。
    • 英文:Securities Market Analysis
    • 英文简称:SMA
    • 实际例子:金融机构通过分析证券市场数据,预测股票价格走势,为投资者提供投资建议。
    • 相关算法模型:线性回归(Linear Regression)可用于预测股票价格走势,随机森林(RF)可用于分析影响股票价格的因素。
  9. DNA序列测序
    • 定义:确定特定DNA分子中核苷酸顺序,以了解其功能和对生物体的影响,还涉及片段对齐和合并等操作。
    • 英文:DNA Sequencing
    • 英文简称:DNA - seq
    • 实际例子:在生物医学研究中,通过DNA序列测序分析基因序列,研究疾病相关基因。
    • 相关算法模型:卷积神经网络(CNN)、循环神经网络(RNN)可用于序列分析任务,深度神经网络(DNN)可用于基因组注释和变异分类。
  10. 语音和手写识别
    • 定义:将语音信号或手写文字转换为计算机可处理的文本或指令,分别涉及语音识别和手写文字识别任务。
    • 英文:Speech and Handwriting Recognition
    • 英文简称:SHR
    • 实际例子:苹果的Siri通过语音识别技术理解用户语音指令并执行相应操作。
    • 相关算法模型:隐马尔可夫模型(Hidden Markov Model,HMM)、循环神经网络(RNN)及其变体LSTM等常用于语音识别,卷积神经网络(CNN)可用于手写文字识别。
  11. 机器人
    • 定义:使机器人能够自主或半自主地执行任务,涉及机器人的运动控制、环境感知、路径规划等。
    • 英文:Robotics
    • 英文简称:无常用简称
    • 实际例子:波士顿动力的机器人通过机器学习技术实现环境感知和动作控制,能够完成复杂的动作任务。
    • 相关算法模型:强化学习(Reinforcement Learning)算法可用于机器人的动作决策和路径规划,卷积神经网络(CNN)可用于机器人的视觉感知。

评论