发布日期: 2025-07-12

更新日期: 2026-01-31

文章字数: 3.9k

阅读时长: 14 分

阅读次数:

Embedding 模型
Rerank 模型
语音转文本模型
文本转语音模型

128k context window 是指大语言模型的上下文窗口大小为 128,000 个令牌（token）。它是衡量模型长文本处理能力的重要指标。以下是具体介绍：

含义：上下文窗口相当于模型的工作记忆，决定了模型在一次处理中能同时 “看到” 或 “记住” 的最大文本量。例如，GPT-4 Turbo、Llama 3.1 等模型就具备 128k 的上下文窗口，意味着它们可以处理最长达 128,000 个 token 的文本输入，能更好地处理长文档分析、多轮对话等任务。
作用：较大的上下文窗口使模型能够考虑更多的前文信息，从而生成更连贯、准确的回答，减少因遗忘前文导致的回答偏差。例如在处理长篇小说分析时，128k 的上下文窗口能让模型参考更多章节内容，给出更全面的分析。
影响：虽然增加上下文窗口大小有诸多好处，但也会带来计算资源需求的增加，导致成本上升，同时可能增加模型受对抗性攻击的风险。

数据驱动 ：数据驱动指的是我们基于客观的量化数据，通过主动数据的采集分析以支持决策。与之相对的是经验驱动，比如我们常说的「拍脑袋」。

几个过程：数据获取，数据清洗，数据分析，数据应用，数据反馈

模型：在AI数据驱动的范畴内，模型指的是基于数据X做决策Y的假设函数，可以有不同的形态，计算型和规则型等。

算法：指学习模型的具体计算方法。统计学习基于训练数据集，根据学习策略，从假设空间中选择最优模型，最后需要考虑用什么样的计算方法求解最优模型。通常是一个最优化的问题。

回归：根据对已知属性值数据的训练，为模型寻找最佳拟合参数，基于模型预测新样本的输出值。
分类：应用以分类数据进行模型训练，根据模型对新样本进行精准分类与预测。
聚类：从海量数据中识别数据的相似性与差异性，并按照最大共同点聚合为多个类别。
异常检测 ：对数据点的分布规律进行分析，识别与正常数据及差异较大的离群点。

机器学习的步骤

机器学习工作流（WorkFlow）包含数据 预处理 （Processing）、 模型学习 （Learning）、 模型评估 （Evaluation）、 新样本预测 （Prediction）几个步骤。

数据预处理 ：输入（未处理的数据 + 标签）→处理过程（特征处理+幅度缩放、特征选择、维度约减、采样）→输出（测试集 + 训练集）。
模型学习 ：模型算法选择、交叉验证、结果评估、超参选择。
模型评估 ：了解模型对于数据集测试的得分。
新样本预测 ：预测测试集。

机器学习基本概念

机器学习数据、预处理及模型评估核心名词对照表

中文术语	英文术语	符号表示	解释
数据集	Dataset	$D$	一组记录的集合，每条记录描述一个事件或对象
样本/示例	Sample/Instance	$x$	数据集中的单条记录，描述事件或对象的特征
属性/特征	Attribute/Feature	-	描述样本的某个特性，如“色泽”“重量”“房屋面积”
属性值	Attribute Value	$x_i$	属性取到的具体值，如“青绿”“80㎡”
属性空间/样本空间	Attribute Space/Sample Space	$\mathcal{X}$	由所有属性张成的多维空间
特征向量	Feature Vector	$\boldsymbol{x} = (x_1;x_2;\dots;x_d)$	样本在属性空间中的坐标表示形式
维数	Dimensionality	$d$	样本属性的个数，即特征向量的维度
标记/标签	Label	$y$	样本的“结果”信息，监督学习的预测目标，如“好瓜”“房价200万”
样例	Example	$(\boldsymbol{x}, y)$	拥有标记信息的样本，即(特征向量, 标记)对
标记空间/输出空间	Label Space/Output Space	$\mathcal{Y}$	所有可能标记的集合，如{好瓜, 坏瓜}、 $\mathbb{R}$ （连续值）
训练集	Training Set	$D_{train}$	用于训练模型、让模型学习规律的数据集
测试集	Test Set	$D_{test}$	用于评估训练后模型泛化能力的数据集，模型训练时未见过
独立同分布	Independent and Identically Distributed	i.i.d	机器学习基本假设：训练集和测试集的样本相互独立，且服从相同概率分布
数据清洗	Data Cleaning	-	处理原始数据中的脏数据，包括缺失值填充、异常值处理、重复值去除
缺失值填充	Missing Value Imputation	-	补充数据中缺失的属性值，方法有均值/中位数填充、众数填充、模型预测填充等
异常值处理	Outlier Handling	-	识别并处理偏离正常数据分布的异常点，方法有删除、截断、转换等
特征选择	Feature Selection	-	筛选与目标标签相关性高的特征，剔除冗余、无关特征，提升模型效率
特征变换	Feature Transformation	-	对特征进行数学变换，使其更适配模型，常见操作有标准化、归一化
标准化	Standardization	-	将特征转换为均值为0、方差为1的分布，公式： $x'=\frac{x-\mu}{\sigma}$
归一化	Normalization	-	将特征缩放到0~1区间，公式： $x'=\frac{x-x_{min}}{x_{max}-x_{min}}$
独热编码	One-Hot Encoding	-	处理无序类别特征的方法，将离散类别转为二进制向量，避免类别间大小误导
标签编码	Label Encoding	-	将类别特征转为连续数字（如红=0、蓝=1），适合有序类别特征
过采样	Oversampling	-	处理类别不平衡数据的方法，对少数类样本进行复制或生成新样本（如SMOTE算法）
欠采样	Undersampling	-	处理类别不平衡数据的方法，对多数类样本进行随机删除，平衡样本分布
准确率	Accuracy	$Acc$	分类任务评估指标，正确预测的样本数占总样本数的比例， $Acc=\frac{TP+TN}{TP+TN+FP+FN}$
精确率/查准率	Precision	$P$	分类任务评估指标，预测为正类的样本中真实正类的比例， $P=\frac{TP}{TP+FP}$
召回率/查全率	Recall	$R$	分类任务评估指标，真实正类样本中被正确预测的比例， $R=\frac{TP}{TP+FN}$
F1分数	F1 Score	$F1$	精确率和召回率的调和均值，平衡二者矛盾， $F1=\frac{2\times P\times R}{P+R}$
混淆矩阵	Confusion Matrix	-	分类任务的可视化评估工具，行表示真实类别，列表示预测类别，展示TP/TN/FP/FN的分布
均方误差	Mean Squared Error	$MSE$	回归任务评估指标，预测值与真实值差的平方的均值， $MSE=\frac{1}{n}\sum_{i=1}^n(\hat{y}_i-y_i)^2$
均方根误差	Root Mean Squared Error	$RMSE$	回归任务评估指标，MSE的平方根，量纲与真实值一致， $RMSE=\sqrt{MSE}$
平均绝对误差	Mean Absolute Error	$MAE$	回归任务评估指标，预测值与真实值差的绝对值的均值，$MAE=\frac{1}{n}\sum_{i=1}^n
过拟合	Overfitting	-	模型在训练集上表现极好，但在测试集上表现很差，泛化能力弱
欠拟合	Underfitting	-	模型在训练集和测试集上表现都很差，未学到数据的核心规律

需要我帮你整理一份机器学习数据流程速记清单，把数据收集、预处理、训练、评估的关键步骤串联起来吗？


flowchart TD
    A[1. 数据收集] -->|明确数据源+特征/标签| B[2. 数据预处理]
    B --> B1[数据清洗<br/>缺失值+异常值+重复值处理]
    B1 --> B2[特征工程<br/>选择+变换+构造]
    B2 --> B3[数据集划分<br/>训练集+验证集+测试集]
    B3 --> B4[特殊处理<br/>类别不平衡数据优化]
    B4 --> C[3. 模型训练]
    C --> C1[选择适配模型<br/>分类/回归/聚类]
    C1 --> C2[初始化超参数]
    C2 --> C3[训练集训练模型]
    C3 --> C4[验证集监控训练过程]
    C4 --> D[4. 模型评估]
    D --> D1[测试集评估性能<br/>分类:Acc/P/R/F1<br/>回归:MSE/RMSE/MAE]
    D1 --> D2{性能是否达标?}
    D2 -->|否| E[5. 模型调优]
    E --> E1{诊断问题<br/>过拟合/欠拟合}
    E1 -->|过拟合| E2[增加样本/降低复杂度/正则化]
    E1 -->|欠拟合| E3[增加特征/提升模型复杂度]
    E2 & E3 --> E4[超参数调优<br/>网格/随机/贝叶斯搜索]
    E4 --> C2
    D2 -->|是| F[6. 模型部署与监控]
    F --> F1[封装为API/嵌入式程序]
    F1 --> F2[实时监控模型性能]
    F2 --> F3{性能下降?}
    F3 -->|是| A
    F3 -->|否| F4[定期迭代优化]

机器学习应用场景

作为一套数据驱动的方法，机器学习已广泛应用于数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA序列测序、语音和手写识别和机器人等领域。

数据挖掘
- 定义：从大量数据中发现有用模式和知识的过程，涉及数据预处理、分类、回归、聚类等多种任务。
- 英文：Data Mining
- 英文简称：无常用简称
- 实际例子：银行通过数据挖掘分析客户交易数据，进行信用风险评估，识别高风险客户。
- 相关算法模型：决策树（Decision Tree，DT）、随机森林（Random Forest，RF）、支持向量机（Support Vector Machine，SVM）等。
计算机视觉
- 定义：让计算机像人类一样“看懂”图像和视频，涉及图像分类、目标检测、图像分割等任务。
- 英文：Computer Vision
- 英文简称：CV
- 实际例子：特斯拉的Autopilot系统使用计算机视觉技术检测道路上的车辆、行人和障碍物，确保自动驾驶的安全性。
- 相关算法模型：卷积神经网络（Convolutional Neural Network，CNN）、YOLO（You Only Look Once）、Mask R - CNN等。
自然语言处理
- 定义：让计算机理解和处理人类自然语言，包括文本分类、情感分析、机器翻译、问答系统等任务。
- 英文：Natural Language Processing
- 英文简称：NLP
- 实际例子：谷歌翻译利用自然语言处理技术实现不同语言之间的自动翻译。
- 相关算法模型：循环神经网络（Recurrent Neural Network，RNN）、长短时记忆网络（Long Short - Term Memory，LSTM）、Transformer模型等。
生物特征识别
- 定义：通过个体的生物特征（如指纹、人脸、虹膜等）进行身份识别或验证。
- 英文：Biometric Recognition
- 英文简称：BR
- 实际例子：iPhone的Face ID通过人脸识别技术实现手机解锁。
- 相关算法模型：FaceNet用于人脸特征提取，还有一些基于卷积神经网络的模型用于指纹、虹膜等生物特征的识别。
搜索引擎
- 定义：根据用户输入的关键词，从大量网页中检索出相关信息并排序展示的系统，涉及网页索引、关键词匹配、排序算法等。
- 英文：Search Engine
- 英文简称：SE
- 实际例子：百度搜索引擎根据用户输入的查询词，返回相关的网页结果。
- 相关算法模型：PageRank算法用于网页排序，还有一些基于机器学习的排序算法，如LambdaMART，用于根据用户行为等数据优化搜索结果排序。
医学诊断
- 定义：利用医学数据（如医学影像、电子健康记录等），辅助医生对疾病进行检测、诊断和预测。
- 英文：Medical Diagnosis
- 英文简称：MD
- 实际例子：斯坦福大学的研究团队利用CNN训练的模型，能够以超过专业医生的准确率识别皮肤癌。
- 相关算法模型：卷积神经网络（CNN）用于医学影像分析，逻辑回归（Logistic Regression，LR）可用于疾病风险预测。
检测信用卡欺诈
- 定义：通过分析信用卡交易数据，识别异常交易行为，检测信用卡欺诈行为。
- 英文：Credit Card Fraud Detection
- 英文简称：CCFD
- 实际例子：银行利用相关技术检测信用卡交易中的欺诈行为，保护用户资金安全。
- 相关算法模型：梯度提升（Gradient Boosting）、随机森林（RF）、投票分类器（Voting Classifier）等。
证券市场分析
- 定义：对证券市场数据（如股票价格、交易量等）进行分析，预测市场趋势、股票价格走势等，为投资决策提供依据。
- 英文：Securities Market Analysis
- 英文简称：SMA
- 实际例子：金融机构通过分析证券市场数据，预测股票价格走势，为投资者提供投资建议。
- 相关算法模型：线性回归（Linear Regression）可用于预测股票价格走势，随机森林（RF）可用于分析影响股票价格的因素。
DNA序列测序
- 定义：确定特定DNA分子中核苷酸顺序，以了解其功能和对生物体的影响，还涉及片段对齐和合并等操作。
- 英文：DNA Sequencing
- 英文简称：DNA - seq
- 实际例子：在生物医学研究中，通过DNA序列测序分析基因序列，研究疾病相关基因。
- 相关算法模型：卷积神经网络（CNN）、循环神经网络（RNN）可用于序列分析任务，深度神经网络（DNN）可用于基因组注释和变异分类。
语音和手写识别
- 定义：将语音信号或手写文字转换为计算机可处理的文本或指令，分别涉及语音识别和手写文字识别任务。
- 英文：Speech and Handwriting Recognition
- 英文简称：SHR
- 实际例子：苹果的Siri通过语音识别技术理解用户语音指令并执行相应操作。
- 相关算法模型：隐马尔可夫模型（Hidden Markov Model，HMM）、循环神经网络（RNN）及其变体LSTM等常用于语音识别，卷积神经网络（CNN）可用于手写文字识别。
机器人
- 定义：使机器人能够自主或半自主地执行任务，涉及机器人的运动控制、环境感知、路径规划等。
- 英文：Robotics
- 英文简称：无常用简称
- 实际例子：波士顿动力的机器人通过机器学习技术实现环境感知和动作控制，能够完成复杂的动作任务。
- 相关算法模型：强化学习（Reinforcement Learning）算法可用于机器人的动作决策和路径规划，卷积神经网络（CNN）可用于机器人的视觉感知。