Embedding 模型
Rerank 模型
语音转文本模型
文本转语音模型
128k context window 是指大语言模型的上下文窗口大小为 128,000 个令牌(token)。它是衡量模型长文本处理能力的重要指标。以下是具体介绍:
含义:上下文窗口相当于模型的工作记忆,决定了模型在一次处理中能同时 “看到” 或 “记住” 的最大文本量。例如,GPT-4 Turbo、Llama 3.1 等模型就具备 128k 的上下文窗口,意味着它们可以处理最长达 128,000 个 token 的文本输入,能更好地处理长文档分析、多轮对话等任务。
作用:较大的上下文窗口使模型能够考虑更多的前文信息,从而生成更连贯、准确的回答,减少因遗忘前文导致的回答偏差。例如在处理长篇小说分析时,128k 的上下文窗口能让模型参考更多章节内容,给出更全面的分析。
影响:虽然增加上下文窗口大小有诸多好处,但也会带来计算资源需求的增加,导致成本上升,同时可能增加模型受对抗性攻击的风险。
数据驱动 :数据驱动指的是我们基于客观的量化数据,通过主动数据的采集分析以支持决策。与之相对的是经验驱动,比如我们常说的「拍脑袋」。
几个过程:数据获取,数据清洗,数据分析,数据应用,数据反馈
模型 :在AI数据驱动的范畴内,模型指的是基于数据X做决策Y的假设函数,可以有不同的形态,计算型和规则型等。
算法 :指学习模型的具体计算方法。统计学习基于训练数据集,根据学习策略,从假设空间中选择最优模型,最后需要考虑用什么样的计算方法求解最优模型。通常是一个最优化的问题。
- 回归 :根据对已知属性值数据的训练,为模型寻找最佳拟合参数,基于模型预测新样本的输出值。
- 分类 :应用以分类数据进行模型训练,根据模型对新样本进行精准分类与预测。
- 聚类 :从海量数据中识别数据的相似性与差异性,并按照最大共同点聚合为多个类别。
- 异常检测 :对数据点的分布规律进行分析,识别与正常数据及差异较大的离群点。
机器学习的步骤
机器学习工作流(WorkFlow)包含数据 预处理 (Processing)、 模型学习 (Learning)、 模型评估 (Evaluation)、 新样本预测 (Prediction)几个步骤。
- 数据预处理 :输入(未处理的数据 + 标签)→处理过程(特征处理+幅度缩放、特征选择、维度约减、采样)→输出(测试集 + 训练集)。
- 模型学习 :模型算法选择、交叉验证、结果评估、超参选择。
- 模型评估 :了解模型对于数据集测试的得分。
- 新样本预测 :预测测试集。
机器学习基本概念
机器学习数据、预处理及模型评估核心名词对照表
| 中文术语 | 英文术语 | 符号表示 | 解释 |
|---|---|---|---|
| 数据集 | Dataset | 一组记录的集合,每条记录描述一个事件或对象 | |
| 样本/示例 | Sample/Instance | 数据集中的单条记录,描述事件或对象的特征 | |
| 属性/特征 | Attribute/Feature | - | 描述样本的某个特性,如“色泽”“重量”“房屋面积” |
| 属性值 | Attribute Value | 属性取到的具体值,如“青绿”“80㎡” | |
| 属性空间/样本空间 | Attribute Space/Sample Space | 由所有属性张成的多维空间 | |
| 特征向量 | Feature Vector | 样本在属性空间中的坐标表示形式 | |
| 维数 | Dimensionality | 样本属性的个数,即特征向量的维度 | |
| 标记/标签 | Label | 样本的“结果”信息,监督学习的预测目标,如“好瓜”“房价200万” | |
| 样例 | Example | 拥有标记信息的样本,即(特征向量, 标记)对 | |
| 标记空间/输出空间 | Label Space/Output Space | 所有可能标记的集合,如{好瓜, 坏瓜}、(连续值) | |
| 训练集 | Training Set | 用于训练模型、让模型学习规律的数据集 | |
| 测试集 | Test Set | 用于评估训练后模型泛化能力的数据集,模型训练时未见过 | |
| 独立同分布 | Independent and Identically Distributed | i.i.d | 机器学习基本假设:训练集和测试集的样本相互独立,且服从相同概率分布 |
| 数据清洗 | Data Cleaning | - | 处理原始数据中的脏数据,包括缺失值填充、异常值处理、重复值去除 |
| 缺失值填充 | Missing Value Imputation | - | 补充数据中缺失的属性值,方法有均值/中位数填充、众数填充、模型预测填充等 |
| 异常值处理 | Outlier Handling | - | 识别并处理偏离正常数据分布的异常点,方法有删除、截断、转换等 |
| 特征选择 | Feature Selection | - | 筛选与目标标签相关性高的特征,剔除冗余、无关特征,提升模型效率 |
| 特征变换 | Feature Transformation | - | 对特征进行数学变换,使其更适配模型,常见操作有标准化、归一化 |
| 标准化 | Standardization | - | 将特征转换为均值为0、方差为1的分布,公式: |
| 归一化 | Normalization | - | 将特征缩放到0~1区间,公式: |
| 独热编码 | One-Hot Encoding | - | 处理无序类别特征的方法,将离散类别转为二进制向量,避免类别间大小误导 |
| 标签编码 | Label Encoding | - | 将类别特征转为连续数字(如红=0、蓝=1),适合有序类别特征 |
| 过采样 | Oversampling | - | 处理类别不平衡数据的方法,对少数类样本进行复制或生成新样本(如SMOTE算法) |
| 欠采样 | Undersampling | - | 处理类别不平衡数据的方法,对多数类样本进行随机删除,平衡样本分布 |
| 准确率 | Accuracy | 分类任务评估指标,正确预测的样本数占总样本数的比例, | |
| 精确率/查准率 | Precision | 分类任务评估指标,预测为正类的样本中真实正类的比例, | |
| 召回率/查全率 | Recall | 分类任务评估指标,真实正类样本中被正确预测的比例, | |
| F1分数 | F1 Score | 精确率和召回率的调和均值,平衡二者矛盾, | |
| 混淆矩阵 | Confusion Matrix | - | 分类任务的可视化评估工具,行表示真实类别,列表示预测类别,展示TP/TN/FP/FN的分布 |
| 均方误差 | Mean Squared Error | 回归任务评估指标,预测值与真实值差的平方的均值, | |
| 均方根误差 | Root Mean Squared Error | 回归任务评估指标,MSE的平方根,量纲与真实值一致, | |
| 平均绝对误差 | Mean Absolute Error | 回归任务评估指标,预测值与真实值差的绝对值的均值,$MAE=\frac{1}{n}\sum_{i=1}^n | |
| 过拟合 | Overfitting | - | 模型在训练集上表现极好,但在测试集上表现很差,泛化能力弱 |
| 欠拟合 | Underfitting | - | 模型在训练集和测试集上表现都很差,未学到数据的核心规律 |
需要我帮你整理一份机器学习数据流程速记清单,把数据收集、预处理、训练、评估的关键步骤串联起来吗?
flowchart TD
A[1. 数据收集] -->|明确数据源+特征/标签| B[2. 数据预处理]
B --> B1[数据清洗<br/>缺失值+异常值+重复值处理]
B1 --> B2[特征工程<br/>选择+变换+构造]
B2 --> B3[数据集划分<br/>训练集+验证集+测试集]
B3 --> B4[特殊处理<br/>类别不平衡数据优化]
B4 --> C[3. 模型训练]
C --> C1[选择适配模型<br/>分类/回归/聚类]
C1 --> C2[初始化超参数]
C2 --> C3[训练集训练模型]
C3 --> C4[验证集监控训练过程]
C4 --> D[4. 模型评估]
D --> D1[测试集评估性能<br/>分类:Acc/P/R/F1<br/>回归:MSE/RMSE/MAE]
D1 --> D2{性能是否达标?}
D2 -->|否| E[5. 模型调优]
E --> E1{诊断问题<br/>过拟合/欠拟合}
E1 -->|过拟合| E2[增加样本/降低复杂度/正则化]
E1 -->|欠拟合| E3[增加特征/提升模型复杂度]
E2 & E3 --> E4[超参数调优<br/>网格/随机/贝叶斯搜索]
E4 --> C2
D2 -->|是| F[6. 模型部署与监控]
F --> F1[封装为API/嵌入式程序]
F1 --> F2[实时监控模型性能]
F2 --> F3{性能下降?}
F3 -->|是| A
F3 -->|否| F4[定期迭代优化]
机器学习应用场景
作为一套数据驱动的方法,机器学习已广泛应用于数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA序列测序、语音和手写识别和机器人等领域。
- 数据挖掘
- 定义:从大量数据中发现有用模式和知识的过程,涉及数据预处理、分类、回归、聚类等多种任务。
- 英文:Data Mining
- 英文简称:无常用简称
- 实际例子:银行通过数据挖掘分析客户交易数据,进行信用风险评估,识别高风险客户。
- 相关算法模型:决策树(Decision Tree,DT)、随机森林(Random Forest,RF)、支持向量机(Support Vector Machine,SVM)等。
- 计算机视觉
- 定义:让计算机像人类一样“看懂”图像和视频,涉及图像分类、目标检测、图像分割等任务。
- 英文:Computer Vision
- 英文简称:CV
- 实际例子:特斯拉的Autopilot系统使用计算机视觉技术检测道路上的车辆、行人和障碍物,确保自动驾驶的安全性。
- 相关算法模型:卷积神经网络(Convolutional Neural Network,CNN)、YOLO(You Only Look Once)、Mask R - CNN等。
- 自然语言处理
- 定义:让计算机理解和处理人类自然语言,包括文本分类、情感分析、机器翻译、问答系统等任务。
- 英文:Natural Language Processing
- 英文简称:NLP
- 实际例子:谷歌翻译利用自然语言处理技术实现不同语言之间的自动翻译。
- 相关算法模型:循环神经网络(Recurrent Neural Network,RNN)、长短时记忆网络(Long Short - Term Memory,LSTM)、Transformer模型等。
- 生物特征识别
- 定义:通过个体的生物特征(如指纹、人脸、虹膜等)进行身份识别或验证。
- 英文:Biometric Recognition
- 英文简称:BR
- 实际例子:iPhone的Face ID通过人脸识别技术实现手机解锁。
- 相关算法模型:FaceNet用于人脸特征提取,还有一些基于卷积神经网络的模型用于指纹、虹膜等生物特征的识别。
- 搜索引擎
- 定义:根据用户输入的关键词,从大量网页中检索出相关信息并排序展示的系统,涉及网页索引、关键词匹配、排序算法等。
- 英文:Search Engine
- 英文简称:SE
- 实际例子:百度搜索引擎根据用户输入的查询词,返回相关的网页结果。
- 相关算法模型:PageRank算法用于网页排序,还有一些基于机器学习的排序算法,如LambdaMART,用于根据用户行为等数据优化搜索结果排序。
- 医学诊断
- 定义:利用医学数据(如医学影像、电子健康记录等),辅助医生对疾病进行检测、诊断和预测。
- 英文:Medical Diagnosis
- 英文简称:MD
- 实际例子:斯坦福大学的研究团队利用CNN训练的模型,能够以超过专业医生的准确率识别皮肤癌。
- 相关算法模型:卷积神经网络(CNN)用于医学影像分析,逻辑回归(Logistic Regression,LR)可用于疾病风险预测。
- 检测信用卡欺诈
- 定义:通过分析信用卡交易数据,识别异常交易行为,检测信用卡欺诈行为。
- 英文:Credit Card Fraud Detection
- 英文简称:CCFD
- 实际例子:银行利用相关技术检测信用卡交易中的欺诈行为,保护用户资金安全。
- 相关算法模型:梯度提升(Gradient Boosting)、随机森林(RF)、投票分类器(Voting Classifier)等。
- 证券市场分析
- 定义:对证券市场数据(如股票价格、交易量等)进行分析,预测市场趋势、股票价格走势等,为投资决策提供依据。
- 英文:Securities Market Analysis
- 英文简称:SMA
- 实际例子:金融机构通过分析证券市场数据,预测股票价格走势,为投资者提供投资建议。
- 相关算法模型:线性回归(Linear Regression)可用于预测股票价格走势,随机森林(RF)可用于分析影响股票价格的因素。
- DNA序列测序
- 定义:确定特定DNA分子中核苷酸顺序,以了解其功能和对生物体的影响,还涉及片段对齐和合并等操作。
- 英文:DNA Sequencing
- 英文简称:DNA - seq
- 实际例子:在生物医学研究中,通过DNA序列测序分析基因序列,研究疾病相关基因。
- 相关算法模型:卷积神经网络(CNN)、循环神经网络(RNN)可用于序列分析任务,深度神经网络(DNN)可用于基因组注释和变异分类。
- 语音和手写识别
- 定义:将语音信号或手写文字转换为计算机可处理的文本或指令,分别涉及语音识别和手写文字识别任务。
- 英文:Speech and Handwriting Recognition
- 英文简称:SHR
- 实际例子:苹果的Siri通过语音识别技术理解用户语音指令并执行相应操作。
- 相关算法模型:隐马尔可夫模型(Hidden Markov Model,HMM)、循环神经网络(RNN)及其变体LSTM等常用于语音识别,卷积神经网络(CNN)可用于手写文字识别。
- 机器人
- 定义:使机器人能够自主或半自主地执行任务,涉及机器人的运动控制、环境感知、路径规划等。
- 英文:Robotics
- 英文简称:无常用简称
- 实际例子:波士顿动力的机器人通过机器学习技术实现环境感知和动作控制,能够完成复杂的动作任务。
- 相关算法模型:强化学习(Reinforcement Learning)算法可用于机器人的动作决策和路径规划,卷积神经网络(CNN)可用于机器人的视觉感知。