简单模型
- 直接使用模型:适用于预训练好的模型,可以直接加载并使用,无需额外配置。
复杂模型
- clone 框架:如果模型依赖特定的框架或库,需要先克隆或安装这些依赖。
- 下载模型:从指定的源下载模型文件。
- 使用模型:完成上述步骤后,加载并使用模型。
模型依赖库指的是在使用某个模型时,需要依赖的一些特定的软件库或框架。这些库通常提供了模型运行所需的工具和环境。具体来说: 框架:如 TensorFlow、PyTorch 等深度学习框架,它们提供了构建和训练模型的工具。 库:如 NumPy、Pandas 等数据处理库,以及 Scikit-learn 等机器学习库,它们提供了数据处理和模型评估的功能。 例如,如果你使用一个基于 PyTorch 的模型,你需要先安装 PyTorch 库,否则模型无法正常运行。同样,如果模型需要处理大量数据,可能还需要安装 NumPy 或 Pandas 来进行数据预处理。 总结一下,模型依赖库是为了确保模型能够正确运行而必须安装的软件包。
常用名词
常用名词
1. 模型(Model)
- 定义:从数据中学习规律或模式的数学表示,包含算法结构和参数。
- 关键点:
- 预训练模型:在大型数据集上预先训练好的模型(如 BERT、ResNet),可通过微调(Fine-tuning)适配新任务。
- 模型结构:网络的架构设计(如 CNN、Transformer)。
- 模型参数:训练过程中学习的权重(Weights)和偏置(Biases)。
2. 参数(Parameters)
- 定义:模型内部通过数据自动学习的变量(如神经网络的权重和偏置)。
- 特点:
- 数量由模型结构决定(如全连接层的参数数为 (输入维度 \times 输出维度 + 偏置数))。
- 训练目标是找到最优参数,使预测误差最小。
3. 超参数(Hyperparameters)
- 定义:人为设定、控制训练过程的参数,无法通过数据直接学习。
- 常见类型:
- 学习率(Learning Rate)、批量大小(Batch Size)、迭代次数(Epoch)。
- 网络层数、神经元数量、正则化系数(如 L2 正则化的 (\lambda))。
4. 损失函数(Loss Function)
- 定义:衡量模型预测结果与真实值差异的函数,指导参数优化方向。
- 常见类型:
- 回归任务:均方误差(MSE)、平均绝对误差(MAE)。
- 分类任务:交叉熵损失(Cross-Entropy)、铰链损失(Hinge Loss)。
5. 优化器(Optimizer)
- 定义:通过梯度下降算法更新模型参数的策略。
- 常见类型:
- SGD(随机梯度下降):基础优化方法,但可能收敛慢。
- Adam:结合动量(Momentum)和自适应学习率,常用且高效。
- RMSProp:针对非平稳目标函数优化,适合 RNN。
6. 前向传播(Forward Propagation)
- 定义:数据从输入层到输出层的计算过程,生成预测结果。
- 公式示例(全连接层):
[ \text{输出} = \sigma(W \cdot X + b) ] 其中 (W) 是权重矩阵,(X) 是输入,(b) 是偏置,(\sigma) 是激活函数。
7. 反向传播(Backpropagation)
- 定义:基于链式法则,从输出层反向计算损失对每个参数的梯度,用于更新权重。
- 关键点:梯度传递方向与前向传播相反,核心是高效计算偏导数。
8. 过拟合(Overfitting)
- 定义:模型在训练集上表现极佳,但在新数据上泛化能力差。
- 解决方法:
- 正则化(L1/L2)、Dropout(随机屏蔽神经元)、数据增强、早停(Early Stopping)。
9. 推理(Inference)
- 定义:使用训练好的模型对新数据进行预测的过程。
- 特点:仅需前向传播,无需计算梯度,通常部署在轻量级设备(如手机、嵌入式系统)。
10. 迁移学习(Transfer Learning)
- 定义:将预训练模型的知识迁移到新任务中,减少训练成本。
- 应用:例如用 ImageNet 预训练的 CNN 初始化医学图像分类模型。
扩展概念
| 名词 | 定义 |
|---|---|
| 批次(Batch) | 一次前向/反向传播中使用的样本子集,平衡内存和计算效率。 |
| Epoch | 所有训练数据完整遍历一次的过程。 |
| 激活函数 | 引入非线性的函数(如 ReLU、Sigmoid),决定神经元是否激活。 |
| 特征工程 | 人工设计输入特征的过程,与深度学习“端到端”学习形成对比。 |