选择超参数 - 亚马逊 Nova

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

选择超参数

在微调模型时,您可以调整 3 个超参数。

超参数

Type

最小值

最大值

默认

周期

整数

1

5

2

学习率

float

1.00E-06

1.00E-04

1.00E-05

学习率预热步骤

整数

0

20

10

默认纪元数为 2,适用于大多数情况。通常,较大的数据集需要较少的周期来收集,而较小的数据集需要较大的训练周期才能收集。也可以通过提高学习率来实现更快的收敛性,但这并不理想,因为它可能会导致收敛时的训练不稳定。我们建议从默认的超参数开始,这些超参数基于我们对不同复杂性和数据大小的任务的评估。

在热身期间,学习速率将逐渐增加到设定值,因此请避免在小样本训练中使用较大的预热数字,因为在训练过程中,您的学习率可能永远无法达到设定值。我们建议设置预热步骤,将数据集大小除以亚马逊 Nova Micro 的 640,亚马逊 Nova Lite 的数据集大小除以 160,亚马逊 Nova Pro 的数据集大小除以 320。