步骤:3400
网络维度:64
网络阿尔法:32
v3:使用旧训练参数的版本
v1 和 v2 已被弃用,因为输出效果差,它们原本设计为精简版,
v4:使用新训练参数的版本
v5:使用新训练参数的最优化版本
v4 和 v5 在使用简单提示词时表现也很好(例如最近两篇帖子)
如果没有触发词,输出结果会略有不同,值得一试。
由于新参数表现更好且更正常,接下来我将为每个之前的模型重新训练新版本。希望这会快得多。