Meta 今年 4 月曾在一篇论文中介绍了一种利用多标记预测(multi-token prediction)实现更好、更快 LLM 的新训练方法。为了便于研究人员进一步探索,该公司现如今在 HuggingFace 上发布了使用这种方法完成代码的预训练模型。 “大型语言模型(例如 GPT 和 Llama)都是通过下一个标记预测损失进行训练。在这项工作中,我们...
新闻来源:
Meta 开源新的“多标记预测”语言模型