跳转至

llm.training 模块

欢迎来到 llm.training 模块!这是一个为 PyTorch 设计的模块化、可扩展的训练框架.

设计理念

本框架的核心设计理念是解耦可扩展性. 我们将通用的训练逻辑(如分布式训练、日志记录、检查点管理)与具体的任务逻辑(模型、优化器、损失函数)分离开来. 这使得开发者可以:

  • 快速迭代: 专注于实现 TrainingTask, 而无需关心底层的训练循环和分布式设置.
  • 轻松扩展: 通过自定义 Callback 来添加新功能, 或通过实现新的 TrainingTask 来支持新的模型和数据.

文档导航

为了帮助您更好地理解和使用本框架, 我们提供了以下详细文档, 覆盖了从入门到精通的各个方面:

理论与结构

实践与应用

深入主题

快速开始

  1. 定义你的任务: 创建一个 TrainingTask 的子类, 并实现其所有抽象方法.
  2. 注册你的任务: 在 train.pyAVAILABLE_TASKS 字典中添加你的新任务.
  3. 运行训练: 在命令行中执行以下命令:

    python -m llm.training.train --task <your_task_name>