更新日志
[23/08/03] 现在我们支持了 Qwen-7B 模型的训练。请尝试使用 --model_name_or_path Qwen/Qwen-7B-Chat 和 --lora_target c_attn 参数。请注意使用 Qwen-7B-Chat 模型需要添加 --template chatml 参数。
[23/07/31] 现在我们支持了训练数据流式加载。请尝试使用 --streaming 和 --max_steps 100 参数来流式加载数据集。
[23/07/29] 我们在 Hugging Face 发布了两个 13B 指令微调模型。详细内容请查阅我们的 Hugging Face 项目(LLaMA-2 / Baichuan)。
[23/07/19] 现在我们支持了 LLaMA-2 模型的训练。请尝试使用 --model_name_or_path meta-llama/Llama-2-7b-hf 参数。请注意使用 LLaMA-2-chat 模型需要添加 --template llama2 参数。
[23/07/18] 我们开发了支持训练和测试的浏览器一键微调界面。请尝试使用 train_web.py 在您的浏览器中微调模型。感谢 @KanadeSiina 和 @codemayq 在该功能开发中付出的努力。
[23/07/11] 现在我们支持了 Baichuan-13B 模型的训练。请尝试使用 --model_name_or_path baichuan-inc/Baichuan-13B-Base 和 --lora_target W_pack 参数。请注意使用 Baichuan-13B-Chat 模型需要添加 --template baichuan 参数。
[23/07/09] 我们开源了 FastEdit⚡,一个简单易用的、能迅速编辑大模型事实记忆的工具包。如果您感兴趣请关注我们的 FastEdit 项目。
[23/07/07] 现在我们支持了 InternLM-7B 模型的训练。请尝试使用 --model_name_or_path internlm/internlm-7b 参数。请注意使用 InternLM-chat 模型需要添加 --template intern 参数。
[23/07/05] 现在我们支持了 Falcon-7B/40B 模型的训练。请尝试使用 --model_name_or_path tiiuae/falcon-7b 和 --lora_target query_key_value 参数。
StableStudio