人类反馈强化学习最新替代方法SimPO #小工蚁
训练企业自己的ChatGPT 使用RLHF训练LLaMA的实践指南
LightLLM轻量级高性能推理框架 和vLLM哪个更强?
LLM大型语言模型如何进行微调? RLHF强化学习代码解读
ChatGLM2如何进行微调?SSF RLHF QLora #小工蚁
StreamingLLM算法让推理速度 提升22倍,支持400万Token输出
揭秘LLM微调关键因素!训练数据质量和数量哪个更重要?#小工蚁 #alpaca #llama
利用OpenAI的GPT-4训练的微软小模型,是如何成为最强开源模型的?
合成指令持续预训练 LLaMA3-8B性能超过70B
AI陪你玩《我的世界》,一个动作就知道你要盖啥
训练LLM通过强化学习进行自我纠正 #小工蚁
部署大模型在TorchServe+vLLM #小工蚁
RAG和长上下文LLM全面评估哪种方式更适合智能问答场景?
音频和视频如何训练LLM?演示看看训练后效果怎么样?
Mixtral-8*7B开源大模型合成 训练数据媲美ChatGPT #小工蚁
DeepSpeed-FastGen比vLLM推理性能快2倍,SplitFuse策略 #小工蚁
Qwen3-30B-A3B vs 32B性能大比拼!
vLLM集成LMCache 首Token延迟大幅降低
复旦开源MOSS预训练模型 130亿参数,可商用
LatentSync数字人论文解读 #小工蚁