你训练大语言模型(LLM)用的什么框架?有没有想过不用框架训练 GPT-2?GitHub 上就有这么一位大神(Andrej Karpathy),他仅用大约 1k 行的 C 代码就完成了 GPT-2 模型的训练,代码纯手撸、不依赖任何机器学习框架,作者这么做仅仅是觉得很有趣。
4 月 1 日,我们正式宣布端到端 RAG 解决方案 RAGFlow 开源。今年 2 月以来, AI 领域连续出了很多重磅热点,除了最火热的 Sora 之外,另一个热点就是长上下文 LLM ,例如 Claude 3、 Gemini 1.5,当然也包含国产的月之暗面。
在这篇名为《Mooncake: A KVCache-centric Disaggregated Architecture for LLM Serving》的论文中,作者详细介绍了Mooncake这种系统架构。
这是一门GitHub目前仍在密集更新的实操课程,主题是LLM操作指南。课程每部分都有详细理论讲解,实操代码文档互相搭配使用,可以丝滑完成某个主题的学习。并且课程提供使用OpenAI和Hugging Face库模型的实践体验,它将看到并使用大量工具,并通过小型项目进行练习。