GraphRAG GraphRAG Doc Tokens4263142631Triplets Graph734 nodes, 1064 edges779 nodes, 967 edgesDoc Structure Graph76 nodes, 1090 edgesN/APrompt Tokens375768744990Completion Tokens41797227230Total Tokens417565972220Indexing Time170s210s。
前言在大数据和人工智能的浪潮中,信息检索技术迎来了飞速发展。RAG(Retrieval-Augmented Generation)技术,作为这一浪潮中的创新成果,通过融合检索与生成技术,优化了搜索结果,使其更精准地满足用户需求。
这里指的是,索引的知识块中,核心知识点和其他知识点的关联,有些知识有局部性,例如 A 和 B 在一个块关联,B 和 C 在一个块关联,C 和 D 在一个块关联,如果某些任务依赖于全局的上下文,但任务中又只提及 A 和 D,这中间的关联在做 chunk 的 RAG 索引一般是丢失的,无法获取全局上下文的关联。
我在 Reddit 上不断看到关于 GraphRAG 的帖子,但直到大约一个月前我才最终决定尝试一下。在花了一些时间尝试之后,我可以说它令人印象深刻,但如果你使用 OpenAI API,它的成本也相当高。
OpenAI放王炸!12月5日凌晨,OpenAI首席执行官Sam Altman宣布,将进行为期12天的OpenAI活动。这一罕见举措引发广泛关注。市场普遍预测,其中包括满血o1、Sora等产品。此前,OpenAI 宣布对中国断供其API服务,这一举动引发了广泛关注。