0

VirtualBrain:最佳RAG释放AI的真正力量 - Guillaume Marquis | Vector Space Talks

Demetrios Brinkmann

·

2024年3月27日

VirtualBrain: Best RAG to unleash the real power of AI - Guillaume Marquis | Vector Space Talks

“拥有一个可扩展、快速、低延迟、能够并行处理大量请求的向量数据库,就像是强制要求一样。因此,你确实有这个需求,而Qdrant显然是最佳选择。”
—— Guillaume Marquis

Guillaume Marquis,一位专注的工程师和AI爱好者,担任创新型AI公司VirtualBrain的首席技术官和联合创始人。他致力于探索将人工智能融入日常生活的创新方法,并怀着推动该领域及其应用的激情。

收听本期节目: Spotify、Apple Podcast、Podcast addicts、Castbox。您也可以在 YouTube 上观看本期节目。

要点总结

谁能想到文档检索也可以充满创意?Guillaume和VirtualBrain帮助利用过去的报告起草销售提案。技术如何辅助深度工作,超越基本的搜索任务,这一点令人着迷。

在处理文档检索和AI辅助方面,Guillaume进一步详细阐述了使用评分系统搜索海量数据的细节、RAG对深度工作的价值以及如何应对“工作幻觉”,在面对可扩展性挑战和用户对幻觉的反馈时,增强知识工作者的洞察力。

本期节目中需要关注的一些关键见解如下

  1. 如何利用精确的文档检索评分系统驾驭数据世界。
  2. 新数据的重要性以及如何避免过时信息的黑洞。
  3. 提高系统可扩展性和速度的技术——在海量数据空间中至关重要。
  4. 专为深度而非广度量身定制的AI助手,有助于撰写出色的商业提案等任务。
  5. 用户感知在AI工具交互中的有趣作用,以及一些时间魔法。

趣闻:VirtualBrain使用Qdrant,得益于其在速度、可扩展性和API功能方面的优势。

节目笔记

00:00 主持人和嘉宾推荐。
09:01 利用过往知识创建新提案。
12:33 摄取和解析文档进行上下文检索。
14:26 创建和存储数据,执行高级搜索。
17:39 分析文档日期以进行准确信息检索。
20:32 感知时间可以缓解紧张情绪并带来乐趣。
24:23 尝试了各种向量数据库,更偏好开源。
27:42 LangFuse:用于监控任务的开源工具。
33:10 设计用于保持在边界内的AI工具。
34:31 通过仔细分析最大程度地减少AI中的幻觉。

更多来自Guillaume的引言

“出于安全方面的考虑,我们只使用开源工具。这也是我们使用Qdrant的一个重要原因。因此,我们有一个系统,使用这些无服务器的东西来随时间推移摄取文档。”
—— Guillaume Marquis

“其中一个具有挑战性的部分是系统的可扩展性。我们的客户带来TB级别的数据,并希望解析得非常快,因此你需要摄取数据,但即使是语义搜索,即使在大型数据集上也会很慢。而如今ChatGPT回答得非常快。所以你的用户,即使问题比基本的ChatGPT问题复杂得多,他们也希望在几秒钟内得到答案。所以你也要真正关心这个挑战。”
—— Guillaume Marquis

“我们的AI并未训练成能写出基于莎士比亚风格和马丁·路德·金风格的演讲。这不是这个工具的目的。所以如果你问一些超出其能力范围的问题,它只会说‘好的,我不知道怎么回答’。这是一个重要的点。能够不越界本身就是一个特性。”
—— Guillaume Marquis

文字记录

Demetrios:伙计,我为这场谈话感到兴奋。在我们开始之前,我想确保我们有一些会前事务要处理,其中一项就是,一如既往,我们正在进行这些向量空间讲座,鼓励并邀请大家参与。提出你们的问题,告诉我们你们从哪里来,告诉我们你们在做什么,你们的用例是什么,并且随意在聊天中留下任何你可能有的问题。我们将像老鹰一样密切关注。今天和我在一起的还有Sabrina。Sabrina,你好吗?

Sabrina Aquino:怎么样,Demetrios?我很好。很高兴来到这里。我喜欢看到人们用Qdrant构建的那些令人惊叹的东西。是的,让我们开始吧。

Demetrios:是的。我想我看到Sabrina穿着一件特别的衬衫,上面写着“不要迷失在向量空间”衬衫。如果有人想要这样的衬衫。好的。伙计,我们为你准备好了。很快你就能在你的家门口收到一件。如果还有人想要,请来这里。在下次向量空间讲座中展示自己。

Demetrios:我们很高兴有你。在开始技术性讨论之前,我们还有一件有趣的事情可以聊聊。我让Sabrina准备了一些推荐。我们知道向量数据库偶尔可以用于推荐系统,但没有什么比从朋友那里获得隐藏的珍宝更好的了。现在我们要尝试做的是给你一些隐藏的珍宝,以便下次推荐引擎为你工作时,它是对你有利的。Sabrina,我请你推荐一首音乐、一个节目和一个随机事物。也就是说,一个你可以随机推荐给我们的东西。

Sabrina Aquino:我选好了。我想了一下。好吧,我认真想了。电影是莱昂纳多·迪卡普里奥和汤姆·汉克斯主演的《猫鼠游戏》。你们看过吗?非常好的一部电影。歌曲是knee cave和the bad scenes的《oh, children》。也非常棒的一首歌。随机推荐是我最喜欢的香薰蜡烛,是柑橘香、海盐香和雪松香的。

Sabrina Aquino:就这样。

Demetrios:推荐香薰蜡烛。我喜欢。我觉得这很酷。我没让你专门准备这个。那我先说,然后你还有点时间想。所以对于加入的任何人来说,我们只是给出一些建议来帮助你们在家里的推荐引擎。我们马上就要开始关于RAG的讨论了。但希望这些建议能帮助你们中一些人在推荐引擎构建技能中用到向量数据库。

Demetrios:天啊。我一直在听,因为我以为Spotify上没有,但今早我找到了,我太高兴了。是Bill Evans和Chet Baker的。基本上,他们的整张专辑《传奇录音》简直不可思议。但专辑的第一首歌叫《Alone Together》。当Chet Baker开始吹奏他的小长号时,天啊,那种感觉就像你能感受到情感,你能触摸到它。这就是我想推荐的。

Demetrios:有人在吗?如果你们喜欢,我会把链接发到聊天里。电影或剧集。这部《傻瓜》,如果你会说西班牙语,那就更好了。这是一部精彩的剧集。去看吧,去看看。至于那个随机事物,我早上一直在咖啡里加灵芝蘑菇粉。强烈推荐。好的,最后一个,我们来听听你的推荐,然后就开始聊RAG。

Guillaume Marquis:好吧,我有点没准备好。所以歌曲的话,我想我推荐一首能听出来我是法国人的歌。所以我选Daft Punk的《Get Lucky》,因为他们的合作结束让我有点伤感。所以,是的,我就是忘不了这首歌。而且它是一首非常棒的音乐。电影的话,也许是我真的很喜欢的一部。法国有很多非常好的电影,但也许推荐一部更国际化、更主流的。《昆汀的丛林》,那真是一部好电影,我非常喜欢。

Guillaume Marquis:我看了好几遍,还是一部值得看的电影。随机事物的话,也许是一座城市。一座值得去游览的城市。我非常喜欢。很难选。总的来说很难选一个地方。好的,佛罗伦萨,就像在意大利那样。

Demetrios:就这样。

Guillaume Marquis:是的,那是一个非常酷的城市。所以如果你有时间,甚至Sabrina,如果你最近要去欧洲,那真是一个不错的地方。

Demetrios:确实如此。Sabrina很快就要去欧洲了。我们现在正在“曝光”她。所以希望佛罗伦萨在她的行程单上。我知道大多数观众并不是为了听我们三个随机推荐而来。我们是为了讨论检索增强生成(RAG)而来的。但希望这些建议能帮助你们中的一些人改进家里的推荐引擎。也许你们在构建推荐引擎的技能中也会用到向量数据库。

Demetrios:不过,伙计,我们来谈谈这个吧,因为我觉得如果你能介绍一下背景,那会很好。你具体在做什么?我知道你有VirtualBrain。你能稍微介绍一下吗,这样我们就能了解你们是如何做RAG的?

Guillaume Marquis:因为RAG现在可能是AI领域最著名的词了。所以,VirtualBrain,我们特别在构建的是一个面向知识工作者的AI助手。因此,我们不仅仅是构建下一代搜索栏来搜索文档内容,它是一个面向企业级的工具,提供一种简单的方式来与你的知识互动。所以基本上,我们创建了一个工具,它可以连接到公司的全部知识库。可以是任何形式的,比如网盘、SharePoint,无论你有什么样的知识、任何类型的文档,通过它你都可以基于你的知识执行任务,比如审计、RFP(提案请求)、尽职调查。这不仅仅是像所有构建RAG或某种基于RAG的搜索系统的人总是给出的那个数字。是不是像20%?作为知识工作者,你花费20%的时间来搜索信息。我想我听过这个数字很多次了,这是真的,但这还不够。

Guillaume Marquis:就像搜索栏一样,很多公司,许多公司,长期以来一直在研究如何搜索东西,这总是一个课题。但真正的痛点以及我们想要处理和正在处理的是深度工作,是真正的任务,是如何帮助这些工作者,真正地像助手一样帮助他们,不仅仅是在搜索栏上,而是在真正的、具有真正附加值的任务上充当助手。所以在这方面,你能给我们举个例子吗?

Demetrios:举个例子?是这样吗?它在我使用Notion工作并讨论或创建PRD时弹出,然后说:“哦,这可能对你的PRD有用,因为你一周前搜索过这个。”或者诸如此类?

Guillaume Marquis:举个例子。我们正在与员工人数从100人到几千人的公司合作。例如,当你在一家公司作为销售人员必须创建一份商业提案时,你与公司、这个生态系统、这个环境都有历史记录,你必须利用你过去在公司里做过的所有商业提案,你可能有数千份提案,可能有数千份文档,可能有不同部门的报告,这取决于你所在的行业,并且通过这个工具。你可以提问,你可以利用这些文档,并且通过提问,通过与工具互动,轻松地创建新的提案,深入研究这个用例,创建真正与你的新用例相关的东西。而且这真正使用了你公司内部的知识。所以这不仅仅是检索,或者仅仅是找出这个客户的最新提案。它更像是,“好的,使用X份过去的提案来创建一个新的。”而这正是与我们主题相关的真正挑战。

Guillaume Marquis:因为这不仅仅是检索一份、两份甚至十份文档,而是检索一百份、两百份,很多文档,很多信息,你有很多文档、很多上下文、很多信息需要管理,才能真正做点事情。

Demetrios:我有一个价值百万美元的问题,我想可能每个人都在想:你们检索了这么多文档,你们如何评估你们的检索效果?

Guillaume Marquis:这绝对是个价值百万美元的问题。老实说,这是一个棘手的任务。说实话。目前我们做的是监控过程中的每个任务,所以我们有每个任务的输出。在每个任务上,我们使用评分系统来评估它是否与用户的初始问题或初始任务相关。我们在整个系统上有一个全局评分系统。所以这有点奇怪,有点经验主义,但目前是可行的。它也确实帮助我们随着时间推移改进工具完成的所有任务和所有流程。

Guillaume Marquis:所以这非常重要。例如,你们有这种叫做RAGtriad的框架。它是一种评估RAG检索上下文准确性、与初始问题关联度等多个参数的方式。你可以真正地初步评估每个步骤的答案质量和所有方面的质量。

Sabrina Aquino:我喜欢这个。你能进一步介绍一下你在架构中每一步使用的技术吗?

Guillaume Marquis:所以这个过程是这样的,它从我们摄取文档的那一刻就开始了,因为基本上如果你解析得不好,就很难检索到好的文档或者以正确的方式检索文档。如果你只是像我所说的“笨拙的RAG”,那就是把文档拿过来,分割成文本,就这样。但这肯定会丢失文档的上下文,文档的整体上下文,文档总体上在讲什么。你真的需要把它做好,并保留这个上下文。这是一个真正的挑战,因为如果你保留了一些噪音,如果你做得不好,最终一切都会崩溃。所以技术上它是这样工作的。我们开发了一个合适的系统,使用技术,开源技术来摄取文档。出于安全等方面的考虑,我们只使用开源工具。

Guillaume Marquis:这也是我们使用Qdrant的一个重要原因。所以我们有一个系统,我们使用这些无服务器的东西来随时间推移摄取文档。我们还有模型来创建文档标签。所以我们使用开源模型来标记文档,丰富文档,还可以创建新的标题,创建文档摘要,以保留上下文。当我们分割文档时,我们保留段落标题,段落内部的上下文,并将每段文本相互连接起来,以便在之后检索文档时保留上下文。所以这就是检索部分。我们有一个新型的搜索系统。我们在语义端口使用Qdrant。

Guillaume Marquis:所以基本上我们创建了嵌入,并将其存储到Qdrant中。我们执行相似度搜索,基于标题摘要过滤、标签、语义上下文来检索文档。我们也有关键词搜索,但这更多用于特定任务,比如当我们知道需要某个特定文档时,我们会在某个时候使用关键词搜索来查找。所以它是一种混合系统,使用带有标签过滤的确定性方法,以及使用这种ebot搜索选择文档的概率性方法,然后进行评分系统来获取最相关的文档,并选择从每个文档中提取多少内容。这有点技术性,但创建起来非常酷,而且我们有方法来发展和改进它。

Demetrios:伙计,这就是我们喜欢的地方。我们喜欢技术性的东西。我想这就是大家报名参加的原因。所以这非常酷。一个肯定会经常出现的问题是关于RAG以及当你摄取文档、检索文档和更新文档时,如何确保你获取的文档是,比如说,我知道可能有一个假设的人力资源场景,公司有一项政策,他们说你可以享受欧洲风格的假期,一年有大约三个月的假期,甚至法国风格的假期。基本上,你就是不工作。你想工作的时候就工作,不想工作的时候就不工作。然后突然一家美国公司过来接管,他们说,不,你们没有假期。

Demetrios:即使你有假期,你也不在工作,或者你正在工作,所以你必须更新所有的人力资源文档,对吧?所以现在当你有一个知识工作者正在创建东西,或者任何人正在获得帮助,比如这种副驾驶(copilot)帮助时,你如何确保这个人获得的信息是最新的信息?

Guillaume Marquis:这是又一个价值百万美元的问题。

Demetrios:我今天带来的都是热门问题。不知道你想要什么。

Guillaume Marquis:这是一个非常好的问题。所以基本上你有几种可能性。首先,你有这种PowerPoint演示文稿。这在知识库中是个烂摊子,有时你只想要使用最新的文档。所以基本上我们可以根据创建日期和文档日期进行过滤。有时你也想比较过程随时间的演变。所以这是另一个用例。基本上我们基于。

Guillaume Marquis:所以在摄取过程中,我们会分析文档中是否包含日期,因为有时在文档中,日期会出现在文档的末尾或开头。这是第一种方法。我们有文档的创建日期,但这并不是真相来源,因为有时你是在之后创建或复制的,日期会不一样,这取决于你是在Windows、Microsoft等系统上工作。这绝对是个混乱。我们也会比较文档。所以当我们重新检索文档,并且文档彼此非常相似时,我们会记住这一点,并尝试提供尽可能多的信息。有时这不可能,所以它不是100%的,不是万无一失的,但这是一个真正的问题。所以这是对你问题的部分回答,但这是我们今天在这个特殊主题上进行过滤和回答的一些方式。

Sabrina Aquino:现在我想知道构建这个RAG最具有挑战性的部分是什么,既然有这么多。

Guillaume Marquis:有很多部分都非常有挑战性。

挑战性。

Guillaume Marquis:其中一个具有挑战性的部分是系统的可扩展性。我们的客户带来TB级别的数据,并希望解析得非常快,因此你需要摄取数据,但即使是语义搜索,即使在大型数据集上也会很慢。而如今ChatGPT回答得非常快。所以你的用户,即使问题比基本的ChatGPT问题复杂得多,他们也希望在几秒钟内得到答案。所以这也是你必须真正关注的一个挑战。

Guillaume Marquis:我们仍然在努力,因为我们还在不断发展并获取更多数据。归根结底,你必须确保一切在LLM方面运行良好,但在搜索方面以及在几周内向用户提供关于后台工作的一些见解方面也必须做好,让他们有可能多等几秒钟,但开始向他们提供部分的答案。

Demetrios:是的,你这么说很有趣,因为我记得和you.com的一个人聊天,他们说有所谓的实际时间。他们称之为感知时间和真实时间。所以作为终端用户,如果你被问到一个问题,或者也许在问题出现的时候有一个小知识问答,那么它看起来并不会像实际花费的时间那样长。即使需要5秒钟,也会感觉好一点。或者就像你提到的,我记得读过一篇论文,我想,关于人们如果在屏幕上看到文字开始出现,他们就不会那么焦虑了,他们看到“好的,不是我一直在等,然后整个答案才吐出来”。而是我看到答案正在实时形成。所以这也能安抚人们的情绪。

Guillaume Marquis:是的,绝对如此。人类的大脑在这方面真是奇妙。而且有很多相关的东西。比如,我最喜欢的一个是“工作幻觉”。你知道吗?它完全是相反的。如果你有一些看起来很难做的事情,增加处理时间。这样用户就会觉得这是一项非常耗时的任务。这很有趣。

Demetrios:像这样真有趣。

Guillaume Marquis:是的,没错。这与你创造产品时的想法是相反的,但这是真实情况。有时只是告诉他们你正在后台执行复杂任务,这有助于他们理解。哦,是的。我的问题确实是一个复杂的问题,就像你有很多工作要做一样。如果你回答太快,他们就不会相信答案。

Guillaume Marquis:如果你回答太慢,情况就相反了。你可能会觉得,“好吧,但它一定很笨,因为它太慢了。”所以这是个笨AI或者诸如此类。这真的很有趣。我的联合创始人实际上是个产品经理,所以他非常专注于产品,他真的很喜欢这类东西。

Demetrios:很棒的思维实验,这很有趣。

Sabrina Aquino:你提到了你选择Qdrant是因为它是开源的,但现在我想知道,这是否也与你对速度快、可扩展的需求有关,以及在选择向量数据库时,你还考虑了哪些其他因素。

Guillaume Marquis:是的,我告诉过你,可扩展性和速度是最重要的点之一,也是最难熬的部分。是的,绝对如此,因为当你构建一个复杂的RAG时,你不仅仅是进行一次搜索,有时你可能需要将问题拆分,同时进行多次搜索。因此,拥有一个可扩展、快速、低延迟、能够并行处理大量请求的向量数据库是强制要求。所以你确实有这个需求。Qdrant是显而易见的选择。实际上,我们做了基准测试,所以我们真的尝试了几种可能性。

Demetrios:讲讲更多。是的。

Guillaume Marquis:我们尝试了经典的PostgreSQL PageVectors,我想我们试了大概30分钟,很快就意识到它真的不适合我们的用例。我们尝试了Weaviate,尝试了Milvus,尝试了Qdrant,我们尝试了很多。出于安全问题,我们更喜欢使用开源。我们最初尝试了Pinecone,公司刚开始时我们用的是Pinecone。最重要的点是,我们有工具的速度,我们有可扩展性,我们还有API,也许这么说有点傻,但我们也有API。我记得使用Pinecone时,只是想获取所有向量,不知为何就不行,总有一些奇怪的笨问题。如果你有一个100%为你的用例而设计的工具,而且有专注于此的人在开发,并且与你对这个领域演进的愿景一致。我想这就是你必须选择的最佳工具。

Demetrios:还有一件事我也很想听听,就是当你审视你的系统,以及整个产品时,你持续监控的一些关键指标是什么?你如何知道你达到了目标或者没有达到?如果没有达到,你有什么方法来调试这种情况?

Guillaume Marquis:你说的指标是指使用量指标吗?

Demetrios:或者说,我更关注你的整个技术设置和你RAG的质量。

Guillaume Marquis:基本上我们专注于知识工作者所在的行业,特别是顾问行业。所以我们有一些问题数据集,我们知道这些问题应该得到很好的回答。我们知道应该有什么样的输出。我们在RAG上监控的指标主要是答案的准确性、来源的准确性以及有时也非常难以管理的幻觉数量。实际上我们的工具会引用所有的来源。当你问问题或执行任务时,它会给你所有来源。但有时你可能会得到一个完美的答案,但其中有一个数字完全是凭空捏造的,这就是问题所在。我们还在为此努力。

Guillaume Marquis:我们在这一部分还不是最先进的。我们刚刚实现了一个工具,我想你可能知道,是LangFuse。你听说过吗?LangFuse?

Demetrios:没有。详细讲讲。

Guillaume Marquis:LangFuse是一个用来监控你的RAG任务的工具,你可以轻松记录东西。它也是开源工具,你可以轻松地自行托管,并监控你的RAG的每一个部分。你可以根据已经问过的问题和答案或者你自己创建的问题和答案来创建数据集。你可以轻松地对你的RAG进行评估并给出最终评分,并且能够监控一切,根据你的RAG数据集给出全局评分。所以我们目前正在实现它。我提到他们的名字是因为他们做的工作非常出色,我真的很喜欢。这是非常重要的一点,以便不至于盲目。我的意思是,总体而言,在业务方面,你必须遵循指标。

Guillaume Marquis:数字不会说谎。人类会说谎,但数字不会。但之后你必须解读数字。所以这也是另一个棘手的部分。但拥有好的指标并能够知道你是否在发展它,是否在改进你的系统以及一切是否正常工作,这非常重要。基本上我们正在做的不同的事情,我们不像。

Demetrios:你们收集人类反馈吗?对于幻觉部分,我们尝试了,但是。

Guillaume Marquis:人类似乎不太愿意提供大量反馈。

Demetrios:这很难。这就是为什么终端用户很难做任何事情,即使是点赞或点踩也很困难。

Guillaume Marquis:我们尝试了几种方法。我们有赞和踩,我们尝试了评分。你要求真实的反馈来写一些东西,比如“嘿,请帮助我们”。人类反馈相当贫乏,所以我们不指望它。

Demetrios:我认为最困难的部分,至少对我作为终端用户来说,每当我使用这些工具时,比如点踩或者,我甚至见过更进一步的,比如你不只有一种表情符号。你可能有赞,有踩。你可能有一个蘑菇表情。所以它就像是幻觉。而且你还有,比如。

Guillaume Marquis:那是什么?

Demetrios:我看到的另一个我觉得很不错的?我现在想不起来了,但是。

Guillaume Marquis:我从没见过蘑菇表情。但这挺有趣的。

Demetrios:是的,很好。它不仅仅是错误。它完全是,比如,差得离谱。我觉得有趣的是,当我作为终端用户时,我有点觉得,我没有时间去解释为什么这没用,其中的细微差别在哪里。我真的需要坐下来,几乎要写一本书,或者至少是一篇论文来解释,是的,这个有点用,但它只有五分之二的用处,而不是五分之四。所以这就是为什么我点了踩。或者说,有一部分是好的,有一部分是坏的。所以,作为终端用户在评估它时,你必须去深入的细微之处,我认为这样要好得多。

Demetrios:我见过很多人都是期望在内部完成这个工作。事后,你获得所有信息,你可以看到,在某些指标上,比如,这个人提交了代码吗?这是一个很好的信号,说明它有用。但你也可以看看,这个人是复制粘贴的吗?等等。我们怎么能看到如果他们没有复制粘贴或者他们没有采取我们期望他们采取的下一步行动?为什么没有?然后我们尝试深入研究,看看我们可以做什么来改进这一点。

Guillaume Marquis:是的。我们也可以评估后续问题,比如用户紧接着问的问题。这是一个很棒的观点。我们目前还没有自动化处理,但如果你看到用户只是回答“不,这不是真的”,或者“你应该重新措辞”,或者“更简洁一些”,或者这类后续问题,你就知道第一个答案不像预期的那样相关。

Demetrios:这个观点太棒了。或者你可以做一些情感分析,然后它慢慢变得越来越生气。

Guillaume Marquis:是的,没错。这也是一个好观点。

Demetrios:是的,这个回答越来越糟了,所以。好吧,酷。我想就是这样了。Sabrina,你这边还有最后一个问题吗?

Sabrina Aquino:是的,我想从用户角度,从VirtualBrain的角度,我很想知道传统的LLM有哪些不足,或者VirtualBrain在它们的结构中解决了哪些错误,让用户觉得这样更好。

Guillaume Marquis:我认为特别是在这一点上,我们谈到了幻觉,我认为这是经典LLM面临的主要问题之一。我们真的认为,当你创建一个“一刀切”的工具时,会存在一些问题,因为你必须管理不同的方法,就像微软创建Copilot时,你必须理解各种用例,我确实这么认为。我们的AI并非训练来以莎士比亚的风格或马丁·路德·金的风格给你写演讲稿。这不是这个工具的目的。所以如果你问一些超出其能力范围的问题,它只会说:“好的,我不知道怎么回答。”这是一个重要的点。能够不越界本身就是一个特性。所以我们选择了将AI置于一个盒子里,这个盒子基本上包含了你公司的所有知识,所有检索到的知识。

Guillaume Marquis:实际上我们没有很多幻觉,我不会说0%,但已经接近于零。因为我们分析问题,将AI放在一个盒子里,强制AI在回答之前思考答案,我们还会分析答案,判断其是否相关。这是我们正在解决并为用户解决的一个重要问题,我们宁愿给出“不知道”的回答,而不是给出糟糕的答案。

Sabrina Aquino:确实如此。有些人认为,“嘿,这是RAG,它不会产生幻觉”,但事实并非如此。在你提供的特定上下文窗口内,它产生幻觉的概率会降低。对。但仍然有可能。因此,尽可能地减少幻觉是非常有价值的。

Demetrios:太棒了。好的,我想我们的时间快到了。我非常感谢这次交流。我鼓励大家去看看VirtualBrain。我们将把链接放在评论中,以防有人想免费注册。

Guillaume Marquis:所以你可以免费试用。

Demetrios:更好了。看看,圣诞节提前到了。好吧,我们去玩玩吧,试试它。我不能保证,但我可能会给你一些反馈,如果它产生幻觉,我可能会给你一些评估指标。

Guillaume Marquis:或者如果我看到有人点赞或点踩,我就知道是你了。

Demetrios:是的,太酷了。没错。好了,各位,今天的节目就到这里了。我们下次再见。提醒一下,不要迷失在向量空间里。这是又一场向量空间讲座。如果你想来这里和我们聊天,请随时联系我们。再见啦。

Guillaume Marquis:酷。

Sabrina Aquino:各位再见。谢谢。拜拜。

免费开始使用Qdrant

开始使用