VirtualBrain:最佳RAG,释放AI的真正力量 - Guillaume Marquis | 向量空间讲座
Demetrios Brinkmann
·2024年3月27日

“拥有一个可扩展、快速、低延迟、能够并行处理大量请求的向量数据库是强制性的。因此,你确实有这个需求,Qdrant是一个显而易见的选择。”
—— Guillaume Marquis
Guillaume Marquis是一位敬业的工程师和人工智能爱好者,担任创新人工智能公司VirtualBrain的首席技术官和联合创始人。他致力于探索将人工智能融入日常生活的创新方法,并致力于推动该领域及其应用的发展。
在Spotify、Apple Podcast、Podcast addicts、Castbox上收听本期节目。您也可以在YouTube上观看本期节目。
主要收获
谁能想到文档检索也能充满创意?Guillaume和VirtualBrain利用过去的报告来起草销售提案。技术如何超越基本搜索任务辅助深度工作,这令人着迷。
在处理文档检索和人工智能辅助方面,Guillaume还深入探讨了使用评分系统搜索海量数据的来龙去脉、RAG在深度工作中的优势,以及经历“工作幻觉”、为知识工作者增强洞察力,同时应对可扩展性和用户对幻觉反馈的挑战。
以下是本期节目中您需要关注的一些关键见解
- 如何通过精确的文档检索评分系统驾驭数据世界。
- 新鲜数据的重要性以及如何避免过时信息的黑洞。
- 提高系统可扩展性和速度的技术——在广阔的数据空间中至关重要。
- 专为深度而非广度量身定制的人工智能助手,协助完成如起草出色商业提案等任务。
- 用户感知在人工智能工具交互中的有趣作用,以及一点时机魔法。
有趣的事实:VirtualBrain使用Qdrant,因为它在速度、可扩展性和API功能方面具有优势。
节目笔记
00:00 主持人和嘉宾推荐。
09:01 利用过去的知识创建新提案。
12:33 摄取和解析文档以进行上下文检索。
14:26 创建和存储数据,执行高级搜索。
17:39 分析文档日期以进行准确信息检索。
20:32 感知时间可以缓解紧张情绪并带来乐趣。
24:23 尝试了各种向量数据库,更喜欢开源。
27:42 LangFuse:用于监控任务的开源工具。
33:10 旨在保持界限内的人工智能工具。
34:31 通过仔细分析最大程度减少人工智能中的幻觉。
Guillaume更多语录
“我们只使用开源工具,因为安全方面等等。这也是我们使用Qdrant的一个重要原因。所以我们有一个系统,我们正在使用这种无服务器技术来随着时间推移摄取文档。”
—— Guillaume Marquis
“最具挑战性的部分之一是系统的可扩展性。我们的客户拥有TB级的数据,并且希望快速解析,因此您有摄取,但即使是语义搜索,即使在大型数据集上也可能很慢。而今天的ChatGPT回答非常快。所以您的用户,即使问题比基本的ChatGPT问题复杂得多,他们也希望在几秒钟内得到答案。所以您也必须应对这个挑战。”
—— Guillaume Marquis
“我们的人工智能并未受训以莎士比亚的风格和马丁·路德·金的风格为您撰写演讲稿。这不是该工具的目的。因此,如果您提出超出范围的问题,它只会说,好的,我不知道如何回答。这是一个重要点。能够不越界本身就是一项功能。”
—— Guillaume Marquis
文字记录
Demetrios:所以,伙计,我很高兴这次谈话。在我们开始之前,我想确保我们有一些会前准备工作。其中之一是,一如既往,我们正在进行这些向量空间讲座,每个人都被鼓励和邀请加入。提出您的问题,让我们知道您是从哪里打电话进来的,让我们知道您在做什么,您的用例是什么,并随时在聊天中提出您可能有的任何问题。我们将像老鹰一样监控它。今天和我在一起的是Sabrina。Sabrina,你好吗?
Sabrina Aquino:你好,Demetrios?我很好。很高兴来到这里。我喜欢看到人们用Qdrant构建的那些惊人的东西。是的,我们开始吧。
Demetrios:是的。所以我想我看到Sabrina穿着一件特别的衬衫,上面写着“不要迷失在向量空间里”。如果有人想要这样的衬衫。好了,我们搞定了,伙计。你很快就会在你的前门收到一件。如果其他人想要一件,来这里。在下一次向量空间讲座上展示。
Demetrios:我们很高兴能有你。我们还有最后一件事,我觉得很有趣,我们可以在进入对话的技术部分之前谈谈。那就是我告诉Sabrina准备一些推荐。知道向量数据库,它们偶尔可以用于推荐系统,但没有什么比从朋友那里获得隐藏的宝石更好的了。现在我们要做的就是给你一些隐藏的宝石,这样下一次推荐引擎为你工作时,它就会对你有利。Sabrina,我让你推荐一首音乐,一个节目和一个随机的东西。所以基本上是你可以推荐给我们的一个随机的东西。
Sabrina Aquino:所以,我选了。我思考了一下。好的,我认真思考了一下。电影是莱昂纳多·迪卡普里奥和汤姆·汉克斯的《逍遥法外》。你们看过吗?非常好的电影。歌曲是尼克·凯夫和坏种子乐队的《Oh, Children》。也是一首非常好的歌。而随机推荐是我最喜欢的香薰蜡烛,它是柑橘香调、海盐和雪松。
Sabrina Aquino:就是这样。
Demetrios:香薰蜡烛作为推荐。我喜欢。我觉得那很酷。我没有确切地告诉你要准备那个。所以接下来我来,然后你可以有更多时间思考。所以对于任何加入我们的人,我们只是给出一些建议,以帮助您家里的推荐引擎。我们马上就要开始关于RAG的对话了。但我的歌是。
Demetrios:哦,天哪。我一直在听,因为我以为Spotify上没有,但今天早上我找到了,我很高兴他们有。那是比尔·埃文斯和切特·贝克。基本上,他们的整张专辑,传奇的会话,简直是不可思议。但那张专辑的第一首歌叫做《Alone Together》。当切特·贝克开始演奏他的小长号时,我的天哪,你仿佛能感受到情感。你可以触摸它。那就是我推荐的。
Demetrios:各位,如果你们喜欢,我会把链接放到聊天里。电影或系列。《这个傻瓜》,如果你会说西班牙语,那就更好了。这是一个很棒的系列。去做吧。至于随机的东西,我早上一直在咖啡里加灵芝粉。我强烈推荐。好了,最后一个,我们来听听你的推荐,然后我们就开始聊RAG。
Guillaume Marquis:嗯,我有点逊色。所以对于歌曲,我想我会推荐一些东西,因为我是法国人,我想你们能听出来。所以我选择Daft Punk的《Get Lucky》,因为我对他们合作的结束有点难过。所以,是的,我无法忘记它。这是一首非常好的音乐。我很想念他们。至于电影,也许是一些我真正喜欢的。我们有很多非常好的法国电影,但也许是更国际化、更主流的。昆汀的《姜戈》,那真是一部好电影,我非常喜欢。
Guillaume Marquis:我看过好几次,仍然是一部值得一看的好电影。随机的东西,也许是一个城市。一个值得去参观的城市。我真的很喜欢。很难选择。真的很难选择一个地方。好的,佛罗伦萨,在意大利。
Demetrios:就是这样。
Guillaume Marquis:是的,这是一个非常酷的城市。所以如果你有时间,甚至Sabrina,如果你很快去欧洲,那是一个非常好的地方。
Demetrios:没错。Sabrina很快就要去欧洲了。我们现在正在曝光她的行程。所以希望佛罗伦萨在她的名单上。我知道大多数观众并不是为了听我们三个人随意给出推荐而来的。我们在这里是为了更多地讨论检索增强生成。但希望这些推荐能帮助你们所有在家使用推荐引擎的人。也许你正在你的推荐引擎构建技能中使用一点向量数据库。
Demetrios:伙计,我们来谈谈这个,因为我想如果你能介绍一下情况会很好。你究竟在做什么?我知道你有虚拟大脑。你能告诉我们一些关于它的事情吗,这样我们就能知道你是如何做RAG的?
Guillaume Marquis:因为RAG现在是人工智能领域最著名的词。所以,VirtualBrain,我们特别在做什么,我们正在为知识工作者构建一个人工智能助手。所以我们不仅仅是构建一个下一代搜索栏来搜索文档内容,它是一个企业级的企业工具,提供与您的知识进行交互的简单方式。所以基本上,我们创建一个工具,我们将其连接到公司的世界知识。它可以是任何东西,比如驱动器、SharePoint,任何你拥有的知识,任何类型的文档,通过它你将能够对你的知识执行任务,例如审计、RFP、尽职调查。这不仅仅是像每个构建RAG或通过RAG构建某种搜索系统的人总是给出相同的数字。那就是20%?作为知识工作者,你将20%的时间花在搜索信息上。我想我听过这个数字很多次,这是真的,但这还不够。
Guillaume Marquis:就像搜索栏一样,很多公司,很多公司,都在研究如何长时间搜索东西,这始终是一个话题。但真正的痛点和我们想要处理的,以及我们正在处理的,是深度工作,是真正的任务,是如何帮助这些员工,真正帮助他们成为助手,不仅仅是在搜索栏上,就像在真正的任务上,真正的附加值任务上,作为一个助手。那么在其中,你能给我们一个例子吗?
Demetrios:那是不是,比如说,当我在Notion上工作,谈论或创建PRD时,它就会弹出,然后说,“哦,这可能对你的PRD有用,因为你一周前搜索过那个”之类的?
Guillaume Marquis:例如。所以我们正在与拥有100名员工到数千名员工的公司合作。例如,当您必须作为公司销售人员创建商业提案时,您与公司有历史,在这个生态系统中有历史,在这个环境中也有历史,您必须利用过去在公司中完成的所有商业提案,您可以有数千份提案,您可以有数千份文档,您可以根据您所处的行业获得来自不同部门的报告,通过这个工具。因此,您可以通过提问、通过与工具交互来利用这些文档,轻松创建新提案,深入研究这个用例,并创建真正与您的新用例相关的东西。这确实利用了您公司中的知识。因此,这不仅仅是检索或只是像找到这个客户的最新提案。它更像是,好的,使用过去X份提案来创建一份新提案。这是与我们的主题相关的真正挑战。
Guillaume Marquis:因为这不仅仅是检索一两个甚至十个文档,而是检索一百个,两百个,大量文档,大量信息,你需要真正处理大量文档,大量上下文,大量信息。
Demetrios:我有一个价值百万美元的问题,我想这可能是每个人脑海中都会出现的问题,那就是:你检索了这么多文档,你是如何评估你的检索的?
Guillaume Marquis:这绝对是价值百万美元的问题。老实说,这是一项艰巨的任务。公平地说。目前我们正在做的是,我们监控流程的每个任务,所以我们有每个任务的输出。在每个任务上,我们使用评分系统来评估它是否与用户的初始问题或初始任务相关。我们有一个针对整个系统的全局评分系统。所以它相当奇怪,有点经验主义,但目前它有效。它确实帮助我们随着时间推移改进所有任务和工具完成的所有流程。
Guillaume Marquis:所以这真的很重要。例如,您有这种名为RAGtriad的框架。它是一种评估RAG的方法,评估检索上下文的准确性、与初始问题的关联度等等,以及几个参数。您确实可以有一个初步的方法来评估答案的质量和每个步骤中所有内容的质量。
Sabrina Aquino:我喜欢。你能详细介绍一下你在架构中每个步骤所使用的技术吗?
Guillaume Marquis:所以这个过程非常像,它从我们摄取文档的那一刻开始,因为基本上,如果你没有很好地解析文档,就很难检索到好的文档或以正确的方式检索文档。如果你只是像我所说的愚蠢的RAG,就是,好的,你拿一个文档,把它分成文本,就这样。但你肯定会失去文档的上下文,文档的整体上下文,文档一般在谈论什么。你确实需要正确地做到这一点并保持这个上下文。这是一个真正的挑战,因为如果你保留了一些噪音,如果你没有做好,最终一切都会崩溃。所以技术上它是如何工作的。所以我们有一个我们开发的适当系统,使用开源技术来摄取文档。我们只使用开源工具,因为安全方面等等。
Guillaume Marquis:这也是我们使用Qdrant的重要原因之一。所以我们有一个系统,我们正在使用这种无服务器技术来随着时间推移摄取文档。我们也有模型可以在文档上创建标签。所以我们使用开源SLM来标记文档,丰富文档,还可以创建新标题,创建文档摘要,以保持上下文。当我们分割文档时,我们保留段落的标题,段落内部的上下文,并且我们将每个文本片段相互连接起来以保持上下文。之后,当我们检索文档时。所以这就像检索部分。我们有一个新的搜索系统。我们正在语义端口使用Qdrant。
Guillaume Marquis:所以基本上我们正在创建不可思议的东西,我们正在将其存储到Qdrant中。我们正在执行相似性搜索以根据标题摘要过滤、标签、语义上下文来检索文档。我们也有一些关键词搜索,但这更多是为了特定的任务,比如当我们知道我们需要一个特定的文档时,我们在某个时候用关键词搜索它。所以它是一种混合系统,使用确定性方法与标签过滤,以及概率性方法与这种eBot搜索来选择文档,然后执行评分系统以获取最相关的文档,并选择我们将从每个文档中获取多少内容。这有点技术性,但创建起来真的很有趣,我们有一种方法来发展和改进它。
Demetrios:这就是我们喜欢的东西,伙计。我们想要技术性的东西。我想每个人都为此而报名。所以这很酷。当谈到RAG以及当你摄取文档、检索文档和更新文档时,一个经常出现的问题是,你如何确保你正在检索的文档,比如说,我知道可能有一个假设的人力资源场景,公司有一个特定的政策,他们说你可以享受欧洲风格的假期,每年有三个月的假期,甚至是法国风格的假期。基本上,你只是不工作。你什么时候想工作,什么时候不工作。然后突然一家美国公司过来接管,他们说,不,你们没有假期。
Demetrios:即使你有假期,你也不工作,或者你在工作,所以你必须更新所有的人力资源文档,对吧?所以现在,当有知识工作者在创建东西,或者当有人获得帮助,比如这种副驾驶帮助时,你如何确保这个人获得的信息是最新的信息?
Guillaume Marquis:那是新的百万美元问题。
Demetrios:我今天带来了一些热门问题。我不知道你在找什么。
Guillaume Marquis:这是一个非常好的问题。所以基本上你有几种可能性。第一种,你有这种PowerPoint演示文稿。在知识库中一团糟,有时你只想使用最新的文档。所以基本上我们可以根据创建时间和文档日期进行筛选。有时你还想比较流程随时间的变化。所以那是另一个用例。基本上我们基于。
Guillaume Marquis:所以,在摄取过程中,我们正在分析文档中是否包含日期,因为有时在文档中,日期会在文档的末尾或开头。这是第一种方法。我们有文档的创建日期,但这不是一个事实来源,因为有时你是在之后创建的,或者你复制了它,日期也不一样,这取决于你是在Windows、Microsoft上工作,等等。这绝对是一团糟。我们也会比较文档。所以当我们重试文档时,如果文档彼此非常相似,我们会记住这一点,并尝试提供尽可能多的信息。有时这不可能,所以它不是100%的,它不是万无一失的,但这是一个真正的问题。所以这是你问题的一部分答案,但这是我们今天在这种特殊主题上过滤和回答的一些方式。
Sabrina Aquino:现在我想知道构建这个RAG最具挑战性的部分是什么,因为有很多。
Guillaume Marquis:有很多部分都极具挑战性。
Sabrina Aquino:充满挑战。
Guillaume Marquis:最具挑战性的部分之一是系统的可扩展性。我们有客户带着数TB的数据来,并希望以极快的速度进行解析,所以你有摄取,但即使是语义搜索,即使在大型数据集上也可能很慢。而今天的ChatGPT回答非常快。所以你的用户,即使问题比基本的ChatGPT问题复杂得多,他们也希望在几秒钟内得到答案。所以你也有这个挑战,你真的必须注意。所以这很有挑战性,它就像这个工业供应链。所以当你升级一些东西时,你必须确保所有其他方面都运行良好。这是一个真正的挑战,需要处理。
Guillaume Marquis:我们仍在努力,因为我们还在不断发展并获取更多数据。归根结底,你必须确保一切在LLM方面、研究方面以及几周内向用户提供一些内部工作原理的见解,让他们能够多等几秒钟,但开始向他们提供部分答案方面都运行良好。
Demetrios:是啊,你这么说真有意思,因为我记得和一位在you.com工作的人聊天,他们说存在“实际时间”这种东西。他们称之为“感知时间”和“实际时间”。所以作为终端用户,如果你被问到一个问题,或者也许有一个琐事测验,当问题出现时,它看起来并没有花那么长时间。即使它花了5秒钟,也感觉有点酷。或者正如你提到的,我记得读过一篇论文,我想是关于人们在看到文字开始这样弹出时会不那么焦虑,他们会看到“好的,这不是我一直在等待,然后整个答案才吐出来”,而是“我看到答案实时形成”。所以那也能平息人们的紧张情绪。
Guillaume Marquis:是的,没错。人类的大脑在这方面真是太棒了。你有很多这样的东西。例如,我最喜欢的一个是“工作幻觉”。你知道吗?它完全相反。如果你有一些看起来很难做的事情,增加处理时间。用户就会觉得这是一项非常困难的任务。所以这真的很有趣。
Demetrios:太有趣了。
Guillaume Marquis:是的。是的。这和你创建一个产品时会想到的完全相反,但那是真实的东西。有时只是告诉他们你正在后台执行繁重任务,这有助于他们。哦,是的。我的问题确实是一个复杂的问题,比如你有很多工作要做。这是个“斧头”词,比如。如果你回答太快,他们就不会相信答案。
Guillaume Marquis:如果你的回答太慢,你会遇到这种情况。好吧。但这应该很愚蠢,因为它太慢了。所以这是一个愚蠢的AI之类的。所以这真的很有趣。我的联合创始人实际上是一个产品人,所以他非常关注产品,他真的很喜欢这种东西。
Demetrios:很棒的思想实验,很有趣。
Sabrina Aquino:你提到你选择Qdrant是因为它是开源的,但现在我想知道这是否也与你对快速、可扩展性的需求有关,以及你在选择向量数据库时还考虑了哪些其他因素。
Guillaume Marquis:是的,所以我告诉过你,可扩展性和速度是最重要的几点,也是最难承受的部分。是的,当然,因为当你构建一个复杂的RAG时,你不会只执行一个研究,在某些时候你可能会把它分成几个,同时进行。所以拥有一个可扩展、快速、低延迟、能够并行处理大量请求的向量数据库是强制性的。所以你确实有这个需求。Qdrant是一个显而易见的选择。事实上,我们做了一个基准测试,所以我们真的尝试了几种可能性。
Demetrios:有人告诉我更多。是的。
Guillaume Marquis:所以我们尝试了经典的Postgres页面向量,我想我们尝试了大约30分钟,我们很快就意识到它真的不适合我们的用例。我们尝试了Weaviate,我们尝试了Milvus,我们尝试了Qdrant,我们尝试了很多。我们更喜欢使用开源,因为安全问题。我们最初尝试了Pinecone,在公司成立之初我们就在Pinecone上。所以最重要的几点,我们有工具的速度,我们有可扩展性,我们也有,也许这样说有点愚蠢,但我们也有API。我记得使用Pinecone时,只是想获取所有向量,但某种程度上不可能,你会有一些愚蠢的东西,有时真的非常奇怪。如果你有一个工具是100%为你的用例而制作的,有专门为此工作的人,并且他们的愿景与你对这个工具发展的愿景一致。我想这是你必须选择的最佳工具。
Demetrios:所以我也很想听听,当你看你的系统和整个产品时,你经常监控哪些关键指标,以及你如何知道你是否达到了它们?如果没达到,你有哪些方法来调试这种情况?
Guillaume Marquis:您说的指标是指使用指标吗?
Demetrios:我更想知道你的整个技术设置以及RAG的质量。
Guillaume Marquis:基本上,我们专注于知识工作者的行业,尤其是咨询行业。所以我们有一些问题数据集,我们知道应该很好地回答这些问题。我们知道应该得到什么样的输出。我们正在监控的RAG指标主要是答案的准确性、来源的准确性、幻觉的数量,有时这也很难管理。实际上,我们的工具会记录所有信息。当你提出问题或执行任务时,它会给你所有来源。但有时你可能会得到一个完美的答案,但答案中只有一个数字是凭空捏造的,完全是虚构的,这很难解决。我们仍在努力解决这个问题。
Guillaume Marquis:我们在这一部分不是最先进的。我们刚刚实现了一个工具,我想你可能知道它叫LangFuse。你知道他们吗?LangFuse?
Demetrios:不。告诉我更多。
Guillaume Marquis:LangFuse是一个旨在监控RAG上任务的工具,因此您可以轻松地记录数据。它也是一个开源工具,您可以轻松地自托管,并且可以监控RAG的每个部分。您可以根据已提出的问题和答案或您自己创建的问题和答案创建数据集。您可以轻松地执行RAG检查,只需进行测试并给出最终分数,并能够监控一切,并根据您的RAG数据集给出全局分数。所以我们目前正在实施它。我提他们的名字是因为他们做得非常出色,我非常喜欢它。这是不盲目的最重要的一点。我的意思是,总的来说,在业务方面,您必须遵循指标。
Guillaume Marquis:数字不会说谎。人会说谎,但数字不会。但之后你必须解释数字。所以那也是另一个艰难的部分。但重要的是要有好的指标,并且能够知道你是否在改进它,你是否在改进你的系统,以及一切是否正常。基本上我们正在做的不同事情,我们并不是。
Demetrios:你收集人类反馈吗?对于幻觉部分,我们尝试过,但是。
Guillaume Marquis:人类不太喜欢提供反馈。
Demetrios:这很难。所以用户很难做任何事情,即使是竖起大拇指或向下大拇指也很难。
Guillaume Marquis:我们尝试了几种方法。我们有竖起大拇指、向下大拇指,我们尝试了星级评分。你要求真实的反馈,写一些东西,嘿,请帮助我们。人类反馈相当差,所以我们不指望它。
Demetrios:我认为最困难的部分,至少作为终端用户,每当我使用这些东西时,就是不喜欢或不赞成,我甚至看到它发展到,你不仅仅只有一个表情符号。比如,你可能有竖起大拇指,向下大拇指。你可能有一个蘑菇表情符号。所以它就像,幻觉了。你有一个,就像。
Guillaume Marquis:那是什么?
Demetrios:我看到了另一个,我觉得很漂亮?我现在记不起来了,但是。
Guillaume Marquis:我从来没见过蘑菇。但这很有趣。
Demetrios:是的,很好。这不仅仅是错了。它绝对是,就像,完全偏离了目标。我觉得有趣的是,当我作为终端用户时,它有点像,我没有时间解释为什么这没有用。我真的必须坐下来,几乎,就像写一本书,或者至少一篇关于,是的,这有点用,但它更像是五分之二,而不是五分之四。这就是我给它差评的原因。或者这一部分很好,那一部分很糟糕。所以它就像,作为终端用户,当您试图评估它时,您必须深入研究的方式,或者您必须深入研究的细微差别,我认为这会更好。
Demetrios:我看到很多人做的是期望在事后内部完成。你把所有信息拿回来,你看看某些指标,比如,哦,这个人是否提交了代码?那是一个好的信号,说明它是有用的。但你也可以看看,或者这个人是否复制粘贴了?等等等等。我们如何才能看到他们没有复制粘贴,或者他们没有采取我们期望他们采取的下一步行动?为什么不呢?让我们深入研究一下我们可以做些什么来让它变得更好。
Guillaume Marquis:是的。我们也可以评估下一个问题,比如后续问题。这是一个很棒的观点。我们目前还没有自动执行它,但如果你看到用户只是回答“不,这不是真的”,或者“你应该重新措辞”或“更简洁”,或者这类后续问题,你就知道第一个答案没有那么相关。
Demetrios:这是一个很好的观点。或者你做一些情感分析,它就会慢慢变得越来越愤怒。
Guillaume Marquis:是的,没错。这也是一个好点。
Demetrios:是的,这个走下坡路了,所以。好了,酷。我想就这样了。Sabrina,你还有什么问题吗?
Sabrina Aquino:是的,我觉得我只是很想从用户的角度,从虚拟大脑的角度知道,传统模型有哪些不足,或者虚拟大脑在它们的结构中修复了哪些错误,让用户觉得这样更好。
Guillaume Marquis:我认为在这方面,我们谈到了幻觉,我认为这是人们在经典元素上遇到的主要问题之一。我们确实认为,当你创建一个一刀切的工具时,你会有一些问题,因为你必须管理不同的方法,比如当你作为微软创建副驾驶时,你必须处理用例,我真的这么认为。我们的人工智能没有被训练来用莎士比亚的风格和马丁·路德·金的风格为你写演讲稿。这不是该工具的目的。因此,如果你问一些超出范围的问题,它只会说,好吧,我不知道如何回答。这是一个重要的点。能够不越界本身就是一项功能。所以我们选择了将人工智能放在盒子里面,这个盒子基本上包含了你公司的所有知识,所有检索到的知识。
Guillaume Marquis:实际上,我们没有太多幻觉,我不会说0%,但非常接近于零。因为我们分析一个问题,我们将AI放入一个盒子,我们强制AI在回答之前思考答案,我们还会分析答案以判断答案是否相关。这是一个我们正在修复的关键点,并且我们为用户修复了这个问题,我们宁愿给出无答案,也不愿给出错误的答案。
Sabrina Aquino:绝对。有些人认为,嘿,这是一个RAG,它不会产生幻觉,但事实并非如此。它在您提供的特定上下文窗口内产生幻觉的可能性会较小。对吧。但它仍然有可能性。因此,尽可能地减少这种可能性是非常有价值的。
Demetrios:太好了。好了,我想时间差不多了。我真的很感谢这次谈话。我鼓励大家去看看VirtualBrain。我们会在评论中留下链接,以防有人想免费注册。
Guillaume Marquis:所以你可以免费试用。
Demetrios:更好。看,圣诞节提前来了。那我们去玩玩吧。我不敢保证,但我可能会给你一些反馈,如果它产生幻觉,我可能会给你一些评估指标。
Guillaume Marquis:或者如果我看到点赞或点踩,我就会知道是你。
Demetrios:是的,酷。没错。好了,各位,今天就到这里。我们下次再见。提醒一下,不要迷失在向量空间里。这是又一场向量空间讲座。如果你想来这里和我们聊天,随时联系我们。再见。
Guillaume Marquis:酷。
Sabrina Aquino:再见各位。谢谢。再见。