0

释放AI潜力:Stanislas Polu的见解

Demetrios Brinkmann

·

2024年1月26日

Unlocking AI Potential: Insights from Stanislas Polu

Qdrant x Dust:向量搜索如何通过Stanislas Polu让工作更出色

“我们最终选择Qdrant是因为它的开源性质、强大的性能、Rust语言编写、全面的文档以及掌控感。”
– Stanislas Polu

Stanislas Polu是Dust的联合创始人兼工程师。他曾将一家公司出售给Stripe,并在那里工作了5年,亲眼见证了Stripe从80人发展到3000人。随后他转向OpenAI进行大型语言模型和数学推理能力的研究。六个月前,他创办了Dust,旨在利用大型语言模型(LLMs)改善工作。

Spotify、Apple Podcast、Podcast addicts、Castbox上收听本期节目。您也可以在YouTube上观看本期节目。

主要收获

好奇SaaS平台与AI在提高生产力方面的相互作用吗?Stanislas Polu深入探讨了企业数据管理、SaaS工具的选择性使用以及定制AI助手在简化工作流程中的作用,同时分享了他在Stripe、OpenAI以及最新创业公司Dust的经验。

收听后,您将收获以下5个金玉良言

  1. SaaS宇宙:Stan将向您介绍为何在Salesforce和Slack等不同的SaaS星系之间穿梭对于您的业务数据的引力至关重要。
  2. API扩展:了解如何突破API的界限,以包含全球支付方式,从而改变公司增长的轨迹。
  3. 每颗星一个机器人:发现如何创建有针对性的助手而非通用助手,可以在各种用例中迅速提升团队生产力。
  4. 科技望远镜背后:Stan讨论了选择Qdrant作为其数据库宇宙的决策过程,包括是什么促使他们做出改变。
  5. 整合AI星尘:他们不只是谈论生成式AI;他们正积极指导公司如何有效地利用它,将实用性置于华丽之上。

趣闻:Stanislas Polu共同创立了一家被Stripe收购的公司,这让他有机会与Greg Brockman在Stripe共事。

节目笔记

00:00 关于AI技术领域激动人心的职业生涯访谈。
06:20 大多数工作流程涉及多个SaaS应用程序。
09:16 询问在Stripe和AI的经历。
10:32 Stripe致力于拓展全球支付方式。
14:10 文档插入支持用户体验的层级结构。
18:29 在同一个领域竞争,但仍是朋友。
21:45 工作区解决方案、市场、模板和用户反馈。
25:24 避免给予虚假希望;要负责任。
26:06 模型调用、外部API调用、结构化数据。
30:19 复杂的旋钮,但一旦理解就功能强大。出色的支持。
33:01 公司雇佣专人支持团队并寻找用例。

更多Stan语录

“你真的想把数据精确地限定在信息所在的位置。这也是我们非常依赖Qdrant的地方。因此,向量搜索之上的索引能力。”
– Stanislas Polu

“我认为基准测试主要关注模型质量,即在增强检索生成背景下的答案质量。所以它不像性能那么重要,但显然性能很重要,这就是我们喜欢使用Qdrant的原因。”
– Stanislas Polu

“工作区助手就像管理员审核过的助手,默认情况下会推给所有人。”
– Stanislas Polu

文字记录

Demetrios:好的,老兄,我想人们都会想了解你的一切。这个对话我们计划了很久。我很高兴能聊聊你最近在忙些什么。你在做一些很酷的事情方面经历了一段相当忙碌的时期。你在Stripe早期花了很多时间,我想你当时做了很多有趣的机器学习项目,然后你在OpenAI开始研究LLM。最近你正在进行创业,并顺应潮流创办了一家公司,用AI做出了非常酷的东西。我想我们应该从你的背景开始。在我这个简单的介绍中我漏掉了什么吗?

Stanislas Polu:好的,听起来不错。是的,完美。你没错过太多。也许唯一一点是,我与我的联合创始人Gabrielle共同创办了现在的公司Dust,我们在十二年前,或者说十四年前,一起创办了一家公司。

Stanislas Polu:我记不清年份了,那家公司最终被Stripe收购了。所以我们俩很早就加入了Stripe。我们加入时Stripe只有80人,后来发展到2500人,我在那里结识并与Greg Brockman共事。这就是我在Stripe之后,当我对OpenAI的研究感兴趣时,找到OpenAI的原因,即使我不是一名受过专业训练的研究员。

Stanislas Polu:我做了关于命运的研究,做了关于大型优秀模型、推理能力,特别是大型模型数学推理能力的研究。从那时起,18个月前,我决定离开OpenAI,原因很简单。基本上,我的假设是,在ChatGPT出现之前,这些大型语言模型已经非常强大,但与它们的潜力相比,它们的部署程度却远远不足。因此,虽然研究仍然是一个非常活跃的领域,并将成为整个生态系统的顺风,但还有

Stanislas Polu:可能在产品层面还有很多工作要做,而我们和将这项技术部署到世界之间的许多障碍,可能更多地存在于产品层面,而非研究层面。这就是Dust背后的假设,我们试图在产品层面探索模型与人类之间交互的意义,努力让他们更快乐,并通过超能力增强他们的日常工作。

Demetrios:你说产品层,能再详细说明一下你的意思吗?

Stanislas Polu:嗯,基本上,我们在Dust有一个座右铭,就是PMF之前不用GPU。所以,虽然训练模型非常令人兴奋,微调和对齐模型也非常令人兴奋,但除了模型之外,还有很多工作要做,不仅要尽可能地利用它们,还要真正找到对人类有意义的交互界面来利用这项技术。所以我们今天基本上不自己训练任何模型。这有很多原因。第一个原因,作为一家早期初创公司,这是一个引人入胜的主题和练习。作为一家早期初创公司,投入训练模型实际上是一项非常大的投资,因为即使成本不一定很大,

Stanislas Polu:在计算方面,它仍然是研究和开发,而且是非常艰苦的研究和开发。它基本上是研究。我们对预训练理解得很好。我们对微调理解得还不够好。我们认为探索产品层是一个更好的主意。我通常用的比喻是,训练模型非常性感,令人兴奋,但实际上你是在建造一块小石头,它会被未来更大模型的浪潮淹没。而在人类和这些模型之间的界面上,在产品层进行迭代和定位自己,更像是建造一块冲浪板,你可以用它来驾驭那些相同的浪潮。

Demetrios:我喜欢这个比喻,因为我是一个冲浪爱好者,而且我乐在其中。

Stanislas Polu:玩得很开心。

Demetrios:现在告诉我,你是追逐垂直市场吗?还是追逐市场中的不同领域,某个特定的市场子集?

Stanislas Polu:你如何看待这个问题?是的。基本上,我们的想法是关注企业内部的生产力。所以我们首先关注团队的内部使用,这项技术的内部团队。我们根本不关注外部使用。所以支持嵌入AI的产品,或者通过我们的用户向实际最终客户暴露的项目。所以我们真正专注于内部用例。所以你想做的第一件事,显然如果你对企业内部的生产力感兴趣,你肯定想要拥有企业数据,对吗?因为否则有很多事情可以用ChatGPT来完成,举例来说。但当你掌握了来自你所在公司的数据的上下文时,可以做更多的事情。这基本上是我们正在关注的用例,我们正在进行一项疯狂的押注,以回答你的问题,即目前横向发展实际上是有价值的。所以这带来了很多风险,因为横向产品很难

Stanislas Polu:阅读和弄清楚如何使用。但与此同时,现实是,当你作为团队的一员工作时,即使你在一个特定的应用程序上花费大量时间,比如销售人员的Salesforce,或工程师的GitHub,或客户支持的Intercom,你的大部分工作流程实际上都涉及许多SaaS,这意味着你在Salesforce上花费大量时间,但你也在Slack和Notion上花费大量时间。也许,或者我们作为工程师都在GitHub上花费大量时间,但我们也使用Notion和Slack很多,或者Google Drive等等。Jira。

Demetrios:老式的Jira。每个人都喜欢在Jira上花时间。

Stanislas Polu:是的。所以基本上,跟随我们的用户所在的地方,这要求我们能够访问这些不同的SaaS,这也要求我们多少有些横向。我们收到了一些信号,这些信号证实了我们的立场,但我们仍然非常清楚这是一个有风险的立场。例如,当我们将自己与纯粹垂直化的其他解决方案进行基准测试时,在许多情况下,我们实际上做得更好,因为我们可以访问公司内部所有重要的数据。

Demetrios:现在,当你能访问所有数据时,有一个非常困难的问题,那就是数据泄露问题和数据访问问题。你如何尝试解决这个难题?

Stanislas Polu:是的,所以我们基本上专注于继续通过这个问题回答你的问题。我认为我们专注于员工少于1000人的科技公司。如果你考虑大多数最近的科技公司,员工少于1000人。在

Stanislas Polu:公司内部在数据访问方面有一波开放的浪潮,这意味着很少有人真正依赖复杂的ACL(访问控制列表)来管理内部数据。你基本上通常会有数据孤岛。你有高管数据孤岛,里面有薪酬、晋升等等。这绝对不是我们涉及的数据类型。然后对于其余数据,你通常有很多数据可以被公司内部的每个员工访问。所以这不是一个完美的答案,但这确实是我们今天采取的方法。我们对

Stanislas Polu:哪些数据进入Dust拥有很多控制权,但一旦数据进入Dust,并且这种控制非常细粒度,这意味着你可以选择特定的Slack频道,或者你可以选择特定的Notion页面,或者你可以选择特定的Google Drive子文件夹。但一旦你决定将其放入Dust,每个Dust用户都可以访问这些数据。所以我们真正采取的是细粒度ACL故事的数据孤岛愿景。显然,如果我们进入更大型企业,那将成为一个非常大的问题,因为我认为企业越大,他们就越依赖复杂的ACL。

Demetrios:我必须问问你与Stripe的经历。你是否一直专注于金融领域的特定部分?首先想到的是那些依赖Stripe生存和发展的电子商务公司怎么样?感觉他们有各种各样的用例可以利用AI,无论是他们的供应链,还是仅仅是为了获得更好的数据,或者从所有这些分散的数据中获得答案。你有没有考虑过这些?这是否影响了你最近做出的任何决定?

Stanislas Polu:不,不完全是。不尽然。当我们加入Stripe时,它还很早期,那是典型的curlb onechargers number 42. 42, 42。Stripe当时几乎就是这样,我夸张了,但也没有太多。所以我在Stripe的重点,确实是由我和我们作为加入一家相当以美国为中心的公司

Stanislas Polu:的欧洲创始人的视角所驱动的,那就是,不,全世界并非到处都是信用卡。是的,还有其他支付方式。所以我在Stripe的大部分时间都花在尝试扩展API,使其不仅支持几种美国支付方式,还支持各种全球支付方式。这需要API设计上的范式转变,而这正是我大部分精力所在的地方。我想尝试的是。

Demetrios:好的,我的下一个问题是,你提到横向解决方案的基准测试在某些用例中出人意料地更有效。我猜这就是你对Qdrant和我们正在做的事情有点喜欢的原因。

Stanislas Polu:是的,我认为基准测试确实是关于模型质量,在检索增强生成的背景下回答的质量。所以它不像性能那么重要,但显然性能很重要,这就是我们喜欢使用Qdrant的原因。但我认为主要思想是

Stanislas Polu:我提到的有趣之处在于,如今检索是有噪音的,因为嵌入器并不完美,这是一个有趣的观点。抱歉,我重复强调了,但我会回过头来。嵌入器确实不完美,确实不完美。所以这很有趣。当Qdrant发布针对向量存储的优化时,它们显然会附带警告,你可能会因为压缩等原因而损失精度。这很有趣,在所有类型的检索和增强生成的世界中,这真的不重要。我们尽一切可能提高性能,因为向量DB级别对这些向量进行压缩所带来的精度损失,与嵌入器的整体不准确性相比,完全可以忽略不计。

Stanislas Polu:就正确嵌入文本的能力而言,它们极其强大,但远非完美。所以这是一个有趣的地方,你可以在性能方面走多远就走多远,因为你的误差完全由嵌入质量决定。回到上面。我认为有趣的是,检索是嘈杂的,主要是因为嵌入器,而且模型并不完美。所以现实是,在RAG(检索增强生成)语境中,更多的数据不一定就是更好的数据,因为检索会变得嘈杂。模型会有点困惑,它会开始产生幻觉等等。所以正确的权衡是,你希望能够访问尽可能多的数据,但你希望能够让我们的用户,非常精确地选择给定任务所需的数据。

Stanislas Polu:所以这就是我们的产品所做的,它能够创建专门针对给定任务的助手。而助手的大部分规范显然是一个提示,但也包括说,哦,我正在帮助销售人员寻找有趣的下一个潜在客户。你真的希望将数据精确地限定在信息所在的位置。这就是我们非常依赖Qdrant的地方。所以,向量搜索之上的索引能力,每当我们

Stanislas Polu:插入文档时,我们会尝试插入一个父级数组,以重现该文档来源的层次结构,这让我们能够创建非常好的用户体验。当你创建助手时,你可以说,哦,我将进入Notion中的两层,然后我选择那个页面,所有这些子页面都会一起出现。这只是我们规范中的一个字符串,因为我们依赖于那些已注入Qdrant的父级,然后Qdrant搜索对于像“此项必须在父级中”这样的简单查询非常有效。

Stanislas Polu:然后你通过它进行筛选。

Demetrios:感觉在RAG(检索增强生成)的评估中有两个层面。一个是检索的内容和检索的评估,另一个是提供给最终用户的输出。你如何处理这两个评估问题?

Stanislas Polu:是的,所以完全透明地说,我们没有,我们才刚刚起步。

Demetrios:好吧,我很高兴你对我们坦诚,艾丽西亚。

Stanislas Polu:这太棒了,我们应该这样做,但速度是,我们有太多其他产品优先级,我认为评估检索的质量,评估检索增强生成的质量。好的判断力是存在的,但好的判断力很难定义,因为在这个领域研究了三年的人的好的判断力可能比对这个领域一无所知的人的好的判断力更好。但基本上凭借好的判断力,我认为你可以走得很远,然后你会在边缘进行优化。而现实是,如果你凭借好的判断力走得足够远,并且一切似乎都运作良好,那么你的优先级就不一定是将性能提高5%(无论度量标准是什么),

Stanislas Polu:而是我还有一百万个其他产品问题要解决。这就是十个人的问题答案。随着我们的成长,我们当然会优先考虑更好地进行基准测试。在更好地进行基准测试方面。也是一个极其有趣的问题,因为嵌入基准测试就是那样,我认为它们不一定总是能很好地代表你在产品中将要使用的用例。所以这是你需要谨慎对待的事情。而且,评估你的用例非常困难。你拥有的解决方案类型,以及那些看起来更合理的解决方案,无论是花上几年时间。

Stanislas Polu:评估检索的方法可能是使用另一个模型,对吗?就像你拿五个不同的嵌入模型,记录一些来自你产品的问题,使用你的产品数据,然后用这五个不同的嵌入器运行检索。然后你让GPT-4进行评估。这似乎是合理的,可能会让你向前迈进一大步,它并不完美,但可能足够强大,可以走得很远。

Stanislas Polu:然后第二个问题是评估端到端管道,这包括检索和生成。坦率地说,这又是一个已知的问题,因为GPT-4远远优于所有模型。

Stanislas Polu:因此,如果你接受使用GPD-4,就没有必要评估它们,只需使用GPD-4即可。如果你想使用开源模型,那么问题就更重要了。但如果你由于多种原因而可以使用GPD-4,那么在这个阶段就没有问题了。

Demetrios:那么我的下一个问题是,因为你听起来有点法国口音,你在欧洲某个地方。你在法国吗?

Stanislas Polu:是的,我们总部在法国,在巴黎拥有一支团队。

Demetrios:所以我好奇你是否会更倾向于你在OpenAI工作的历史,还是你法国团队的友情,去追寻你的朋友们。

Stanislas Polu:我的意思是,我们和Mistral绝对是最好的朋友。有趣的故事是,Guillaume Lamp是我的朋友,因为我在OpenAI时,他在Meta,我们正在研究完全相同的主题。所以我们基本上是亦敌亦友。我们为相同的指标和目标竞争,但因此建立了友谊。我们的平台是模型无关的,所以我们支持Mistral。然后我们确实决定为我们的用户设置默认值,我们今天显然将默认值设置为GP四。我认为这是今天没有问题的问题,但是当开源或非开源不再是问题,而是当Oz模型开始赶上GPT四时,那将是

Stanislas Polu:一个有趣的产品问题,希望Mistral能做到。我认为这绝对是他们的目标,今年能达到GPT-4的水平。所以那将非常令人兴奋。是的。

Demetrios:那么你提到你有很多其他产品方面的考虑,甚至在考虑评估之前。还有哪些考虑因素?

Stanislas Polu:是的,正如我前面提到的。主要的假设是我们将进行公司生产力或团队生产力。我们需要公司数据。这可以说是零号假设。它甚至不是假设,几乎是公理。然后我们的第一个产品是会话助手,就像ChatGPT一样,它是通用的,可以访问所有内容,但发现它在很多用例上表现不够好,在某些用例上表现不错,但在许多其他用例上表现不佳。所以我们提出了第一个强有力的产品假设,即我们希望有许多助手。不是一个助手,而是许多助手,针对特定任务。从夏天结束以来,我们一直在探索这个假设。这个假设得到了我们用户的强烈证实。所以我们遇到的一个问题是,显然,你希望激活你的产品,所以你需要确保人们正在创建助手。所以比RAG的质量更重要的是用户创建个人助手的能力。以前,只有工作区助手,所以只有管理员或构建者才能构建它。而现在我们基本上,举例来说,致力于让任何人都可以创建助手。助手范围限定在他们自己,他们之后可以发布它等等。这些都是产品问题,坦率地说,至少对我们来说,比RAG的稀有性更重要。

Demetrios:好的,快速问一下,是发布给更大的用户群还是发布给公司内部使用?

Stanislas Polu:是的,在工作区内。好的。

Demetrios:不是那种“哦,我可以发布这个给”的意思。

Stanislas Polu:我们还没有做到那一步。在每个工作区内部还有很多事情要做。但在那之前,这是一个有趣的情况,因为那基本上是另一个大问题,你有一个横向平台,你可以创建一个助手,你不是专家,你会想,我该做什么?这就是那种白纸问题。

Stanislas Polu:所以,拥有模板、灵感,你可以在工作区内设置,但你也希望为新创建的工作区提供解决方案。也许一个市场是一个好主意。或者拥有模板等等,这些也是比RAG性能更重要的产品问题。最后,Dust运作非常好的用户,一个例子是法国的Alan,他们有600人,Dust在那里运行得非常健康,他们创建了200多个助手。所以另一个大的产品问题是,当你在公司内部获得关注时,人们开始被助手淹没。那么他们如何发现它们?他们如何知道该使用哪个等等?所以这些就是很多产品问题,它们与其它事情相比,优先级非常高。

Demetrios:因为在这200个助手中,你是否看到很多人创建了相同的助手?

Stanislas Polu:这是个好问题。到目前为止,它主要是由公司内部负责推动生成式AI的人驱动的。所以我认为没有太多的冗余,这很有趣,但我认为有很长的探索性内容,但从我们的角度来看,很难区分两者。显然,使用是一个非常强烈的信号。但是,是的,按使用情况显示助手,将正确的助手推送给正确的用户。这个问题与构建LLM相比,显然看起来完全微不足道。但即便如此,当你在产品层添加时,它需要大量的工作,作为一家初创公司,我们的大部分资源都投入到这里,我认为这是正确的做法。

Demetrios:是的,我想知道,你可能已经考虑过这个问题了,但这是否有点像你可以用这个产品来标记它,或者这个助手处于beta或alpha版本,或者这个正在生产中,你可以相信这个是稳定的,诸如此类。

Stanislas Polu:是的。所以我们有共享助手的概念和工作区助手的概念。工作区助手就像管理员审核过的助手,默认情况下会推给所有人。然后已发布的助手就像,你可以在助手画廊中浏览,在那里,最强的信号可能就是使用指标,对吗?

Demetrios:是的。那么当你谈论助手时,为了我能清楚理解,它们不是自主代理,对吗?

Stanislas Polu:不。

Stanislas Polu:是的。所以这是一个很好的问题。我们真的专注于一步到位,试图很好地解决一步到位的问题。我有一个需要完成的细粒度任务。我可以在这个任务上获得加速,也许可以节省几分钟,或者在某个特定的事情上节省几十分钟,因为身份版本显然是未来。但现实是,目前的模型,即使是GB四,在以可持续的方式链式决策工具使用方面并不那么出色,超越了演示效果。所以虽然我们对未来充满希望,但这不是我们的核心关注点,因为我认为这很有可能造成更多的失望。但显然,随着模型越来越好,这也是我们未来会关注的事情。

Demetrios:是的。你不想让人们觉得某件事可能发生,然后他们去检查,却把事情交给了代理人,结果他们第二天就被解雇了,因为他们并没有真正做他们说要做的工作。

Stanislas Polu:是的。我们今天不做的一件事。我们有不同的方式,将数据带入助手,然后它才能生成。我们正在扩展这一点。其中一个领域用例是基于Qdrant的用例,也就是检索用例。我们还有一个工作流系统,你可以在其中创建应用程序。一个大型语言模型(LLM)应用程序,你可以在其中进行

Stanislas Polu:多次模型调用,你可以调用外部API进行搜索。我们正在深入研究的另一个是结构化数据用例,这次不使用Qdrant,其思想是语义搜索很棒,但对于量化问题来说,它的表现非常糟糕。基本上,典型的用例是你有一个很大的CSV文件,它被分块,然后你进行检索。你会得到一种无序的、部分的块,所有这些。最重要的是,模型在计数方面非常糟糕。所以你真的会得到一堆废话,你

Demetrios:比任何人都清楚。

Stanislas Polu:是的,没错。过去的经历。所以输入垃圾,输出垃圾。基本上,我们正在研究如何做到,只要数据是结构化的,就能实际存储

它以结构化的方式存储,并根据需要即时生成一个内存中的SQL数据库,这样模型就可以对该数据生成SQL查询,并获得SQL答案,从而有望更好地回答定量问题。最后,显然下一步也是,当我们集成了Notion、Google Drive、Slack等平台后,基本上,我们可以在那里采取一些行动。我们不会采取行动,但我认为让模型准备一个行动很有趣,这意味着这是我准备好的电子邮件,发送它,或者与我一起迭代,或者这是我准备好的Slack消息,或者这是我对Notion文档的修改。

Stanislas Polu:这仍然不是代理式的,它更接近于采取行动,但我们肯定希望将人保留在循环中。但显然,我们路线图上的一些事情。我们不支持的另一件事,即一种行动类型,将是我们首先会处理的,显然是代码解释,我认为这是所有用户都要求的事情,因为他们在ChatGPT上使用它。所以我们也会研究这一点。

Demetrios:你为什么选择Qdrant?

Stanislas Polu:如果我没记错的话,这个决定是在去年二月或三月做出的。我当时考虑的替代方案有Pinecone、Waviate、一些Clickhouse,因为当时Chroma在使用Clickhouse。但Chroma当时也只有2000行代码。所以我就想,哦,Chroma,我们是AI grant的一部分。Chroma也作为AI grant的一部分。所以我就想,哦,好吧,我们来看看Chroma。然而,我描述的是去年,但他们当时还很早期。所以这肯定不是一个对我们有意义的选择。所以最后是在Pinecone、Waviate和Qdrant之间。Waviate,你看文档,你会觉得,嗯,不可能。最后是Qdrant和Pinecone。我想我们确实很欣赏Qdrant的开源性质。从

Stanislas Polu:使用它的经验来看,它的性能非常强劲,用Rust编写,文档清晰易懂,而且基本上有一种掌控感,因为它是开源的,我们正在使用托管的Qdrant云解决方案。但这无关乎付费与否,更多的是一种能够感觉自己有更多控制权的问题。当时,我想正是Pinecone发生大规模灾难的时候,他们删除了用户的大量数据库,所以我们一直在使用Qdrant,我认为这是一个两步过程。它启动非常顺畅,但Qdrant在这个阶段也带有很多可调整的旋钮。所以当你开始扩展时,你会在某个时刻达到需要调整旋钮的地步。我认为这很棒,因为旋钮很多,所以很难理解,但一旦你理解了它们,你就会看到它们的力量。Qdrant团队在这方面给予了我们出色的支持。所以我想我们已经达到了第一个规模级别,需要调整节点,我们已经达到了第二个规模级别,需要拥有多个节点。但到目前为止,一切都非常顺利。我认为我们已经能够使用Qdrant做一些事情,这些事情只有凭借数据库的极佳性能才可能实现。例如,我们没有使用你的集群设置。我们有N个独立的节点。随着我们扩展,我们会根据需要重新分配哪些用户到哪些节点,努力将我们最大的用户和付费最多的用户保留在非常明确的节点上。我们有一个垃圾节点,例如,用于所有免费用户,甚至将一个非常大的集合从一个节点迁移。我们构建的一项功能是,哦,我那边有一个集合。它非常大。我将在另一个节点上启动。我将在两个节点上设置影子写入,并实时迁移数据。使用Qdrant做这件事非常容易,因为爬取很快,写入也他妈的快。所以即使是一个相当大的集合,你也可以在一分钟内迁移。

Stanislas Polu:所以它确实进入了能够以此为基础管理集群的范畴,我认为这在不同的系统中可能是不可能的。

Demetrios:所以感觉当你帮助公司构建助手时,你会给他们一些关于他们可以做什么的想法吗?

Stanislas Polu:是的,我们正处于一个阶段,显然我们必须这样做,因为我认为产品基本上已经站稳脚跟,但我觉得还很早期,所以还有很多激活工作要做,举例来说。所以我们今天处于一种模式,做那些无法扩展的事情。基本上,我们确实花了一些时间

Stanislas Polu:与公司合作,显然,这是无法避免的。但我们也看到,效果最好的用户,无论是使用dust还是其他与让人们在公司内部采用生成式AI相关的东西,都是那些实际为这个问题分配资源的公司,这意味着效果最好的公司是那些有人专门负责在公司内部寻找用例、支持团队等等的公司。对于使用dust的公司来说,这是一种完美的接口类型,因为我们为他们提供全面支持,并帮助他们构建他们认为对团队有价值的任何东西。

Demetrios:你是否也必须扮演坏消息的传播者,告诉他们“是的,我知道你在Twitter上看到了那个演示,但那实际上不可能或不可靠”?

Stanislas Polu:是的,这是一个有趣的问题。这是一个好问题。没那么多,因为我认为一个重要的教训是,你找任何一家公司,即使是一家相当注重技术的公司,一家相当年轻的公司,现实是大多数人并不一定都在生态系统中,他们只是想把事情做好。所以他们很高兴能让电脑做些事情。但他们不一定真的说,哦,我想要我在Twitter上看到的最新最酷的东西。所以到目前为止,我们一直安全无虞。

Demetrios:太棒了。伙计,这真是太棒了。我非常感谢你来到这里。非常感谢。如果有人想了解dust,我鼓励他们这样做。

Stanislas Polu:是dust。

Demetrios:这是一个有点有趣的网站。是什么?

Stanislas Polu:Dust TT。

Demetrios:就是这样。这就是我缺少的,dust。好了。所以如果有人想了解它,我鼓励他们去看看。非常感谢你来到这里。

Stanislas Polu:是的。

Stanislas Polu:Qdrant棒极了。

Demetrios:就是这样。太棒了,老兄。这次谈话很棒。

Stanislas Polu:是的,谢谢Vintu。祝你一切顺利。

免费开始使用 Qdrant

开始使用