Iveta Lohovska 谈 Gen AI 和向量搜索 | Qdrant
Demetrios Brinkmann
·2024 年 4 月 11 日

探索 Gen AI 和向量搜索:来自 Iveta Lohovska 的见解
“在生成式人工智能的背景下,所有基础模型都经过了以不同方式分布的一些基础数据集的训练。有些是高度会话的,有些是高度技术的,有些是基于非常严格的分类法,如医疗保健或化学结构。我们称它们为模态,它们有不同的表示形式。”
—— Iveta Lohovska
Iveta Lohovska 担任 Hewlett Packard Enterprise (HPE) 人工智能和超级计算领域的首席技术专家兼首席数据科学家,她致力于推动决策智能的普及和道德人工智能解决方案的开发。作为行业领导者,她拥有自然语言处理、计算机视觉和数据挖掘等多方面的专业知识。Iveta 致力于利用技术造福社会,是联合国“人工智能向善”计划的杰出技术顾问,也是维也纳应用科学大学的数据科学讲师。她的职业生涯还包括在世界银行集团担任重要职务,专注于开放数据倡议和可持续发展目标 (SDG),以及与 USAID 和盖茨基金会的合作。
在 Spotify、Apple Podcast、Podcast addicts、Castbox 上收听此集。您也可以在 YouTube 上观看此集。
主要收获
在我们不断追求知识和理解的过程中,尤其是在人工智能和向量空间不断发展的背景下,我们又带来了一期精彩的向量空间对话,邀请了 Iveta Lohovska 讲述生成式人工智能和 向量搜索。
Iveta 带来了她在世界银行的工作以及作为 HPE 首席技术专家的宝贵见解,解释了道德人工智能实施的来龙去脉。
以下是本集亮点
- 探讨人工智能中信任和可解释性的关键作用,尤其是在政府和安全机构等高度机密的使用案例中。
- 讨论人工智能模型透明度的重要性,以及它如何影响数据处理和对向量搜索基础数据集的理解。
- Iveta 分享了她在能源领域和政策制定等高风险环境中实施生成式人工智能的经验,强调了准确性和来源可信度。
- 在高风险领域管理数据隐私的策略,本地解决方案在控制方面的优越性,以及选择云或混合基础设施的含义。
- Iveta 对生成式人工智能成熟度水平的看法,更小、更专注模型的持续开发,以及人工智能模型许可和开源贡献不断发展的格局。
趣闻:Iveta 展示的气候代理解决方案帮助个人衡量碳足迹,并协助政策制定者根据科学准确的数据起草政策建议。
节目笔记
00:00 人工智能在实践中的漏洞和伦理影响。
06:28 信任可靠来源以获取准确的气候数据。
09:14 向量数据库提供控制和可解释性。
13:21 本地部署对安全和控制至关重要。
16:47 生成式人工智能聊天模型处于基本成熟度。
19:28 技术社区成熟,但企业采用缓慢。
23:34 倡导开源,但强调复杂性。
25:38 不可靠的信息、必要性三角、向量空间。
Iveta 的更多引言
“我们必须确保的是,生成式人工智能的所有引文、所有答案和增强功能都与精确的论文或出版物来源相关联,以确保我们可以追溯气候信息的来源。”
—— Iveta Lohovska
“可解释性意味着如果您根据提示收到某个答案,您可以追溯到存储嵌入的精确来源或信息的来源等等。”
—— Iveta Lohovska
“用于对话目的和个人帮助的 ChatGPT 非常酷,但当它需要转化为实际的业务用例场景,并受到企业架构的所有限制、用例的限制时,现实就会发生巨大变化。”
—— Iveta Lohovska
文字记录
Demetrios:看那。我们又回到了向量空间对话。我今天非常高兴能和大家一起做这件事。我和 Sabrina 又来了。Sabrina,你在哪儿?怎么样?
Sabrina Aquino:嘿,Demetrios。太棒了。又一集,我对此非常兴奋。你怎么样?
Demetrios:我很好。我们今天将请出我们的贵宾。我们将大量讨论值得信赖的人工智能,因为 Iveta 在世界银行工作过,专注于开放数据。但目前她是 HPE 的首席技术专家和首席数据科学家。我们在录制前、直播前聊过。我们有一些热门话题要讨论。所以我要请 Iveta 上台。你在哪儿?你在这儿,我们的贵宾。
Demetrios:你好吗?
Iveta Lohovska:很好。希望你们能听清楚我的声音。
Demetrios:声音洪亮清晰。是的。
Iveta Lohovska:很高兴能从维也纳加入这里,谢谢你们的邀请。
Demetrios:是的。所以我今天很高兴能和你交谈。我想可能值得简要介绍一下你的故事以及你为什么对可信度和可解释性如此充满热情。
Iveta Lohovska:嗯,我认为尤其是在生成式人工智能的背景下,如果解决方案、训练数据集或任何底层上下文(无论是在企业还是小规模)存在任何漏洞,人工智能引擎人工智能可以实现的规模,如果它在可解释性、可信度或偏见方面存在任何漏洞或弱点,它就会自然地扩展。因此,在这些用例中,需要高度重视。我的大部分工作是在企业内部进行高度机密的使用案例。因此,它扮演着比人们想象的更重要的角色。在高层次上,它听起来像是人工智能伦理原则或难以用技术术语实现的崇高词语。但实际上,当你投入工作、投入项目、在政府或处理原子能的组织(我在维也纳看到,原子能机构是邻居)或安全机构的背景下工作时。你就会看到这些术语的重要性和影响以及背后的技术含义。
Sabrina Aquino:太棒了。你能再多谈谈这些模型透明度的重要性吗?以及如果我们不确切知道它们是用什么数据训练的,可能会发生什么?
Iveta Lohovska:我的意思是,这在我们的 向量数据库 和向量搜索上下文中尤其重要。因为在生成式人工智能的背景下,所有基础模型都经过了一些以不同方式分布的基础数据集的训练。有些是高度会话的,有些是高度技术的,有些是基于非常严格的分类法,如医疗保健或化学结构。我们称它们为模态,它们有不同的表示形式。所以,当涉及实现向量搜索或 向量数据库 并了解基础数据集的分布时,如果你引入额外的层或额外的组件来控制信息的来源、存储位置、嵌入是什么,你就会有更好的控制。所以这很有帮助,但实际上知道基础数据集是什么非常重要,这样你就可以预测当解决方案或模型用例到达最终用户时将面临的任何类型的弱点、漏洞或渗透。因为我们知道生成式人工智能是不可预测的,我们知道我们可以实施护栏。它们已经有解决方案了。
Iveta Lohovska:我们知道它们不能给你 100% 的确定性,但它们绝对是用例,你需要达到 100% 的确定性,尤其是在情报、网络安全和医疗保健领域。
Demetrios:是的,我想深入探讨一下。这些高风险用例感觉你不能。我不知道。我与很多人讨论过,目前尝试将生成式人工智能用于这些高风险用例是非常冒险的。你见过做得很好的人吗?如果见过,他们是怎么做的?
Iveta Lohovska:是的,我从事高风险用例业务,是的,我们确实做这类项目和工作,这非常令人兴奋和有趣,你可以看到影响。所以我从事将生成式人工智能实施到企业控制中的工作。企业上下文可能意味着关键基础设施、电信、政府、情报组织。这只是一些例子,但我可以反其道而行之,给你一个公共领域的替代方案,我可以分享,比如说,一个很好的例子是气候数据。我们最近致力于构建一个知识工作者,一个气候代理,它当然接受了基础知识的训练,因为所有基础模型都有可以参考的先验知识。但这里的关键点是成为气候数据排放差距国家卡的专家。每个国家都有承诺实现某些减排目标,然后通过联合国环境规划署和类似实体等世界国际监督进行基准测试和跟踪。所以当你用气候数据训练这个代理时,会有相互竞争的想法或几个来源。
Iveta Lohovska:你可以从地方政府获取信息,他们为了向国家和其他利益相关者更快地展示进展,而非实际情况而受到激励;独立实体提供有关世界在实现某些气候目标方面进展的信息;还有其他各方。因此,对于这种解决方案,我们非常幸运地与气候数据和气候出版物领域的基准供应商合作。我们必须确保的是,生成式人工智能的每一次引文、每一个答案和增强功能都与精确的论文或出版物来源相关联,以确保我们可以追溯气候信息的来源。如果德国表现优于奥地利,我们合作的伙伴也是联合国环境规划署。所以他们希望确保他们在提供信息方面是科学的堡垒。并且不妥协,可能在答案的结构上,在信息的广度和深度上会有妥协,但绝不能在信息的精确事实性和来源上妥协。这是一个具体的例子,因为你可能会问,为什么这如此重要?因为它有两个界面。
Iveta Lohovska:它有公众接口。你可以作为生活在一个国家的个人与生活在另一个国家的个人比较你的碳足迹。但如果你是一名政策制定者,这是该应用程序的另一个接口,他将为他们自己的国家或他们正在提供建议的国家撰写政策建议,你可能需要确保你所做的科学引文和政策建议是正确的,并且它们是从适当的数据源检索的。因为当你公开这些数字或当你实际设计一项可通过法律条款和执法强制执行的法律时,将会产生巨大的影响。
Sabrina Aquino:Iveta,这非常有趣,我认为这是 RAG 的一个很好的用例。我想,如果你能多谈谈向量搜索在所有这些方面所扮演的角色,它如何帮助组织做到这一点,这将是惊人的。
Iveta Lohovska:在如此具体的用例中,我认为主要区别在于可追溯性组件,首先是你对它将引用哪些数据拥有完全控制权,因为如果你处理开源模型,它们大多数是开放的,但训练它们的数据尚未开放或公开。因此,通过向量数据库,你引入了控制和可解释性的一步。可解释性意味着如果你收到一个基于你的提示的特定答案,你可以追溯到存储嵌入的精确来源或信息的来源等等。因此,对于我们来说,对于这类高风险解决方案,这是一个主要用例,就是你拥有可解释性和可追溯性。可解释性可以像语义相似性到文本一样简单,但也可以追溯到它的来源以及它来自何处的精确链接。所以它应该是,不应该被引用。你可以通过引入 向量数据库 来关闭和切断模型引用其先前知识的路径,例如。
Iveta Lohovska:因此,在速度和处理大量数据方面,可能会有许多其他影响和改进,同时也会带来这种技术的好处,但之前的用例实际上并不是围绕这些来激励的。
Demetrios:所以如果我理解正确的话,这又是你为什么应该考虑使用向量数据库的另一个原因,因为你需要能够引用你的工作,而且它正在成为一个非常强大的设计模式。对吧。我们现在都明白,如果你看不到这些数据是从哪里提取的,或者你无法追溯到实际来源,就很难信任输出的结果。
Iveta Lohovska:是的,最简单的将两组分类的方法是:如果你想到创意领域、营销领域和设计领域,你可以在每个模型的温度上尽情发挥,它可以有多大的创造力,以及它可以为答案带来多少新颖性,这是一类用例。但还有一类完全相反的用例,在这种情况下,这是不可行的,你不需要任何创造力,你只需关注事实性和可解释性。因此,它更多的是以高新颖性检索信息的_速度_和_准确性_,但不会在答案中的任何事实方面妥协,因为基于此答案所采取的行动(无论是政策建议还是法律行动)都将涉及法律影响、政策影响和社会影响。这与情报机构通过最近邻或某种关系分析(你也可以使用向量数据库和生成式人工智能执行)检索信息有很大关系。
Sabrina Aquino:我们知道,对于这些高风险行业,数据隐私是一个巨大的问题。当我们谈论使用向量数据库并存储数据时,你在基础设施方面使用了哪些原则或技术?你应该将向量数据库存储在哪里?以及你如何考虑系统中的这一部分?
Iveta Lohovska:是的,所以大多数情况下,我想说 99% 的情况下,如果你对安全性和可解释性、数据安全性以及整个用例和环境的安全性,以及答案的可解释性和可信度有如此高的要求,那么很自然地会期望它在本地,而不是在云端,因为只有在本地,你才能完全控制你的数据所在位置、你的模型所在位置、你的 IP 的完全所有权,然后完全拥有更少的关于实现和架构的问号,但主要是端到端解决方案的完全所有权。因此,当涉及到这些用例时,RAG 在本地,拥有整个基础设施,拥有整个软件和平台层,包括模型在本地,无法通过 API 访问,无法通过某个你不知道护栏在哪里、谁设计了护栏、护栏是什么的服务访问。我们看到这种情况很多,例如,关于 copilot 的很多问号。所以我的工作很大一部分就是谈论它,就是整理这些。
Sabrina Aquino:没错。你不想仅仅将数据交给云提供商,因为这会带来许多影响。而且我认为即使是你的客户,他们也需要某些认证,然后他们需要确保没有人可以访问这些数据,这是你无法做到的。没错。我认为,如果你只是使用某个地方的云提供商,这是你无法确保的,而这在考虑这些高风险解决方案时非常重要。但我也认为,如果你要外包一些基础设施,你还需要考虑类似 混合云解决方案 的东西,你可以保留你的数据并外包基础设施的管理。所以这也是一个很好的用例,对吗?
Iveta Lohovska:我是 HPE 的员工,所以“混合”是我们最重要的词之一。是的,没错。但实际上,如果你看看目前的趋势,如果你看看在云端运行某些工作负载(无论是训练国家模型还是微调)有多么昂贵。没有人谈论推理,不是十个用户的推理,而是大组织的数百个用户的推理。这本身是不可持续的。说实话,当你做简单的 Linux、代数或指数成本的数学计算时,就会发现这一点。这就是为什么一切都是混合的。有些用例在云端快速、便捷、易于操作,风险低,是有意义的。
Iveta Lohovska:但是当涉及到实际的 GenAI 工作和 LLM 模型时,是的,在基础设施和托管环境方面,答案从来都不是简单的,原因有很多,不仅仅是成本,还有其他任何原因。
Demetrios:所以最近我一直在思考一些问题,我很乐意听听你的看法,尤其是因为你每天都在处理这些问题,那就是 Gen AI 的当前成熟度水平以及我们目前在 ChatGPT 或仅仅是 LLM 和基础模型方面的进展。感觉它们才刚刚出现。所以我们几乎处于最基本的成熟度水平。当你与客户合作时,你如何发出这样的信号:嘿,我们现在处于这个阶段,但你应该非常谨慎,你可能需要处理很多破坏性更改,或者你将需要不断更新。这不会是一劳永逸的事情。这将需要大量工作来确保你保持最新,甚至只是试图跟上新闻,就像我们之前讨论的那样。所以我很想听听你对你所看到的各种成熟度水平以及它们是什么样子的看法。
Iveta Lohovska:所以我在企业 GenAI 领域有很多接触,其中有一个巨大的期望管理部分。为什么?因为 ChatGPT 用于对话目的和个人帮助非常酷。但是当它需要转化为实际的业务用例场景,并受到企业架构的所有限制、用例的限制时,现实就会发生巨大变化。因此,习惯于期望像会话聊天机器人那样具有一定程度的容错性的最终用户,与你在实际的、比如说,知识工作者类型的上下文,或企业中的摘要类型的上下文中所获得的容错性非常不同。这与其说是模型性能的问题,不如说我们有模型模态的概念。我认为最终不会有一个模型拥有所有可能的能力,比如说代码生成或图像生成、语音生成,或者只是非常健谈和友善等等。会有许多迷你模型用于这些。在实际架构中,以合理的成本处理这些模态非常困难。
Iveta Lohovska:所以我认为技术社区觉得我们非常成熟和快速。企业采用是一个完全不同的话题,落后几年,但像我这样的社会技术专家,他们努力跟上发展,我们知道我们目前的立场,但也有法律方面和法规的介入,比如欧盟法案和拜登试图监管计算能力,以及社会如何对此做出反应以及如何适应。我认为尤其是在第三个方面,我们对这项技术的理解和影响,以及大规模采用它和理解其漏洞,都远远落后。这就是为什么我如此喜欢我的企业工作,因为它是一个现实检验。当你将价格标签附加到实际的生产环境中的 Gen AI 用例,并考虑推理成本和预期性能时,这与你只是手机上有一个应用程序,你用它聊天,它会给你提供有趣的链接,是不同的情况。所以是的,我认为需要在这两个世界之间建立一座桥梁。
Demetrios:是的。我也觉得这很有趣,因为它给我的感觉是,因为它太新了,人们更愿意探索,而不必立即获得投资回报,但当涉及到更传统的机器学习或预测性机器学习时,它已经更加成熟,所以对这种探索的耐心更少。或者,嘿,这个用例是否如此?如果你现在还不能展示预测性机器学习用例的投资回报,那么这有点危险。但如果你不能用生成式人工智能用例做到,那也不是什么大问题。
Iveta Lohovska:是的,它基本上是一项在我们眼前成长的技术。这是一种一边建造一边飞行的飞机式情况。我们正在实时观察它,我同意你的看法。所以,机器学习的成熟度是一回事,但围绕生成式人工智能,在我看来,在实际将这种强大的技术以可持续的方式成熟产品之前,会有一个小小的失望或下降的模型。可持续方式意味着你可以负担得起,但它也证明了你的商业案例和用例。否则,它只是为了做而做,因为其他人都在做。
Demetrios:是的,是的,100%。我知道我们时间不多了。我确实觉得我们想讨论一个关于许可证的话题,以及它如何与信任和可解释性基本相关。所以我们一直在讨论,是的,最好是运行自己的模型,而且它可能不会是那种可以做所有事情的巨大模型。趋势似乎是走向更小的模型。但从你的角度来看,我们每周都会有新模型发布,感觉是这样。是的,尤其是。
Demetrios:我的意思是,我们刚才在直播前又提到了这个,Databricks 昨天发布了他们的 DBRX,Mistral 在周末发布了一个新的基础模型,Llama 3 可能很快就会发布。那么你对此有何看法?感觉开源领域有很多动向,但正如你所提到的,对于开源动向,需要谨慎。
Iveta Lohovska:所以我认为感觉有很多开源,但是。所以我完全支持开源,并赋予人们和社区创新、在不同实验室进行研发的能力,这样它就不会被少数精英科技公司所限制,这些公司才能负担得起这种技术。所以,向 Meta 致敬,与其他同等竞争者相比,他们做得很好。但是开源在我们的世界中伴随着大量的生态系统,特别是对于更强大的模型,这是我不喜欢的地方,因为它变得像只是,它立即转化为律师费式的对话。就像那些开源许可条款中有太多 if else 语句,技术人员很难理解这到底意味着什么,然后你必须请法律人员来向你阐明或添加额外的条款。所以它正在成为一个非常复杂的环境,并且越来越不开放,因为没有那么多开源和小型的初创公司能够负担得起训练强大而有用的基础模型。所以它有点像一场游戏,被少数人掌握,我认为每个人都应该对此有点担心。
Iveta Lohovska:所以我们可以借鉴过去的一些例子,但我认为我们在开源方面做得还不够好,尤其是在 LLM 模型的三大核心组件方面:模型本身、训练数据和数据集,而大多数时候,这三者中至少有一个是受限或缺失的。所以这是一个难以驾驭的领域。
Demetrios:是的,是的。如果你缺少这三者之一,你就无法真正称其为可信赖的,也无法获得你所需和所希望的信息。我确实喜欢那个“必要性三角”。所以,Iveta,这真是太棒了。我非常感谢你来到这里。谢谢 Sabrina 的加入。对于所有正在观看的人,请记住,不要迷失在向量空间中。这是另一次向量空间对话。
Demetrios:我们结束了。大家周末愉快。
Iveta Lohovska:谢谢。再见。谢谢。再见。