Iveta Lohovska 谈生成式 AI 和向量搜索 | Qdrant
Demetrios Brinkmann
·2024 年 4 月 11 日

探索生成式 AI 和向量搜索:Iveta Lohovska 的见解
“在生成式 AI 的背景下,所有基础模型都经过了一些基础数据集的训练,这些数据集以不同的方式分布。有些非常适合对话,有些非常技术性,有些则基于非常严格的分类法,例如医疗保健或化学结构。我们称之为模态,它们具有不同的表示形式。”
— Iveta Lohovska
Iveta Lohovska 担任 Hewlett Packard Enterprise (HPE) 的首席技术专家兼人工智能和超级计算首席数据科学家,她在 HPE 倡导决策智能的民主化和道德 AI 解决方案的开发。作为行业领导者,她的多方面专业知识涵盖自然语言处理、计算机视觉和数据挖掘。Iveta 致力于利用技术造福社会,她是联合国“AI for Good”项目的杰出技术顾问,也是维也纳应用科学大学的数据科学讲师。她的职业生涯还包括在世界银行集团担任有影响力的职务,专注于开放数据倡议和可持续发展目标 (SDGs),并与 USAID 和盖茨基金会合作。
您可以在 Spotify、Apple Podcast、Podcast addicts、Castbox 上收听本集。您也可以在 YouTube 上观看本集。
主要观点
在我们持续追求知识和理解的过程中,特别是在不断发展的人工智能和向量空间领域,我们带来了另一期精彩的向量空间对话节目,由 Iveta Lohovska 担任嘉宾,她将谈论生成式 AI 和向量搜索。
Iveta 从她在世界银行的工作经历以及在 HPE 担任首席技术专家的经验中带来了宝贵的见解,解释了道德 AI 实施的来龙去脉。
本集精彩内容
- 探讨 AI 中可信度和可解释性的关键作用,特别是在政府和安全机构等高保密性用例中。
- 讨论 AI 模型透明度的重要性,以及它如何影响数据处理和理解向量搜索的基础数据集。
- Iveta 分享了她在高风险环境(包括能源部门和政策制定)中实施生成式 AI 的经验,强调准确性和来源可信度。
- 在高风险领域管理数据隐私的策略,本地解决方案在控制方面的优势,以及选择云或混合基础设施的意义。
- Iveta 对生成式 AI 成熟度的看法,更小、更专注模型的持续发展,以及 AI 模型许可和开源贡献不断变化的格局。
趣闻:Iveta 展示的气候代理解决方案帮助个人衡量他们的碳足迹,并协助政策制定者根据科学准确的数据起草政策建议。
节目笔记
00:00 AI 在实践中的脆弱性和道德影响。
06:28 相信可靠来源获取准确的气候数据。
09:14 向量数据库提供控制和可解释性。
13:21 本地部署对于安全和控制至关重要。
16:47 生成式 AI 聊天模型处于初级成熟阶段。
19:28 技术社区成熟,但企业采用缓慢。
23:34 倡导开源但强调其复杂性。
25:38 不可靠信息、必需品三角、向量空间。
更多 Iveta 语录
“我们在这里必须确保的是,生成式 AI 添加的每一个引用、每一个答案和增强都链接到论文或出版物的确切来源,以确保我们可以追溯气候信息的来源。”
— Iveta Lohovska
“可解释性意味着如果你根据你的提示收到了某个答案,你可以追溯到存储嵌入的准确来源,或者信息来自的来源等。”
— Iveta Lohovska
“ChatGPT 用于对话目的和个人帮助是非常酷的,但当这需要转化为实际的业务用例场景,并考虑到企业架构的约束和用例的约束时,现实情况会发生很大的变化。”
— Iveta Lohovska
文字记录
Demetrios:看啊。我们又回来进行向量空间对话了。我非常兴奋今天能和大家一起做这件事。Sabrina 又加入了我们。Sabrina,你在哪儿?一切都好吗?
Sabrina Aquino:嗨,Demetrios。太棒了。又一集了,我对这集超级兴奋。你怎么样?
Demetrios:我很好。今天我们要请出我们的贵宾。我们将大量讨论可信赖的 AI,因为 Iveta 在世界银行工作过,并且专注于开放数据。但目前她是 HPE 的首席技术专家和首席数据科学家。在我们开始录制、开始直播之前,我们一直在聊。我们有一些热门观点要分享。现在我请 Iveta 上台。你在哪儿?你来了,我们的贵宾。
Demetrios:你好吗?
Iveta Lohovska:很好。希望你们能听清楚我的声音。
Demetrios:声音洪亮清晰。是的。
Iveta Lohovska:很高兴从维也纳加入这里,谢谢邀请。
Demetrios:是的。所以我今天非常兴奋能和你交流。我想大概值得了解一下你的故事的要点,以及你为什么如此热衷于可信度和可解释性。
Iveta Lohovska:嗯,我认为特别是在生成式 AI 的背景下,如果解决方案、训练数据集或任何底层环境存在任何漏洞,无论是在企业内部还是小规模环境中,AI 引擎 AI 能够达到的规模是巨大的,如果它在可解释性、可信度或偏见方面存在任何漏洞或弱点,就会呈指数级增长。因此,在处理这些用例时,必须高度重视和考虑。我的大部分工作都在涉及高保密性用例的企业内部。所以它的作用比人们想象的要大得多,不仅仅是停留在高层。它听起来就像是 AI 伦理原则或一些高层词汇,在技术上很难实现。但实际上,当你落地,当你接触项目,当你与政府或处理原子能的组织(我在维也纳看到了,原子能机构就在附近)或安全机构合作时,你就会看到这些术语及其背后的技术影响的重要性。
Sabrina Aquino:太棒了。您能多谈谈这些模型透明度的重要性,以及如果我们不知道它们具体是用什么数据训练的,可能会发生什么吗?
Iveta Lohovska:我的意思是,这在我们向量数据库和向量搜索的背景下尤为重要。因为在生成式 AI 的背景下,所有基础模型都经过了一些基础数据集的训练,这些数据集以不同的方式分布。有些非常适合对话,有些非常技术性,有些则基于非常严格的分类法,例如医疗保健或化学结构。我们称之为模态,它们具有不同的表示形式。所以,当实施向量搜索或向量数据库并了解基础数据集的分布时,如果你引入额外的层或组件,你就能更好地控制信息的来源、存储位置以及嵌入是什么。这很有帮助,但更重要的是,你要知道基础数据集是什么,这样你才能预测模型解决方案或用例在最终用户处落地时可能面临的任何弱点、漏洞或渗透。因为我们知道生成式 AI 是不可预测的,我们知道可以实施护栏。已经有一些解决方案了。
Iveta Lohovska:我们知道它们不是百分百确定的,无法提供百分百的确定性,但肯定有一些用例和工作场景要求达到百分百的确定性,尤其是在情报、网络安全和医疗保健领域。
Demetrios:是的,这是我想深入探讨一点的地方。感觉在这些高风险用例中,你无法... 我不知道。我与很多人讨论过,当前尝试专门将生成式 AI 用于这些高风险用例是非常危险的。您是否见过有人做得很好?如果见过,他们是如何做到的?
Iveta Lohovska:是的,我从事的就是高风险用例相关的业务,我们确实在做这类项目和工作,这非常令人兴奋和有趣,并且可以看到影响。所以我正在将生成式 AI 实施到企业控制中。企业环境可能意味着关键基础设施、电信、政府或情报组织。这些只是一些例子,但我也可以换个角度,给你一个公共领域的例子,我可以分享,比方说一个很好的例子是气候数据。我们最近致力于构建一个知识工作者,一个气候代理,当然它经过基础知识训练,因为所有基础模型都有先前的知识可以参考。但这里的关键是成为气候数据排放差距国家卡片的专家。每个国家都有承诺达到一定的减排目标,然后通过联合国环境规划署等国际机构进行基准测试和跟踪。因此,当你用气候数据训练这个代理时,会存在相互竞争的想法或多个来源。
Iveta Lohovska:你可以从地方政府获取信息,他们有动力比实际情况更快地向国家和其他利益相关者展示进展;也可以从独立的实体获取信息,这些实体提供关于世界在实现某些气候目标方面的进展状况的信息。还有不同的利益相关者。因此,对于这种解决方案,我们非常幸运能与某种现状提供者合作,即围绕气候数据和气候出版物的基准。我们在这里必须确保的是,生成式 AI 添加的每一个引用、每一个答案和增强都链接到论文或出版物的确切来源,以确保我们可以追溯气候信息的来源。比如,如果德国比奥地利表现更好,而且我们合作的伙伴是联合国环境规划署。所以他们希望确保他们在提供信息方面是科学堡垒。不能有任何妥协,答案的结构、信息的广度和深度可以有所妥协,但信息的准确性和来源绝不能妥协。这是一个具体的例子,因为你可能会问,为什么这如此重要?因为它有两个接口。
Iveta Lohovska:它面向公众。你可以作为一个个体,去衡量你在一个国家生活与在另一个国家生活的碳足迹。但如果你是政策制定者,这是这个应用的另一个接口,他将为一个国家或他正在提供建议的国家撰写政策建议,你可能需要确保你提出的科学引用和政策建议是正确的,并且是从适当的数据源检索的。因为当你公开这些数据或实际制定一项具有法律约束力和执行力的法律时,将会产生巨大的影响。
Sabrina Aquino:Iveta,这非常有意思,我认为这是 RAG 的一个很好的用例。我认为如果您能多谈谈向量搜索是如何在这一切中发挥作用的,它如何帮助组织做到这一点。
Iveta Lohovska:在这种特定用例中会非常棒。我认为主要的区别在于可追溯性组件,首先是你对它将引用哪些数据有完全控制权,因为如果你处理开源模型,它们大多是开放的,但用于训练的数据没有公开或提供给公众,因此使用向量数据库你就引入了控制和可解释性的一步。可解释性意味着如果你根据你的提示收到了某个答案,你可以追溯到存储嵌入的准确来源,或者信息来自的来源等。所以对于我们来说,这类高风险解决方案的主要用例就是你拥有可解释性和可追溯性。可解释性可以像与文本的语义相似度一样简单,但也可以追溯信息来自何处以及确切的链接。所以不应该被引用。例如,通过引入向量数据库,你可以关闭并切断模型引用其先前知识的途径。
Iveta Lohovska:因此,在速度和处理海量数据方面,可能还有许多其他含义和改进,但这并非主要激励因素,而主要用例实际上并非围绕这些进行激励。
Demetrios:所以如果我理解得没错,这是又一个应该考虑使用向量数据库的理由,因为你需要引用你的工作的能力,而且这正在成为一个非常强大的设计模式。没错。我们现在都明白,如果你看不到这些数据是从哪里提取的,或者你无法追溯到实际来源,就很难相信输出结果。
Iveta Lohovska:是的,将这两类群体区分开来的最简单方法是。如果你考虑创意领域、营销领域和设计领域,你可以在每个模型的“温度”上尽情发挥,看看它能有多创意,能带来多少新颖的答案,这是一类用例。但还有完全相反的另一类用例,在这种情况下这是不可行的,你不需要任何创造力,你只需关注事实和可解释性。所以它更多的是以高水平的新颖性检索信息的速度和准确性,但不会在答案中的任何事实方面妥协,因为根据对此答案采取的行动,无论是政策建议还是法律行动,都会产生法律、政策和社会影响。情报机构根据最近邻或某种关系分析(你也可以使用向量数据库和生成式 AI 执行)检索信息,与此有很多关联。
Sabrina Aquino:我们知道,对于这些高风险领域,数据隐私是一个巨大的问题。当我们讨论使用向量数据库并将数据存储在某个地方时,您在基础设施方面使用哪些原则或技术?您应该将向量数据库存储在哪里?您应该如何考虑系统中的这一部分?
Iveta Lohovska:是的,所以在大多数情况下,我想说 99% 的情况下,如果你对安全性和可解释性有如此高的要求——数据的安全性,以及整个用例和环境的安全性,以及答案的可解释性和可信度——那么很自然地会期望它是本地部署而不是在云端,因为只有在本地你才能完全控制数据所在位置、模型所在位置、知识产权的完全所有权,并且对实现和架构减少疑问,但主要的是端到端解决方案的完全所有权。所以对于这些用例,RAG 本地部署,包括整个基础设施、整个软件和平台层,包括本地模型,而不是通过某个地方的服务 API 访问,你不知道护栏在哪里,谁设计的护栏,护栏是什么?我们看到很多这样的情况,例如 Copilot 就有很多问号。所以我的工作很大一部分就是讨论这些,理清这些。
Sabrina Aquino:没错。你不想仅仅把你的数据交给云提供商,因为这会带来很多影响。我认为即使是你的客户,他们也需要某些认证,然后他们需要确保没有人可以访问这些数据,这是你无法确切做到的。我认为如果你只是使用某个云提供商,你很难确保这一点,我认为这在考虑这些高风险解决方案时非常重要。但我也认为,如果你打算将部分基础设施外包,你也需要考虑类似混合云解决方案的东西,在那里你可以保留你的数据,并将基础设施的管理部分外包出去。所以这也是一个很好的用例,对吗?
Iveta Lohovska:我的意思是,我在 HPE 工作,所以“混合”就像我们最神圣的词汇之一。是的,没错。但实际上,如果你看看趋势,看看在云中运行其中一些工作负载(无论是用于国家模型训练还是微调)有多昂贵,而且没有人谈论推理,不是十个用户的推理,而是大型组织中成百上千用户的推理。这本身是不可持续的。说实话,当你做一些简单的线性代数或指数级成本的计算时。这就是为什么一切都是混合的。并且有些用例在云中快速、便捷、易于尝试,风险较低,是有意义的。
Iveta Lohovska:但谈到实际的生成式 AI 工作和 LLM 模型,是的,当涉及到你托管它的基础设施和环境时,答案从来都不是简单的,这有很多原因,不仅仅是成本,还有其他任何原因。
Demetrios:所以最近我一直在思考一个问题,我很想听听你的看法,特别是因为你每天都在处理这个问题,那就是当前生成式 AI 的成熟度水平,以及我们目前所处的阶段,感觉 ChatGPT 或者仅仅是 LLM 和基础模型就像刚刚问世一样。所以我们几乎处于非常非常基础的成熟度水平。当你与客户合作时,你如何传达这样的信息,即我们目前处于这个阶段,但你需要非常注意,你可能需要处理很多破坏性变更,或者你将不得不不断更新。这不是那种一劳永逸的事情。需要做很多工作来确保你保持最新状态,甚至就像我们之前谈到的那样,仅仅是努力跟上新闻。所以我很想听听你对你所看到的各种成熟度水平及其情况的看法。
Iveta Lohovska:所以我在企业生成式 AI 领域有很多接触,其中一个非常重要的部分是预期管理。为什么?因为 ChatGPT 用于对话目的和个人帮助是非常酷的。但当这需要转化为实际的业务用例场景,并考虑到企业架构的约束和用例的约束时,现实情况会发生很大的变化。所以习惯于像对话式聊天机器人那样预期一定程度的宽容度的最终用户,在进入实际的(比如说)知识工作者或企业内部的摘要类场景时,会得到非常不同的结果。这与其说是模型的性能问题,不如说是我们有所谓的模型模态。而且我不认为最终会有一个模型具备所有可能的能力,比如生成文本、生成图像、生成语音,或者只是非常健谈和友善等等。会有很多针对这些模态的迷你模型。在实际架构中以合理成本处理这些模态是非常困难的。
Iveta Lohovska:所以我想说,技术社区觉得我们非常成熟,发展非常快。而企业的采用是完全不同的课题,落后了好几年。同时,像我这样努力跟上发展并了解目前状况的社会型技术专家,他们还要面对法律层面和即将到来的法规,比如欧盟法案和拜登试图规范算力,以及社会对此的反应和适应方式。我认为尤其在第三点上,我们在理解这项技术的含义、大规模采用以及理解其脆弱性方面还差得很远。这就是我如此喜欢企业工作的原因,因为它是一个现实检验。当你将实际的生成式 AI 用例投入生产,并计算推理成本和预期性能时,附加的价格标签与你在手机上使用一个应用聊天并获得一些有趣链接的情况是不同的。所以是的,我认为这两个世界之间需要架起一座桥梁。
Demetrios:是的。我也觉得这很有趣,因为在我看来,由于它非常新颖,人们更愿意去探索,而不一定要求立即获得投资回报。但是对于更传统的机器学习或预测性机器学习,它已经更成熟了,所以人们对那种探索类型的尝试就没有那么耐心。或者说,‘嘿,这个用例能行吗?’如果你现在还无法展示一个预测性机器学习用例的投资回报,那就有一些风险了。但如果对于一个生成式 AI 用例,你暂时做不到,那问题也不是很大。
Iveta Lohovska:是的,这基本上是一项在我们眼前成长的技术。有点像一边造飞机一边飞行的局面。我们正在实时见证这一切,我同意你的看法。所以围绕机器学习的成熟度是一回事,但围绕生成式 AI,在我看来,在真正成熟之前,会有一个小小的失望或衰退模型。以可持续的方式推广这种强大的技术。可持续的方式意味着你能负担得起,而且它也能证明你的商业案例和用例的价值。否则,就只是为了做而做,因为其他人都在做。
Demetrios:是的,是的。百分之百。我知道我们时间不多了。我确实觉得有一个话题我们想讨论一下,那就是许可问题以及它如何影响可信度和可解释性。所以我们之前谈到,是的,最好的方式是运行自己的模型,而且它可能不会是那种无所不能的庞大模型。似乎趋势是走向更小的模型。但从你的角度来看,感觉每周都有新模型发布。是的,尤其如此。
Demetrios:我的意思是,我们刚才在我们再次上线之前还在讨论这个,比如 Databricks 刚刚发布了他们的什么?DBRX。昨天 Mistral 在周末发布了一个新的基础模型,然后 Llama 3 可能转眼间就要出来了。所以你对此持什么立场?感觉开源领域有很多动向,但就像你提到的那样,对待开源运动需要谨慎。
Iveta Lohovska:所以我认为感觉上有很多开源项目,但是。所以我完全支持开源,并赋予个人和社区创新的力量,在不同的实验室进行研发,这样就不会局限于少数有能力的大型科技公司。所以,相比于这个领域的其他同等参与者,Meta 的尝试值得称赞。但开源在我们这个世界附带了大量的生态系统,特别是对于更强大的模型,这是我不太喜欢的一点,因为它立即转化为法律费用之类的讨论。就像那些开源许可条款中有太多的 if/else 语句,让技术人员难以理解这到底意味着什么,然后你必须请法律人士来为你阐述或添加额外条款。所以这正在变成一个非常复杂的环境,而且越来越不开放,因为没有那么多开源和小创业公司能够负担得起训练强大且有用的基础模型。所以这有点像被锁定在少数人手中的游戏,我认为每个人都需要对此有所担忧。
Iveta Lohovska:所以我们可以借鉴过去的等价物,但我认为我们在开源方面做得还不够好。LLM 模型的三个主要核心组件,即模型本身、训练数据以及数据集,大多数情况下,至少其中一个组件是受限或缺失的。所以这是一个难以把握的领域。
Demetrios:是的,是的。如果你缺少这三个组件之一,你就无法真正称其为可信的,或者你无法真正获得你需要和期望的信息。我确实喜欢那个关于必需品的小三角。所以,Iveta,这次对话棒极了。我非常感谢你来到这里。谢谢 Sabrina 加入我们。对于所有正在观看的其他人,请记住,不要迷失在向量空间中。这是又一次向量空间对话。
Demetrios:我们结束了。祝大家周末愉快。
Iveta Lohovska:谢谢。再见。谢谢。再见。