0

生命科学公司洞察生成平台——Hooman Sedghamiz | 向量空间讲座

Demetrios Brinkmann

·

2024 年 3 月 25 日

Insight Generation Platform for LifeScience Corporation - Hooman Sedghamiz | Vector Space Talks

“最近出了一份非常棒的向量数据库比较报告。我看到 2024 年可能有超过 40 个向量存储。当我们 2023 年开始时,只有几个。我发现,在检索增强生成管道中真正缺乏的是数据管道方面的重大创新。”
– Hooman Sedghamiz

Hooman Sedghamiz,拜耳股份公司 AI/ML - 洞察高级总监,是生命科学领域 AI 和 ML 领域的杰出人物。凭借多年的经验,他领导团队和项目,极大地推动了医疗产品(包括植入式和可穿戴设备)的发展。值得注意的是,他曾担任拜耳制药公司的生成式 AI 产品负责人和高级总监,在开发基于 GPT 的精准医疗中央平台方面发挥了关键作用。

2023 年,他担任 EMNLP 2023 GEM 工业轨道的联合主席,进一步为该领域做出了贡献。Hooman 还曾担任加州大学圣地亚哥分校的 AI/ML 顾问和科学家,利用他在深度学习方面的专业知识推动生物医学研究和创新。他的优势在于指导数据科学计划从概念到商业化,并通过 MLOps、LLMOps 和深度学习产品管理弥合医疗和健康应用之间的差距。通过与研究机构的合作,并与哈佛大学和 UCSD 的 Nemati 博士密切合作,Hooman 仍然是数据科学社区中一位充满活力且富有影响力的人物。

在 Spotify、Apple Podcast、Podcast addicts、Castbox 上收听此集。您也可以在 YouTube 上观看此集。

主要收获

为什么实时评估对于维护聊天机器人交互的完整性以及防止宣传竞争对手或做出虚假承诺等问题至关重要?开发人员采用哪些策略来最大程度地降低成本,同时最大程度地提高模型评估的有效性,尤其是在处理大型语言模型时?这些可能只是行业中许多人正在自问的众多问题中的一部分。我们旨在在本次演讲中涵盖大部分内容。

看看他们的对话,了解 AI 聊天机器人评估的世界。发现确保聊天机器人质量和在各种指标上持续改进的细微差别。

以下是本集的关键主题

  1. 评估聊天机器人有效性:探索系统评估聊天机器人质量的方法,涵盖检索准确性、响应生成和用户满意度。
  2. 实时评估的重要性:深入了解为什么持续和实时评估聊天机器人对于维护完整性并确保它们按设计运行而不会促进不良行为至关重要。
  3. 受损系统的指标:了解识别可能导致系统“越狱”行为的重要性,以及通过 API 集成对抗这些行为的可用方法。
  4. 经济高效的评估模型:讨论使用较小模型进行评估以降低成本,同时不影响分析深度,重点关注失败案例和根本原因评估。
  5. 定制评估指标:强调根据特定用例要求定制评估标准的必要性,包括探索适用于不同场景的不同指标。

趣闻:Mistral、Llama 和 Nexus Raven 等大型语言模型在执行函数调用方面的能力有所提高,幻觉率低,输出质量高。

节目笔记

00:00 拜耳股份公司介绍
05:15 药物发现、试验预测、医疗虚拟助手。
10:35 Llama 等新语言模型与 GPT 3.5 竞争。
12:46 大型语言模型解决、高效技术、开源。
16:12 针对多样化、个性化模型扩展应用程序。
19:02 开源提供多语言嵌入。
25:06 稳定性提高,可靠的函数调用能力出现。
27:19 平台旨在提高效率,衡量影响。
31:01 构建知识发现工具,衡量价值
33:10 总结

更多 Hooman 的语录

“我认为一直以来都专注于向量存储。因此,围绕向量存储理念出现了许多初创公司,但我认为真正缺乏的是能够处理大量知识和信息来源的工具。”
– Hooman Sedghamiz

“你现在可以看看,它们的性能真的非常接近,甚至已经比 GPT 3.5 更好,已经达到相同水平,并且正在一步步接近 GPT 4。”
– Hooman Sedghamiz 谈语言模型的进步

“我认为最大的、未开发的潜力,回溯到你能进行科学发现以及所有那些更具挑战性的应用,而不仅仅是关于效率等等。”
– Hooman Sedghamiz

文字记录

Demetrios:我们在这里,我想不出比和你 Hooman 共度情人节更好的方式了,这绝对令人难以置信。我对你将带来的这场演讲非常兴奋,我想让所有在座的听众都知道我们今天邀请的演讲者是多么有才华,因为你做了很多事情。伙计们,不要被这个男人年轻的外表所欺骗。你看起来不像是五十多或六十多岁的人。但当涉及到你的简历时,你看起来应该有七十多岁了。我非常兴奋。你在运行数据科学项目、机器学习项目、大型语言模型项目以及所有这些有趣的事情方面拥有丰富的经验。你在拜仁慕尼黑工作,抱歉,不是拜仁慕尼黑,是拜耳股份公司。你是人工智能和机器学习高级总监。

Demetrios:我认为你在机器学习、人工智能方面还做了很多其他事情。你既有传统的机器学习背景,我想,也有这种新的生成式人工智能背景,所以你可以两者兼顾。但你也会以数据工程的方式思考问题。你了解整个生命周期。所以今天我们可以讨论所有这些有趣的事情。我知道你为我们准备了一些幻灯片。我会让你把它们放上去,也欢迎其他人在聊天中随意提问,Hooman 在演讲过程中,我会在需要时插话打断他们。

Demetrios:但我们也可以在几分钟的幻灯片之后进行一些讨论。所以对于所有观看的人,我们将会观看这个,然后我们将会真正讨论 2024 年企业级人工智能的样子以及真正利用它所需的一切。所以 Hooman,我把麦克风交给你了,伙计,我会在需要时插话。

Hooman Sedghamiz:非常感谢您的介绍。让我开始吧。您已经看到我的屏幕了吗?

Demetrios:是的,我们看到了。

Hooman Sedghamiz:好的,完美。好的,希望我能切换幻灯片。是的,就像你说的,首先,非常感谢你与我共度这一天。我知道今天是情人节,至少在美国,人们在情人节时会疯狂。但我知道你们中的很多人可能都热爱大型语言模型、语义搜索以及所有这些东西,所以很高兴能在这里见到你们。让我从……我有很多幻灯片,顺便说一句,但也许我可以先简单介绍一下我工作的公司,这些家伙在做什么,以及我们在拜耳这样的生命科学公司在做什么,该公司确实涉及人类的重大需求,对吧?所以健康和食物链以及农业,我们在公司有三个主要的部门或产品,主要是消费健康、非处方药,可能你们中的很多人都服用过,阿司匹林,所有这些好东西。我们还有作物科学部门,致力于确保作物产量高,食物链正常运转,以及制药部门,致力于治疗和预防。

Hooman Sedghamiz:所以现在你可以想象,通过是如此重要,因为它有潜力解锁一个健康成为现实、饥饿成为记忆的未来。所以也许我先给你一些提示,关于人工智能在生命科学行业中真正可以帮助解决的众多用例或挑战。你可以想到不良事件检测,当患者服用药物时,过量服用。患者可能会报告不良事件,胃出血,并在社交媒体上发布相关信息。几年前,以可扩展的方式自动处理所有这些自然文本非常困难。但如今,由于大型语言模型,可以自动化这一过程,并识别是否有药物或任何可能对患者群体产生负面不良事件的东西。同样,你现在可以使用这些大型语言模型为产品创建大量营销内容。

Hooman Sedghamiz:同时,药物发现方面也取得了巨大的进展,在识别新化合物方面。您可以使用像 SMILES 这样的格式来描述这些化合物,这些格式可以表示为真实文本。这些大型语言模型可以在其上进行训练,它们可以预测序列。同时,您还可以进行临床试验结果预测,这对于制药公司来说是巨大的。如果您可以预测试验的结果,那将为许多公司节省大量时间和资源。当然,我们很多人已经在市场上看到了许多使用大型语言模型的医疗虚拟助手,它们可以回答医疗咨询并提供相关咨询。而且,我认为这里最大的潜力在于真实世界数据,就像我们大多数人现在都有某种传感器或手表,可能每分钟测量我们的健康状况,或者测量我们的心率。您去医院,所有医疗记录都记录在那里,这些大型语言模型有能力处理这些复杂数据,您将能够为患者提供更好的个性化洞察。

Hooman Sedghamiz:正如我之前提到的,我们公司也从事作物科学,以及作物产量预测。如果您能帮助农民提高作物产量,这意味着他们可以更快地生产出质量更好的产品。所以,也许我可以从 2023 年的历史开始,发生了什么?像我们这样的公司如何看待大型语言模型和机遇。它们带来了什么?我认为在 2023 年,每个人都对提高效率感到兴奋,对吧?每个人都想用它们来创建内容、起草电子邮件,所有这些真正触手可及的用例。而且,我真正喜欢的一种早期非常好的架构来自 16z 企业,我认为那是在 2023 年初。LangChain 是新的,我们有 LangChain,我们有所有这些。当然,Qdrant 已经存在很长时间了,但这是第一次看到向量存储产品可以大规模集成到应用程序中。

Hooman Sedghamiz:架构相当复杂,包含不同的组件。在右侧,您可以看到如何托管大型语言模型。在顶部,您可以看到如何使用外部数据增强它们。当然,我们有这些插件,对吧?所以您可以将这些大型语言模型与谷歌搜索 API 等连接起来,以及中间的一些验证,您可以使用这些验证来快速验证响应。快进,也许我可以花几分钟时间谈谈 LLM API 和托管的组件,因为我认为这在需要真正可扩展的应用程序方面具有很大的潜力。

Hooman Sedghamiz:简要介绍一下我的公司,我们在全球拥有大约 10 万名员工。人们使用的语言非常多样化。因此,构建一个能够服务 20 万人的应用程序变得非常困难。而且它既高效又不会很昂贵。所以我也许可以花几分钟谈谈这意味着什么,以及像我们这样的大型公司如何能够高效地解决这个问题。所以我们当然有开箱即用的解决方案,对吧?所以你已经有了企业版 Chat GPT,你还有其他来自微软和其他公司的副驾驶,但它们通常是基于席位的,对吧?所以你支付订阅费,就像 Spotify 一样,你每月支付 20 美元,30 美元,平均在 20 到 60 美元之间。对于像我这样的公司,如果你为 3000 人计算,那意味着每月 18 万美元的订阅费。

Hooman Sedghamiz:而且我们知道大多数用户不会使用它。我们知道这是一个基于使用的应用程序。你可能只是去那里。根据你的日常工作,你可能会使用它。有些人不会大量使用它。我做了一些计算。如果你使用可以自己访问的 API,以及公司可以在内部和本地部署的大型语言模型,那么成本节省可能是巨大的,真的便宜很多倍,可能便宜 30 到 20 到 30 倍。所以,比较 2024 年和 2023 年,很多事情都改变了。

Hooman Sedghamiz:如果你看看开源大型语言模型,出现了一些非常出色的模型,来自 Mistral,现在我们有了像 Llama 这样基于 Llama 2 的模型,所有这些模型都出现了。你现在可以看看,它们的性能真的非常接近,甚至已经比 GPT 3.5 更好,已经达到相同水平,并且正在一步步接近 GPT 4。再看看右侧的价格和速度或吞吐量,你可以看到,例如,Mistral 7B 可能是一个非常便宜的部署选项。而且它的性能在许多企业用例中已经非常接近 GPT 3.5。我认为今年年底和去年年底出现两件大事,使这种现实成为可能的是一些大型语言模型。我不知道我是否能称它们为大型语言模型。它们大约在 7 亿到 13 亿之间,与 GPT 4、GPT 3.5 相比。我认为它们不算真正的大型。

Hooman Sedghamiz:但其中一个是 Nexus Raven。我们知道,应用程序如果想要健壮,它们确实需要函数调用。我们看到这种函数调用范式,它本质上是要求语言模型生成结构化输出,你给它一个函数签名,对吧?你要求它为该函数生成一个输出,结构化输出参数。Next Raven 去年发布,正如你在这里看到的,它真的非常接近 GPT 4,对吧?而 GPT 4 比这个模型大很多倍。这个模型只有 130 亿参数,真的提供了更少的幻觉,但同时提供了非常高质量的函数调用。所以这让我对开源以及那些想要构建需要函数调用的应用程序的公司感到非常兴奋。这在五个月前真的非常缺乏。同时,我们也有专门用于编程语言或脚本(如 SQL)的大型语言模型,我们也看到像 SQL Coder 这样的模型已经超越了 GPT 4。

Hooman Sedghamiz:所以我们现在可以快速看看像我们这样的大公司(拥有全球大量员工的公司)的模型解决将是什么样子。在这方面,社区也取得了巨大的进步,对吧?所以我们有来自 Hugging Face 的文本生成推理,它是开源的,大部分情况下都可以使用,也是我和我的团队的首选。但我们也有 Olama,它很棒,很多人都在使用。我们有 Llama CPP,它确实优化了大型语言模型,使其也适用于本地部署和边缘设备。我看到 Raspberry PI 运行大型语言模型,我真的很惊讶,对吧?使用 Llama CPP。你还有这个文本生成推理,它提供了量化支持、连续修补等等,所有这些都使得这些大型语言模型更加量化或更加压缩,也更适合部署给大量人群。也许我可以给你一个快速总结,如果你决定部署这些大型语言模型,你可以使用哪些技术来使它们更高效、更经济、更可扩展。所以我们有很多很棒的开源项目,比如 Lite LLM,它本质上在你部署的大型语言模型之上创建了一个 OpenAI 类型的签名。假设你想使用 Azure 来托管或访问 GPT 4 Gypty 3.5,或者使用 OpenAI 来访问 OpenAI API。

Hooman Sedghamiz:要访问这些模型,您可以将它们放在 Lite LLM 后面。您可以使用在内部部署的 Hugging Face 模型,将 Lite LLM 放在这些模型前面,然后您的应用程序就可以直接使用 OpenAI Python SDK 或任何其他工具来自然地调用它们。然后您就可以简单地在这些模型之间进行负载均衡。当然,正如我提到的,我们现在有很多部署这些模型的服务机会,您可以加速它们。语义缓存是另一种节省成本的机会。例如,如果您有 Qdrant,并且正在存储对话,您可以语义地检查用户是否问过类似的问题,如果该问题与历史记录非常相似,您可以直接返回该响应,而不是调用大型语言模型,因为这会产生费用。当然,您可以使用 LangChain 来总结对话等。

Hooman Sedghamiz:我们有提示压缩等技术。正如我所提到的,这种负载均衡确实为扩展这些大型语言模型提供了很多机会。正如您所知,OpenAI API 或 Microsoft Azure 的许多产品都有速率限制,对吧?所以您不能大量调用这些模型。您可以做的是,在多个区域部署它们,可以有多个 API,使用 Hugging Face TGI 部署本地 TGI 模型,或者拥有 Azure 端点和 OpenAI 端点。然后您可以使用 Lite LLM 在这些模型之间进行负载均衡。一旦用户进入,对吧。用户 1,您将用户 1 的请求发送到一个部署,将用户 2 的请求发送到另一个部署。

Hooman Sedghamiz:通过这种方式,您可以真正将您的应用程序扩展到大量的用户。当然,我们还有Lorex等应用程序的机会,它们使用Lora。可能你们很多人都听说过,这是一种非常高效的方法,可以用更少的参数微调这些模型,我们可以利用它为许多应用程序提供真正个性化的模型。您可以看到,如果您想使用GPT 3.5,无论是性能还是其他方面,成本都是无法比拟的,因为您可以使用非常小的硬件GPU来部署成千上万的Lora权重或适配器,然后您就可以为您的用户提供多样化的模型集。我认为这些应用程序的一个非常重要的部分是添加上下文数据、添加增强,使它们更智能、更及时。例如,在医疗保健领域,许多美国人对人工智能在医疗决策方面还没有高度信任。这就是为什么数据或大型语言模型的增强对于将信任和所有这些最先进的知识带入这些大型语言模型非常非常重要。

Hooman Sedghamiz:例如,如果您询问癌症或需要建立在科学知识之上的专门问题,使用这些增强或检索增强生成非常重要。不,抱歉,跳转了。但我看看。我想我少了一张幻灯片,但是的,我在这里。所以回顾这种,比如说检索增强生成,它的不同部分。当然,您有这些向量存储,而在 2024 年,我看到了向量存储的爆炸式增长。

Hooman Sedghamiz:最近发布了一份非常棒的向量数据库比较报告。我看到 2024 年可能有超过 40 个向量存储。当我们 2023 年开始时,只有几个。我发现,在检索增强生成管道中真正缺乏的是数据管道方面的重大创新。我想我们之前讨论过,ETL 还没有被认真对待。到目前为止。我们每周都有很多嵌入模型发布。

Hooman Sedghamiz:我们有很多很棒的开源嵌入模型,BgEM.Three 是一款多语言模型,支持 100 多种语言。您可以用这些语言嵌入文本。我们有很多向量存储,但我们没有真正的 ETL 工具,对吧?所以我们可能只有几个 Airbyte,对吧?如何高效地重新索引数据?如何解析科学文章?想象一下,我这里有一张图片,我们有这些文章或档案,或者在 PubMed 上,所有这些都有图片和复杂结构,我们的解析器无法高效地解析它们并理解它们,以便您能够很好地嵌入它们。而且,真正做到互联网级别、科学级别的检索非常困难。而且我认为目前还没有人能大规模地做到这一点。我只是跳过了一些,我有一张关于爱情的幻灯片,也许我可以跳到最后一张,然后我们可以暂停并回答一些问题。我看到 2014 年及以后,大型语言模型在企业中的发展方向,我看到的是助手,对吧?我看到针对用例的个性化助手正在出现,对吧?所以这些可能包含四个组件。

Hooman Sedghamiz:您甚至可以拥有一个个性化的语言模型,它可以从您的对话历史中学习,而不仅仅是增强。也许您可以使用 Lora 和所有这些技术对其进行微调。您拥有可能需要为您的助手定制的知识,并使用向量存储和我们拥有的所有这些技术进行集成。您知道,插件带来了很多插件,有些人称之为技能,它们还可以覆盖许多 API,可以为大型语言模型和多代理设置带来超能力。对吧?我们有 Autogen,很多很酷的东西正在发生。随着我们前进,代理技术正变得越来越成熟。我们有 Langchain 的 Langraph,它带来了更多稳定的代理技术。然后您可以将公司构建所有这些应用程序商店或助手商店视为用例存储在那里。同事们可以在那里搜索。

Hooman Sedghamiz:我在找这个应用程序。那个应用程序是为他们定制的,甚至他们可以拥有自己的助手,是为他们定制的,他们自己的大型语言模型,他们可以用它来创造价值。然后甚至非技术人员也可以创建自己的助手。他们可以附加他们喜欢的文档,他们可以选择他们喜欢的插件,他们希望连接到,例如,档案,或者他们需要连接到 API,以及您想要多少个代理。您想建立一个营销活动,也许您需要一个代理来做市场研究,一个经理。然后您构建您的应用程序,该应用程序是为您定制的。然后根据您的反馈,大型语言模型也可以从您的反馈中学习。展望未来,也许我在这里暂停一下,然后我们可以继续。比我预期的要长一点,但没关系,伙计。

Demetrios:是的,这很酷。非常酷。我很感谢你仔细讲解这些,我也感谢你从 2014 年穿越到现在,谈论我们将在 2024 年做什么。这太棒了。所以我想立即深入探讨的一点是 ETL 的概念,以及你为什么认为它是一个障碍,以及你认为我们可以在哪里改进。

Hooman Sedghamiz:是的。所以,我认为人们一直专注于向量存储。对。所以有很多初创公司围绕向量存储的概念出现,但我认为真正缺乏的是能够处理大量知识和信息来源的工具。你有你的 Gmail,如果你使用 Outlook,如果你使用科学知识,比如档案等来源。我真的没有听说过任何一家初创公司说,好的。我有一个平台,可以实时从档案论文中检索信息。

Hooman Sedghamiz:你想提问,例如关于 Transformer 的问题。它可以对所有档案论文进行实时检索增强生成,并在它们添加时为您提供答案。我们还没有。我们没有这些同步工具。当然,你可以通过一些技巧构建一些智能解决方案,但我还没有看到太多这方面的倡议。同时,我们还有这种付费墙知识。所以我们有这些《自然医学》的精彩论文,它们是付费墙。我们无法访问它们。

Hooman Sedghamiz:对。所以我们还不能围绕它们构建 RAG,但也许一些初创公司可以开始提出策略,与这些出版公司合作来构建这些东西。

Demetrios:是的,这几乎就像你没有把它看作是自然或。

Hooman Sedghamiz:也许他们可以做到。

Demetrios:是的,他们可能可以,但这可能不是他们的主要业务,所以他们不想。那么初创公司如何进入并获取这些付费信息并将其整合到他们的产品中呢?你还提到了另一件事,就是在使用代理方面,我想知道你是否经常使用它们?你有没有看到它们的可靠性有所提高?因为我很确定我们很多人都尝试过使用代理,可能只是在 GPT-4 API 调用上浪费了很多钱。然后感觉这个东西不太稳定。发生了什么事?所以你是不是知道我们不知道的事情?

Hooman Sedghamiz:我认为它们变得更稳定了。如果你回顾 2023 年,比如 6 月、7 月,它们还很新,比如 AutoGPT。我们有很多新项目出现,正如你所说,它们并不稳定。但我想说,到 2023 年底,我们有了真正稳定的框架,例如围绕代理函数调用的定制解决方案。我认为当函数调用出现时,你可以提供函数签名或文档字符串,然后你可以可靠地获得响应,我认为这改变了很多。LangChain 有一个 OpenAI 函数调用代理,它在某些措施下工作。我的意思是,当然,我不会说你可以 100% 自动化某些东西,但对于知识方面的。

Hooman Sedghamiz:例如,如果你有一个代理,它有权访问数据源,所有这些东西,你要求它去那里,看看最新的临床试验设计趋势是什么,它可以调用这些工具,它现在可以可靠地给你答案,十次中有八次,它会起作用。现在它变得非常稳定。让我兴奋的是最新的多代理场景,我们正在测试它们。它们非常有前景。对吧?所以你拥有来自微软平台的 Autogen,它是开源的,你还有来自 Langchain 的 Langraph,我认为这些框架正变得非常稳定。我的预测是,在接下来的几个月里,大量应用程序将依赖于代理。

Demetrios:你还提到了如何识别一个项目是成功还是失败。考虑到你可以将 AI 应用到很多领域,尤其是在拜耳,以及你可以说“是的,我们可以为这个添加一些 AI”的不同地方。你是如何设置指标的,以便你知道哪些值得继续投入,哪些可能听起来不错,但在实践中却不那么好?

Hooman Sedghamiz:是的,这取决于您正在构建的平台。对吧?所以我们早在 2023 年就开始了,该平台旨在提高效率,对吧?所以如何才能让我们的同事更有效率?他们可以更快地完成日常工作,比如真正委托这些无聊的事情,如果你想总结或创建演示文稿,所有这些东西,并且您有适当的衡量标准,例如,您可以问,好的,您现在使用这个平台已经几个月了。告诉我们您在日常工作中节省了多少小时。而且我们确实看到了转变,对吧?所以我们进行了一项问卷调查,我认为我们看到了在节省时间、日常工作等方面的大量转变,这是可以衡量的。然后您当然可以将其转换为为企业和公司带来的价值。我认为最大的、未开发的潜力,回溯到您能够进行科学发现以及所有这些更具挑战性的应用程序,而不仅仅是关于效率等等。然后您确实需要,如果您正在构建产品,如果它不是通用产品。例如,假设您正在构建一个自然语言到 SQL 的应用程序,假设您有一个数据库。

Hooman Sedghamiz:那是一个关系型数据库。你想构建一个应用程序,在后台搜索汽车。客户去那里问,我正在寻找一辆 2013 年的宝马。它在后端使用 Qdrant。它做语义搜索,所有这些很酷的事情,然后返回结果。我想那时你需要有非常好的衡量标准,来衡量当你在销售汽车的网站上集成一个生成式应用程序时,你的客户满意度如何。所以以一种循环的方式来衡量这一点,人们不会高兴,因为你一开始就有很多你没有考虑到的事情。你衡量所有这些指标,然后你继续前进,改进你的平台。

Demetrios:嗯,你还提到了别的东西,这让我想到了这个想法,那就是毫无疑问,你有一些容易解决的问题,主要是基于效率的提升。对。所以它帮助人们从 PDF 中提取数据,或者其他什么,你在那里节省了时间。你看到你在节省时间,而且设置起来相当容易。对。但接着你会有一些登月项目,我想,比如创造一种全新的阿司匹林或泰诺或任何东西,那需要更多的时间、精力、基础设施以及所有这些方面的投资。你如何看待这两者,并说,我们希望确保在这两个方向上都取得进展。我不确定你是否有无限的资源来做所有事情,或者你是否必须认识到权衡取舍以及如何衡量这些类型的指标。

Demetrios:再说一次,在决定在哪里投资以及在哪里放弃不同的倡议时。

Hooman Sedghamiz:是的。所以这是一个很好的问题。对于产品开发,就像你举的例子,有很多阶段。对。所以你从科学发现阶段开始。我可以想象,你可以有多个产品来提供帮助。所以如果你已经有一个产品,你想从中获取洞察力,看看。假设你已经有了阿司匹林。

Hooman Sedghamiz:您想了解它是否也对患者可能患有的心血管问题有帮助。因此,您可以构建一种知识发现工具,它可以为您搜索,给它您的产品名称,它会去 PubMed,搜索所有正在发表的文章,并将结果返回给您。然后您需要有非常明确的指标来查看这个知识发现平台,在几个月后是否能够为您的客户或您构建平台的利益相关者带来价值。我们有这些专家,他们真是他们领域的专家。他们需要很长时间才能阅读这些文章,才能得出结论或回答关于真正复杂主题的问题。我认为根据我们看到的初步反馈,它确实有帮助,它有助于他们节省时间,这真的很难。但我认为这又回到了我们仍然没有付费墙的 ETL 问题。我们仍然无法访问很多科学知识。

Hooman Sedghamiz:这些人在一开始有点气馁,因为他们期望很多人,尤其是非技术人员,会说你去看 ChatGPT,你问,它就会给你答案,对吧?但它不是那样的。它不是那样工作的。但我们可以衡量它,我们可以看到改进,他们可以更快地获取知识,但它并不全面。这就是问题所在。它不是真正的深入知识。我认为公司仍然非常鼓励开发这些平台,他们可以看到这是一个发展中的领域。对。所以很难给你一个简短的答案,很难在短期内得出衡量成功或失败的指标。

Demetrios:是的,我喜欢你谈到的那种创造力。也就是说,沿着这个多步骤、非常复杂的产品创建过程,你可以做一些潜在的副项目,这些项目可以在整个过程中展示和证明价值,而且它们不一定需要像那个更大的项目那么复杂。

Hooman Sedghamiz:是真的。

Demetrios:太棒了,伙计。这次对话真是太棒了。我非常感谢你来到向量空间讲座。对于那些想加入我们并且有很酷的东西想展示的人,我们总是乐于接受建议。只要联系我,我们就会确保给你寄一些T恤或者任何手头有的周边产品。记住,所有在外太空的宇航员们,不要迷失在向量空间。这是 Qdrant 向量空间讲座的又一期,与 Hooman,我的老伙计,在情人节。我简直不敢相信你决定和我一起度过。

Demetrios:我很感激。

Hooman Sedghamiz:谢谢。保重。

免费开始使用 Qdrant

开始使用