在生产环境中构建 LLM 驱动的应用 - Hamza Farooq | 向量空间讲座
Demetrios Brinkmann
·2024年1月9日

“据估计,每天有100亿次搜索查询,其中一半没有得到解答。因为人们实际上并没有像我们过去那样使用搜索。”
– Hamza Farooq
您认为 Hamza 在机器学习领域的背景以及之前在 Google 和 Walmart Labs 的经历如何影响了他构建 LLM 驱动应用的方法?
Hamza Farooq 是一位卓有成就的教育家和人工智能爱好者,他是 Traversaal.ai 的创始人。他的职业生涯以对人工智能探索的不懈热情为标志,尤其是在构建大型语言模型方面。作为加州大学洛杉矶分校安德森商学院的兼职教授,Hamza 通过教授前沿技术课程来塑造人工智能的未来。在 Traversaal.ai,他为企业提供领域特定的人工智能解决方案,专注于会话式搜索和推荐系统,以提供个性化体验。Hamza 的职业生涯跨越学术界、工业界和创业领域,他在 Google 工作期间积累了丰富的经验。他的首要目标是弥合人工智能创新与现实世界应用之间的差距,将变革性解决方案推向市场。Hamza 热切期待着人工智能和机器学习这个不断发展的领域中充满活力的挑战和机遇。
收听本期节目: Spotify、Apple Podcast、Podcast addicts、Castbox。您也可以在以下平台观看本期节目: YouTube。
要点总结
UX 专家?您在为 GenAI 产品设计无缝用户体验方面的专业知识必将需求旺盛。让我们共同提升下一代技术的用户界面!
在本期节目中,Hamza 介绍了大型语言模型和复杂搜索的未来,讨论了实际应用以及在生产环境中实施这些技术所面临的挑战。
本期节目的5个要点
- 复杂搜索 - 了解 LLMs 如何彻底改变我们与搜索引擎的互动方式,并将搜索体验提升到超出基本查询的范畴。
- 会话式搜索与个性化 - 探索使用开源 LLMs 进行会话式搜索和个性化推荐的潜力,带来全新的用户参与度水平。
- 挑战与解决方案 - 揭示 LLM 服务面临的停机挑战,并学习为减轻这些问题以实现无缝运行而部署的策略。
- Traversal AI 的独特方法 - 了解 Traversal AI 如何创建一个统一平台,集成了众多应用,简化了 LLMs 和领域特定搜索的集成。
- 用户体验 (UX) 的重要性 - 了解 UX 专业人员在塑造 Gen AI 产品未来方面无与伦比的重要性,以及他们在增强用户与 LLM 驱动应用交互方面的关键作用。
趣闻:用户体验 (UX) 设计师预计在 AI 驱动产品的开发中至关重要,因为他们弥合了用户交互与 AI 系统技术方面之间的差距。
讲座笔记
00:00 使用开源产品教授 GPU AI。
06:40 复杂搜索促成会话式搜索的实施。
07:52 轻松生成个性化旅行行程。
12:02 Maxwell 的演讲强调了搜索技术中的挑战。
16:01 平衡旅行中的偏好与权衡。
17:45 Beta 模式,选择性、个性化数据库。
22:15 所需应用:聊天机器人、知识检索、推荐、职位匹配、副驾驶
23:59 UX 在开发 Gen AI 中的挑战。
更多 Hamza 的引言
“能够从事 Gen AI 产品的 UX 人员将比产品经理和技术人员更加稀缺,因为技术人员可以跟随并理解代码,他们可以观看视频;业务人员正在学习 GPT 提示等。但是对于 UX 人员来说,除了一个 Chat GPT 界面之外,几乎没有教学指南。所以这种用户体验,他们将变得,他们的价值将与黄金等价。”
– Hamza Farooq
“通常他们不会来找我们说我们需要 Pinecone 或我们需要 Qdrant 或我们需要本地 Llama,他们会说,这是你们要解决的问题。而我们公司秉持的是解决问题的理念,我们能搞定。你们无需为了两份人的成本而雇佣三名 ML 工程师、两名 NLP 研究科学家以及这里的其他三人。我们可以进行完整的端到端实施。因为我们已经构建了 80% 的产品,剩下的 20% 可以根据您的需求进行调整。”
– Hamza Farooq
“想象一下,你正在尝试预订酒店,同时你也会收到来自《纽约时报》的文章,告诉你为什么这个酒店很棒,或者你关注的某个博主写的东西也出现在你的结果中。这就是我们一直在赋能的力量,你不再需要等待,也不再需要仅仅依赖公司自己的网站。你可以利用整个互联网来组织信息。”
– Hamza Farooq
文字记录
Demetrios:好的,我们开始了。一切进展如何?Hamza,很高兴你来到本期向量空间讲座。首先让我们开始吧。现在在座的各位,很高兴你们在这里。请在聊天区告诉我们你们从哪里接入,并且在接下来的20-25分钟里,随时提出任何问题。我会在聊天区留意,并在需要的时候打断 Hamza。如果你或你认识的任何人想来我们的向量空间讲座做分享,我们非常欢迎。可以通过 Discord、LinkedIn 或你喜欢的任何方式联系我。也许是信鸽。无论是什么方式,我随时准备聆听你的分享想法。听到人们如何使用 Qdrant 进行构建或者他们在这个领域做什么,总是很棒。那么,事不宜迟,让我们请出我的朋友 Hamza。兄弟,很高兴你来到这里。
Hamza Farooq:谢谢邀请。我很荣幸。
Demetrios:你现在这么说。等着瞧吧。你还没那么了解我。我想那是唯一的事。所以就这么说吧。你正在做一些令人难以置信的事情。你是 Traversaal.ai 的创始人。你过去一直在构建大型语言模型,同时你还是加州大学洛杉矶分校的教授。你在做各种各样的事情。这就是为什么我认为今天能请到你,我很荣幸。我知道你有很多有趣的东西想分享,这次讲座的主题是关于在生产环境中构建 LLM 驱动的应用。我相信你准备了一些幻灯片。所以我就把时间交给你了,让你开始展示,万一有什么问题出现,我会介入,避免你走得太远。
Hamza Farooq:太棒了。谢谢。我真的很喜欢你关于信鸽的笑话。它是一只连接了多个区域和 H100 的 GenAI 信鸽吗?
Demetrios:没错。那些是昂贵的信鸽。那是高级版本。我还没那么富有 GPU 资源。
Hamza Farooq:当然。好的。我认为这是一个很好的过渡。我通常告诉人们,我要教大家如何成为一个贫困 GPU 的 AI 差距人士,我的工作基本上就是教导每个人,或者说我组织的核心论点是,如何通过使用开源产品和开源 LLM 及架构来构建强大的解决方案、LLM 驱动的解决方案,从而尽可能地节省开支。这一直是我的核心论点,我也一直推崇开源,因为它们在这方面做得非常出色,而且几乎达到了行业标准的水平。但言归正传。让我们开始我的整体演讲。我今天在这里要谈谈搜索和副驾驶的未来,以及我们对 LLM 的整体体验。
Hamza Farooq:我知道你已经介绍过我的背景了。我是 Traversaal.ai 的创始人。之前我在 Google 和 Walmart Labs 工作过。我在机器学习领域拥有多年的经验。事实上,我 2007 年的第一份工作是在 SaaS 工作,当时我正在实现用于识别欺诈、进行欺诈检测的树模型。说实话,那时我并不知道那就是数据科学,但我们当时正在实现它。我曾在多所大学任教,这种经验确实帮助我在工作上做得更好,因为当你能教授某样东西时,你才算真正理解它。好的,那么我们为什么会在这里?我们为什么真的会在这里?我有一个非常强大的表情包库。
Hamza Farooq:大概一年前,ChatGPT 进入了我们的生活,几乎在一瞬间我们就开始使用它。我想在一月、二月、三月,它的使用量呈爆炸式增长。现在我们知道了各种各样的事情正在发生,并且看到了这个领域出现了大量的初创公司。有些是包装,有些则做了很多工作,拥有更强的引擎。我们使用它的方式多种多样。我认为我们甚至不知道有多少种方式可以使用 ChatGPT,但大多数时候,它只是进行文本生成,无论哪种形式。这就是一直以来的焦点。但是如果我们深入挖掘,我们所了解的 LLM,它们也可以帮助我们完成一个非常重要的部分,也就是所谓的复杂搜索。
Hamza Farooq:复杂搜索基本上就是我们与搜索系统对话,以便像与人类交谈一样发出更长的查询。这是我们与任何搜索引擎交互时长期以来一直缺失的东西。Google 一直以来都在为我们所有人提供最好的搜索形式。但想象一下,如果你去看除了亚马逊以外的任何其他电子商务网站。想象你去 Nike.com,你去 Gap,你去 Banana Republic。你会发现他们的搜索功能非常基础,而这正是许多公司为用户创造出色搜索体验的机会,可以采用多层次的交互模式。所以你基本上就是发出一个请求。我想买一件 Nike 蓝色 T 恤,是专为高尔夫设计的,带有我需要的所有这些功能,而且价格合理。它会显示一组结果,然后你可以根据这些结果进一步与其交流,并说,嘿,你能移除其中五六个吗,或者将这个数量减少到一定程度?这就是复杂搜索所带来的力量。复杂搜索正迅速成为我们需要实现会话式搜索的一个很好的铺垫。我们需要在我们的生态系统中实现大型语言模型,这样我们才能理解用户一直在问的问题的上下文。
Hamza Farooq:所以,我来给你们展示一个很好的例子,让你们了解 TripAdvisor 如何实现了复杂搜索。上周在我斯坦福大学的一堂课上,我们请来了 TripAdvisor 的 AI 负责人,他带我们体验了一种新的旅行规划方式。所以我就分享这个例子。如果你去他们的网站,你可以使用 AI 并选择一个城市。比方说,我选择伦敦。
Hamza Farooq:我可以选择去几天,然后下一步,我要和我的伴侣一起去。在后端,这只是在构建一个复杂搜索的版本,我想看看景点、美食、隐藏的宝藏。基本上我什么都想看看。然后当我点击提交,它很棒的地方在于它成为了一个起点,而自己组织这些信息本来需要花我相当长的时间。它收集了我所有的信息并生成了一个行程。现在看看这有什么不同。它包含了我可以住宿的地方、可以做的事情的实际数据,逐日列出,而且免费为您提供,在10秒内生成。这是以前不存在的体验。你必须自己来完成。通常你会去 Chat。
Hamza Farooq:GPT。如果你从今年开始使用,你会说“伦敦七日行程”,它会列出一些事情。然而,你看,它能够整合预订功能,以及在一个地方查看那些餐厅的功能。这是以前没有做到的事情。这才是将复杂搜索投入生产,并为用户创造出色体验的最真实形式,让他们可以理解他们可以选择什么。他们可以高亮标记并与之互动。我在这里暂停一下。有什么问题吗?我可以回答吗?
Demetrios:没有。
Demetrios:老兄,这太棒了。我都没意识到这个已经上线了,但这百分之百是旅行社代理会做的事情。现在你动动手指就能实现。
Hamza Farooq:所以他们构建了一个只需10秒就能创建的用户体验。那么,后端到底发生了什么呢?你有一个宏任务,比如我想计划一次巴黎度假,我想计划一次伦敦度假。而网络智能体或自动智能体,或者你随便怎么称呼它们,它们正在递归地将任务分解为子任务。当你到达一个独立的原子子任务时,它能够将其分解为可以采取的行动。所以这里正在进行任务分解和任务识别。然后,例如,Tripadvisor 能够构建一些独立行动的组合。然后它为你生成一个界面,你可以在其中看到一切都已准备就绪。这正是我一直非常感兴趣的部分。
Hamza Farooq:无论什么时候我们去亚马逊或其他地方搜索,我们都只进行一级搜索。我们基本上就是说,我想买一条牛仔裤,我想买一件衬衫,我想买… 这是一个原子化的操作。你想买机票吗?你想找住宿吗?想象一下,如果你能说,我想去东京,或者我去冰川需要什么样的装备?什么样的整体等级?它可以识别所有相关的不同子任务,然后最终向你展示可以采取的行动。嗯,它的存在当然是好事,但最大的问题是构建复杂搜索实际上很困难。Google 可以做到。亚马逊可以做到。但如果你想,我们如何确保它能被更广泛的大众使用呢?对于几乎任何一家公司来说,如果他们想构建这种体验,这都是一个难题。
Hamza Farooq:这是几个月前 Maxwell 在一次演讲中提到的。每天有100亿次搜索查询,据估计一半没有得到解答。因为人们实际上并没有像我们过去那样使用搜索。同样,也因为 GPT 的出现以及我们与产品对话的方式,我们的搜索正变得更加连贯,正如我们所期望的那样。我们会和人交流,这对于查找网站解决更复杂的问题或任务来说非常有用。但它常常不够好,因为很多公司,我认为 99.99% 的公司,都还停留在 Elasticsearch 上,因为它运行成本更低、更容易、开箱即用,而且很多公司不愿意花钱或者没有人才来帮助他们将此构建成一个产品,一个可用的 SDK,让他们能够实施并开始为他们工作。最重要的是,复杂搜索不仅仅是一个查询,它涉及多个查询、会话或深度交互,这需要深入地参与搜索。我所说的深入参与是指,想象一下你现在去 Google,输入一个搜索词,你可以对你的搜索结果给出反馈,但你无法做任何事情来进一步调整它,除非你重新开始一个全新的搜索。
Hamza Farooq:在 Perplexity 中,你可以问后续问题,但它的体验也有点断裂,因为你无法像在《钢铁侠》中与 Jarvis 互动那样进行精简。所以想象一下,它具有人性化的一面。让我再给你们展示一个副驾驶系统的例子,比如说。这是我们一直在开发的一个副驾驶系统的例子。
Demetrios:这里有个问题,实际上有两个非常好的问题提出来了,所以在我深入讲解之前,我要打断一下。Carlos 问了一个很酷的问题,关于停机时间?这些 LLM 服务涉及到停机时间怎么办?
Hamza Farooq:我认为停机时间……这是个非常好的问题。如果你有一个运行在 ChatGPT 上的生产级系统,你会在五天内意识到你不能在 ChatGPT 上运行生产系统,你需要自己托管。然后你开始使用 Hugging Face,然后你意识到 Hugging Face 也会宕机。所以你基本上会去 Bedrock,或者去 AWS 或 GCP 在那里托管你的 LLM。所以本质上,用演示来展示“天哪,它运行得真好”很有趣。但如果你的服务水平协议(SLA)要求 99.9% 的正常运行时间,你必须在具有冗余的架构中部署它,以确保它持续运行。最终的解决方案是为其提供专门的支持。
Hamza Farooq:我认为可以通过 Azure OpenAI,但我认为即使是 Azure OpenAI,在 OpenAI 出问题的时候也会有点... 受影响。
Demetrios:好一些,但肯定不是 100%。
Hamza Farooq:我能举个例子吗?最近我们遇到了一个新问题,令牌速度。它会随日期和一天中的时间变化。所以令牌生成速度。我们还发现另一件事,InstructGPT。Instruct 很好,非常棒。但它会泄露数据。即使在 RAG 解决方案中,它也会泄露数据。所以你不得不回到 16k。
Hamza Farooq:它非常慢。所以生成一个答案可能需要长达三分钟。
Demetrios:是啊。所以这几乎是个两难境地。你更喜欢数据泄露还是速度慢?各位,总会有权衡的。总会有权衡。Mike 在聊天区提出了另一个问题。Carlos,谢谢你提出的好问题。Mike 问,他猜想你可以用类似“如果可能的话,我更喜欢意大利餐厅”这样的条件来修改搜索行程。我当时在想这个问题。所以补充 Mike 的话,这几乎就像你的旅行或行程的每个部分都可以预设条件,比如“哦,我喜欢夜间航班”,或者“我喜欢坐在靠走廊的座位”,而且“我不想支付超过某个金额”,但如果“我们十二月任何时候去都行”,等等等等。
Demetrios:然后一旦到了目的地,我喜欢住在城市这个区域的酒店。我想你明白我的意思,但每个偏好列表都可以变得非常详细。你可以用你刚才提到的方式为所有这些不同的搜索设置偏好。
Hamza Farooq:当然。我认为这是个很棒的点。我告诉你一个我们一直在密切合作的公司。它叫做 Tripsby 或者 Tripspy AI,我们实际上帮助他们构建了一个生态系统,你可以在其中获得带有私人发现功能的个性化推荐。这几乎就是你刚才说的所有内容。我偏好这个时间,我偏好这个,我偏好这个。它接受音频和文本输入,你可以通过 WhatsApp 或其他方式与之交谈。
Hamza Farooq:他们仍然处于 Beta 模式,并选择性地开放,但实际上,他们已经构建了这个系统,他们加入了更多的个性化元素,而且由于数据库都是一样的,是 Amadeus(如果我没读错的话,他们提供酒店、餐厅或可用性的数据库),然后你可以在此基础上构建应用。所以他们已经开始构建一些东西了,而且更符合用户的期望。想象一下,你正在尝试预订酒店,同时你也会收到来自《纽约时报》的文章,告诉你为什么这个酒店很棒,或者你关注的某个博主写的东西也出现在你的结果中。这就是我们一直在赋能的力量,你不再需要等待,也不再需要仅仅依赖公司自己的网站。你可以利用整个互联网来组织信息。
Demetrios:是的。
Demetrios:以及你的能力。我认为另一个例子就是我喜欢看 TikTok 视频,我的 TikTok 推送中会出现一些“你必须知道的亚马逊好物”之类的东西,介绍你可以在亚马逊上买到的各种很酷的东西。如果亚马逊知道我在 TikTok 上喜欢这些内容,它可能在我下次访问亚马逊时就会把它们推荐给我。
Hamza Farooq:是啊,我的意思是,那就是 Cookie 的作用,对吧?是啊。这就像是你谈论某个产品然后它就出现在你面前的阴谋论。
Demetrios:没错。好吧,那么。你展示的这个网站简直不可思议。在我们进入下一部分之前,Carlos 有一个后续问题,是关于这些开源模型的质量以及如何处理,因为看起来 OpenAI 的 GPT-3/4 仍然相当。
Hamza Farooq:目前领先一些,而这正是你必须购买的银弹。所以我们建议,将开源 LLMs 作为备用。这样在某个时候,我知道它会表现不佳,但表现不佳总比整个系统崩溃要好一些。这就是我们一直在做、一直在部署的。我们在构建大规模产品时,基本倾向于在后端构建一个生态系统或备用系统,比如,如果令牌速率不是我们想要的,如果它不工作,耗时过长,我们会自动切换到冗余的开源版本。它确实能工作。例如,即使现在,Perplexity 也正在运行很多基于开源 LLMs 的东西,而不是仅仅是 GPT 的包装。
Demetrios:是的。这让你有更多控制权。所以我不希望跑题太多。我知道我们时间不多了,所以请随意回到主题,讲快一点。
Demetrios:是的。
Hamza Farooq:你能告诉我时间吗?我们进行到哪里了?
Demetrios:嗯,我们还剩下大约六到八分钟。
Hamza Farooq:好的,那么我来讲讲我创办 Traversaal.ai 的一个重要原因。这是一张很棒的幻灯片,展示了大家在各地都在做什么。大家都在做很多不同的事情。他们为每个不同的需求寻找不同的产品。你可以选择一样东西。想象一下,这样做的问题是你实际上必须仔细考虑你要选择的每一个产品,因为你必须一丝不苟地研究,哦,为了这个我需要这个。为了这个我需要这个。为了这个我需要这个。
Hamza Farooq:我们所做的就是创建了一个平台,将所有东西整合到一个屋檐下。我给你们看一个非常简单的例子。这是我们的网站。我们称自己是“一个平台,多个应用”。在这个平台里,我们基本上支持任何数据格式,任何你需要的集成,比如任何应用。我放大一点。如果你需要领域特定搜索。所以基本上,如果你想整合互联网搜索以及市场上的任何 LLM 和向量数据库,你在这里可以看到 Qdrant。
Hamza Farooq:需要什么样的应用呢?你需要聊天机器人吗?你需要知识检索系统吗?你需要推荐系统吗?你需要一个职位匹配工具或一个副驾驶吗?所以,如果你构建了一个一站式商店,客户来的时候,他们通常不会说我们需要 Pinecone 或者我们需要 Qdrant 或者我们需要本地 Llama,他们会说,这是你们要解决的问题。而我们公司秉持的是解决问题的理念,我们能搞定。你们无需为了两份人的成本而雇佣三名 ML 工程师、两名 NLP 研究科学家以及这里的其他三人。我们可以进行完整的端到端实施。因为我们已经构建了 80% 的产品,剩下的 20% 可以根据您的需求进行调整。这是一件非常强大的事情,一旦他们开始信任我们,而让他们信任我的最好方式是,他们可以来我的 Maven 课程,他们可以来我斯坦福的课程,他们可以来我加州大学洛杉矶分校的课程,或者他们可以。
Demetrios:收听这期播客等等。
Hamza Farooq:这为我们一直在为他们所做的工作增加了可信度。抱歉,停止分享我们一直在为他们所做的工作,基本上就是朝着这个方向发展,我们可以非常快速地完成这些事情,而且我们倾向于更新。我想只讲一页幻灯片。归根结底,这是最重要的一页。现在。所有工程师和产品经理都在想,哦,LLM 和 Gen AI,这个那个。我认为我们很少谈论的是 UX(用户体验)。我刚刚在 Tripadvisor 上给你展示了一个用户体验的例子。
Hamza Farooq:解释起来很简单,对吧?就像你会说,哦,我知道怎么用它,而且你已经能找出它的问题了,这意味着他们在用户体验方面考虑得非常周全。我预测一件主要的事情。能够从事 Gen AI 产品的 UX 人员将比产品经理和技术人员更加稀缺,因为技术人员可以跟随并理解代码,他们可以观看视频;业务人员正在学习 GPT 提示等。但是对于 UX 人员来说,除了一个 Chat GPT 界面之外,几乎没有教学指南。所以这种用户体验,他们将变得,他们的价值将与黄金等价。不是比特币,是黄金。这基本上是因为他们必须构建用户体验,因为我们现在还无法想象它会是什么样子。
Demetrios:是啊,我百分之百同意这一点,真的。
Demetrios:
Demetrios:我。想象你可能看过 Notion 的 Linus Lee 的一些工作,以及 Notion 如何尝试加入点击功能。你无需总是与 LLM 聊天,只需点击并指出你想做的事情。我注意到你分享的演示就非常像这样,比如你高亮标记你喜欢做的事情,并缩小搜索范围,在无需输入“我喜欢意大利菜并且不喜欢肉丸”之类的文字的情况下,为其提供更多上下文。
Hamza Farooq:是的。
Demetrios:所以那太不可思议了。
Demetrios:太棒了,老兄。
Demetrios:所以对于任何想继续与你交流的人,你可以在 LinkedIn 上找到你。我们会留下你的 LinkedIn 链接。你还在 Maven 上授课。你在斯坦福、加州大学洛杉矶分校都有教学,这些都很有趣。能请到你来这里真是太好了。
Demetrios:我非常兴奋,希望你能再次回来,因为看到你在构建什么以及如何构建,真是太棒了。
Hamza Farooq:太棒了。我认为,再次感谢您的邀请,我很荣幸,也谢谢您让我。
Demetrios:谈谈 UX 部分。
Hamza Farooq:谈了很多,因为当你去接触客户时,你会意识到你需要用户体验以及所有那些不同的东西。
Demetrios:哦,是啊,真是这样。确实是这样。那么,所有在外面观看的人。
Demetrios:谢谢你们的参与,我们下次再见。下周我们还会有一期。
Demetrios:向量讲座节目,很高兴再次邀请到你们。
Demetrios:如果你想加入我们,请联系我。
Demetrios:你想来做演讲吗?大家再见。祝你们有个美好的一天。
Hamza Farooq:谢谢。再见。