作者:来自 Elastic Vinay Chandrasekhar•Andres Rodriguez
我们很高兴地宣布 Azure OpenAI 集成现已全面上市,它提供了对 Azure OpenAI 服务性能和使用的全面可观察性!另请参阅本博客的第 2 部分
虽然我们已经提供了对 LLM 环境的可视性一段时间了,但添加 Azure OpenAI 集成后,你可以更清楚地了解基于 Azure OpenAI 的应用程序的性能和使用情况,从而进一步增强 LLM 可观察性。
Azure OpenAI 集成利用 Elastic Agent 的 Azure 集成功能来收集日志(使用 Azure EventHub)和指标(使用 Azure Monitor),以深入了解 Azure OpenAI 服务的使用情况。
该集成包括一个开箱即用的仪表板,其中总结了服务使用情况的最相关方面,包括请求和错误率、token 使用情况和 chat completion 延迟。
创建警报和 SLOs 以监控 Azure OpenAI
与所有其他 Elastic 集成一样,所有日志和指标信息均可在 Elastic Observability 的每项功能中充分使用,包括 SLOs、警报、自定义仪表板、深入日志探索等。
例如,要创建警报以监控 token 使用情况,请从 Azure OpenAI 数据流上的自定义阈值规则开始,并设置聚合条件以跟踪和报告超过特定阈值的 token 使用违规行为。
发生违规时,该警报通知中链接的 “Alert Details” 视图提供有关违规的丰富背景信息,例如违规开始的时间、当前状态以及此类违规的任何历史记录,从而实现快速分类、调查和根本原因分析。
同样地,要创建一个用于监控 Azure OpenAI 调用错误率的 SLO,首先使用自定义查询 SLI 定义,将符合条件的事件定义为所有响应中状态码在 400 或以上的结果。然后,通过设定一个合适的 SLO 目标,例如 99%,开始在 7 天、30 天或 90 天内监控 Azure OpenAI 的错误率 SLO,以跟踪性能下降并在问题普遍化之前采取措施。
请参阅用户指南以了解更多信息并开始使用!
原文:LLM Observability: Azure OpenAI — Elastic Observability Labs