评估和benchmark
学习目标
学习完本部分,使学习者能够:
- 列举 主要的llm benchmark;
- 通过open llm leaderboard、HELM、Chatbot Arena 比较 不同LLM的能力;
- 能够根据选型目的 使用 对应的评估指标对不同的llm进行评估。
学习活动
观看视频:吴恩达《LLMOps的自动化测试|Automated Testing for LLMOps》中英字幕
- 视频时长:1小时
- 视频内容简介:将学习如何创建一个持续集成(CI)工作流程,以便在每次更改时评估您的LLM应用程序,以实现更快、更安全、更高效的应用程序开发。 在使用生成式人工智能构建应用程序时,模型的行为比传统软件更不可预测。这就是为什么系统化测试可以在节省开发时间和成本方面发挥更大的作用。持续集成是LLMOps的一个重要组成部分,它是在开发过程中对软件进行小的更改并进行彻底测试,早期捕捉问题以便更容易修复的实践。通过稳健的自动化测试管道,您将能够在错误累积之前隔离出错误,从而更容易且成本较低地进行修复。自动化测试使您的团队能够专注于构建新功能,以便更快地迭代和发布产品。 完成本课程后,将能够:
- 编写稳健的LLM评估,以解决常见问题,如幻觉、数据漂移以及有害或冒犯性输出。
- 构建一个持续集成(CI)工作流程,以自动评估对应用程序的每次更改。
- 协调您的持续集成工作流程,在开发的不同阶段运行特定的评估。
- 视频来源:Deeplearning.ai课程LLMOps的自动化测试