谷歌推出开源框架LMEval 标准化AI模型评测流程

科技媒体The Decoder报道，谷歌于5月26日发布开源框架LMEval，旨在解决大语言模型和多模态模型评测标准不统一的难题。该框架通过标准化基准设置，简化了跨模型比较流程，并借助LiteLLM兼容Google、OpenAI等主流平台的接口差异，实现无缝测试。

LMEval支持文本、图像及代码等多领域评测，可识别模型规避风险内容的策略，并引入Giskard安全评分量化防护能力。测试数据存储于本地加密数据库，兼顾隐私与效率。其增量评估和多线程引擎设计显著降低计算成本，而LMEvalboard可视化工具则通过雷达图直观展示模型性能差异，助力开发者精准优化。