谷歌推出开源框架LMEval 标准化AI模型评测流程

科技媒体The Decoder报道,谷歌于5月26日发布开源框架LMEval,旨在解决大语言模型和多模态模型评测标准不统一的难题。该框架通过标准化基准设置,简化了跨模型比较流程,并借助LiteLLM兼容Google、OpenAI等主流平台的接口差异,实现无缝测试。

LMEval支持文本、图像及代码等多领域评测,可识别模型规避风险内容的策略,并引入Giskard安全评分量化防护能力。测试数据存储于本地加密数据库,兼顾隐私与效率。其增量评估和多线程引擎设计显著降低计算成本,而LMEvalboard可视化工具则通过雷达图直观展示模型性能差异,助力开发者精准优化。

上一篇:

下一篇: