EvalSense

Comprehensive guidance and tooling for evaluating large language models (LLMs)

Python library for systematic evaluation of large language models on open-ended generation tasks.

Interactive guide helping you select the right evaluation methods for your use-case.

Extensive catalogue of evaluation methods, including descriptions, supported tasks, and more.