Benchmarks e Avaliação

📖

termos

MMLU (Massive Multitask Language Understanding)

Benchmark abrangente que avalia o conhecimento e a resolução de problemas de LLMs em 57 tópicos, desde matemática até história, usando um formato de perguntas de múltipla escolha para medir a compreensão geral e as capacidades de raciocínio.

📖

termos

HELM (Holistic Evaluation of Language Models)

Framework de avaliação sistemática que mede LLMs em várias dimensões, incluindo precisão, robustez, equidade, viés, eficiência e impacto ambiental, fornecendo uma visão completa do desempenho do modelo.

📖

termos

GLUE (General Language Understanding Evaluation)

Conjunto de 9 tarefas diferentes de PNL projetadas para avaliar a compreensão geral da linguagem, incluindo classificação de sentimentos, inferência linguística e similaridade semântica para medir as capacidades de compreensão multidimensionais.

📖

termos

SuperGLUE

Versão aprimorada do GLUE que propõe tarefas mais complexas que exigem raciocínio avançado, projetada especificamente para avaliar LLMs modernos e evitar o desempenho de teto alcançado com o benchmark GLUE original.

📖

termos

BIG-bench (Beyond the Imitation Game Benchmark)

Coleção colaborativa de mais de 200 tarefas de avaliação criadas por pesquisadores para testar os limites dos LLMs, incluindo tarefas de raciocínio, matemática e compreensão de linguagem natural complexas.

📖

termos

TruthfulQA

Benchmark projetado para medir a tendência dos LLMs de gerar respostas verdadeiras em vez de repetir informações falsas frequentemente encontradas nos dados de treinamento, avaliando a capacidade de distinguir verdade de falsidade.

📖

termos

HumanEval

Conjunto de 164 problemas de programação Python criados pela OpenAI para avaliar a capacidade dos LLMs de gerar código funcional, medindo a compreensão sintática e algorítmica através de testes unitários automatizados.

📖

termos

MATH (Mathematical Reasoning)

Dataset de problemas matemáticos de nível de competição que avalia as capacidades de raciocínio matemático dos LLMs, incluindo álgebra, geometria e teoria dos números para medir a resolução de problemas complexos.

📖

termos

HellaSwag

Teste de benchmark que avalia a compreensão do senso comum e o raciocínio sobre cenários da vida cotidiana, pedindo aos modelos que escolham a conclusão de frase mais plausível entre opções contextualmente coerentes.

📖

termos

ARC (AI2 Reasoning Challenge)

Conjunto de perguntas de ciências de nível primário e secundário que exigem raciocínio complexo, projetado para avaliar as capacidades de inferência e compreensão científica dos LLMs com perguntas de múltipla escolha difíceis.

📖

termos

SQuAD (Stanford Question Answering Dataset)

Dataset de referência para a avaliação de sistemas de perguntas e respostas extrativas, contendo mais de 100.000 perguntas feitas por humanos sobre artigos da Wikipedia, medindo a capacidade de localizar informações precisas em um texto.

📖

termos

Winogrande

Dataset de resolução de ambiguidade anafórica em larga escala usando esquemas Winograd, testando a compreensão do senso comum através de frases onde a resolução correta depende de conhecimentos do mundo real.

📖

termos

WinoBias

Dataset projetado para avaliar os vieses de gênero em LLMs, usando frases com estereótipos ocupacionais para medir se os modelos favorecem implicitamente certos gêneros em contextos profissionais específicos.

📖

termos

BBH (Big-Bench Hard)

Subconjunto de 23 tarefas particularmente difíceis do BIG-bench selecionadas porque representam os maiores desafios para os LLMs atuais, exigindo capacidades de raciocínio multi-etapas e uma compreensão profunda.

📖

termos

MMLU-Pro

Versão estendida do MMLU que inclui perguntas mais complexas que exigem raciocínio em várias etapas, projetada para diferenciar melhor o desempenho de modelos avançados com problemas que exigem uma compreensão aprofundada e deduções lógicas.

📖

termos

GSM8K

Dataset de 8.5 mil problemas matemáticos textuais de nível escolar que exigem raciocínio multi-etapas, avaliando a capacidade dos LLMs de compreender problemas em linguagem natural e gerar soluções matemáticas coerentes.

📖

termos

Avaliação de Cadeia de Pensamento

Metodologia de avaliação que mede a capacidade dos LLMs de gerar raciocínios passo a passo para resolver problemas complexos, avaliando não apenas a resposta final, mas também a qualidade e a coerência do processo de raciocínio.

Glossário IA

MMLU (Massive Multitask Language Understanding)

HELM (Holistic Evaluation of Language Models)

GLUE (General Language Understanding Evaluation)

SuperGLUE

BIG-bench (Beyond the Imitation Game Benchmark)

TruthfulQA

HumanEval

MATH (Mathematical Reasoning)

HellaSwag

ARC (AI2 Reasoning Challenge)

SQuAD (Stanford Question Answering Dataset)

Winogrande

WinoBias

BBH (Big-Bench Hard)

MMLU-Pro

GSM8K

Avaliação de Cadeia de Pensamento

Nenhum resultado encontrado