🏠 Início
Avaliações
📊 Todos os Benchmarks 🦖 Dinossauro v1 🦖 Dinossauro v2 ✅ Aplicações To-Do List 🎨 Páginas Livres Criativas 🎯 FSACB - Showcase Definitivo 🌍 Benchmark de Tradução
Modelos
🏆 Top 10 Modelos 🆓 Modelos Gratuitos 📋 Todos os Modelos ⚙️ Kilo Code
Recursos
💬 Biblioteca de Prompts 📖 Glossário de IA 🔗 Links Úteis

Glossário IA

O dicionário completo da Inteligência Artificial

242
categorias
3.306
subcategorias
39.932
termos
📖
termos

MMLU (Massive Multitask Language Understanding)

Benchmark abrangente que avalia o conhecimento e a resolução de problemas de LLMs em 57 tópicos, desde matemática até história, usando um formato de perguntas de múltipla escolha para medir a compreensão geral e as capacidades de raciocínio.

📖
termos

HELM (Holistic Evaluation of Language Models)

Framework de avaliação sistemática que mede LLMs em várias dimensões, incluindo precisão, robustez, equidade, viés, eficiência e impacto ambiental, fornecendo uma visão completa do desempenho do modelo.

📖
termos

GLUE (General Language Understanding Evaluation)

Conjunto de 9 tarefas diferentes de PNL projetadas para avaliar a compreensão geral da linguagem, incluindo classificação de sentimentos, inferência linguística e similaridade semântica para medir as capacidades de compreensão multidimensionais.

📖
termos

SuperGLUE

Versão aprimorada do GLUE que propõe tarefas mais complexas que exigem raciocínio avançado, projetada especificamente para avaliar LLMs modernos e evitar o desempenho de teto alcançado com o benchmark GLUE original.

📖
termos

BIG-bench (Beyond the Imitation Game Benchmark)

Coleção colaborativa de mais de 200 tarefas de avaliação criadas por pesquisadores para testar os limites dos LLMs, incluindo tarefas de raciocínio, matemática e compreensão de linguagem natural complexas.

📖
termos

TruthfulQA

Benchmark projetado para medir a tendência dos LLMs de gerar respostas verdadeiras em vez de repetir informações falsas frequentemente encontradas nos dados de treinamento, avaliando a capacidade de distinguir verdade de falsidade.

📖
termos

HumanEval

Conjunto de 164 problemas de programação Python criados pela OpenAI para avaliar a capacidade dos LLMs de gerar código funcional, medindo a compreensão sintática e algorítmica através de testes unitários automatizados.

📖
termos

MATH (Mathematical Reasoning)

Dataset de problemas matemáticos de nível de competição que avalia as capacidades de raciocínio matemático dos LLMs, incluindo álgebra, geometria e teoria dos números para medir a resolução de problemas complexos.

📖
termos

HellaSwag

Teste de benchmark que avalia a compreensão do senso comum e o raciocínio sobre cenários da vida cotidiana, pedindo aos modelos que escolham a conclusão de frase mais plausível entre opções contextualmente coerentes.

📖
termos

ARC (AI2 Reasoning Challenge)

Conjunto de perguntas de ciências de nível primário e secundário que exigem raciocínio complexo, projetado para avaliar as capacidades de inferência e compreensão científica dos LLMs com perguntas de múltipla escolha difíceis.

📖
termos

SQuAD (Stanford Question Answering Dataset)

Dataset de referência para a avaliação de sistemas de perguntas e respostas extrativas, contendo mais de 100.000 perguntas feitas por humanos sobre artigos da Wikipedia, medindo a capacidade de localizar informações precisas em um texto.

📖
termos

Winogrande

Dataset de resolução de ambiguidade anafórica em larga escala usando esquemas Winograd, testando a compreensão do senso comum através de frases onde a resolução correta depende de conhecimentos do mundo real.

📖
termos

WinoBias

Dataset projetado para avaliar os vieses de gênero em LLMs, usando frases com estereótipos ocupacionais para medir se os modelos favorecem implicitamente certos gêneros em contextos profissionais específicos.

📖
termos

BBH (Big-Bench Hard)

Subconjunto de 23 tarefas particularmente difíceis do BIG-bench selecionadas porque representam os maiores desafios para os LLMs atuais, exigindo capacidades de raciocínio multi-etapas e uma compreensão profunda.

📖
termos

MMLU-Pro

Versão estendida do MMLU que inclui perguntas mais complexas que exigem raciocínio em várias etapas, projetada para diferenciar melhor o desempenho de modelos avançados com problemas que exigem uma compreensão aprofundada e deduções lógicas.

📖
termos

GSM8K

Dataset de 8.5 mil problemas matemáticos textuais de nível escolar que exigem raciocínio multi-etapas, avaliando a capacidade dos LLMs de compreender problemas em linguagem natural e gerar soluções matemáticas coerentes.

📖
termos

Avaliação de Cadeia de Pensamento

Metodologia de avaliação que mede a capacidade dos LLMs de gerar raciocínios passo a passo para resolver problemas complexos, avaliando não apenas a resposta final, mas também a qualidade e a coerência do processo de raciocínio.

🔍

Nenhum resultado encontrado