O que é IA Generativa? Um Glossário de Termos Essenciais

Nos últimos anos, a Inteligência Artificial Generativa tem se tornado um dos avanços tecnológicos mais comentados. Capaz de criar texto, imagens, áudio e até vídeos de forma autônoma, essa tecnologia impacta as mais diversas indústrias. Para compreender como a IA generativa funciona, é essencial conhecer os principais conceitos que a impulsionam.

LLM (Large Language Model)

LLM, ou Large Language Model, refere-se a um modelo de linguagem de grande escala, treinado em vastos conjuntos de dados textuais. Esses modelos, como GPT, Claude ou Llama, são compostos de bilhões ou até trilhões de parâmetros, o que lhes confere uma capacidade impressionante de gerar texto coerente, traduzir linguagens, responder a perguntas complexas e muito mais. O tamanho do modelo é um fator crucial para sua eficácia, pois modelos maiores tendem a capturar mais nuances da linguagem e gerar saídas mais sofisticadas.

Atualmente, quando falamos de IA generativa, usualmente estamos nos referindo ao poder de geração de texto desses LLMs, que são fundação para aplicações como o Chat GPT.

O LLM é o Transformer altamente treinado, que compreende e gera séries de tokens sofisticadas.

Transformer

O Transformer é a arquitetura de rede neural que revolucionou o campo do processamento de linguagem natural (NLP). Introduzido no artigo “Attention is All You Need” de 2017, ele é a base para os grandes modelos de linguagem, como GPT, BERT e outros. Ao contrário de arquiteturas anteriores, como redes recorrentes (RNNs), o Transformer utiliza o mecanismo de atenção, que o permite capturar dependências de longo prazo, ou seja, considerar o conteúdo relevante de qualquer parte do texto. Sobretudo, esta arquitetura permite processamento paralelo, o que torna possível treinar modelos tão grandes em um “curto” período.

Token

No contexto de LLMs, um token é uma unidade básica de texto. Pode ser uma palavra, parte de uma palavra ou até mesmo um símbolo, dependendo de como o modelo é treinado. A geração de texto pelo modelo ocorre token por token, com a previsão de qual será o próximo baseada nos anteriores.

Embedding

Um embedding, no contexto de processamento de linguagem natural, é a representação numérica do token em um espaço vetorial, em outras palavras, um embedding é um vetor. O que significa dizer que os embeddings são responsáveis por capturar relações sintáticas e semânticas entre os tokens. Por exemplo, os embeddings das palavras “rei” e “príncipe” estão mais próximos do que os embeddings de “rei” e “Python”, permitindo assim, a geração de texto contextualizado e coeso.

Inferência

Na IA generativa, a inferência refere-se ao processo de utilizar um modelo treinado para prever o próximo token em uma sequência de texto. Durante a inferência, o modelo analisa o contexto fornecido pelos tokens anteriores e gera previsões baseadas nos padrões aprendidos durante o treinamento. A qualidade dessa inferência determina a fluidez, coerência e relevância do texto gerado. Para tarefas como escrita automática ou diálogos, essa capacidade inferencial é o núcleo do funcionamento dos modelos de linguagem.

Janela de Contexto (Context Window)

A janela de contexto é a quantidade de texto ou tokens que um modelo de linguagem pode processar de uma vez. A janela de contexto define o número de tokens que podem ser considerados simultaneamente para gerar uma resposta. Se o contexto for muito longo e exceder o limite da janela, o modelo não poderá levar em conta a totalidade da informação passada. A escolha de uma janela de contexto adequada é essencial para garantir que o modelo tenha informações suficientes para tomar decisões precisas.

Habilidades Emergentes

As habilidades emergentes referem-se a comportamentos ou capacidades inesperadas que os modelos de IA exibem à medida que se tornam maiores e mais complexos. Essas habilidades não foram explicitamente programadas, mas emergem naturalmente durante o processo de treinamento em grandes volumes de dados. Um exemplo é a capacidade de resolver problemas matemáticos complexos ou gerar código em linguagens de programação específicas. Esses fenômenos demonstram o poder dos LLMs para aprender padrões além das intenções dos desenvolvedores.

Treinamento

O treinamento de um modelo envolve ajustar seus parâmetros por meio da exposição a grandes quantidades de dados. Para modelos de linguagem generativa, o treinamento consiste em alimentar o modelo com vastos conjuntos de dados de texto, permitindo que ele aprenda padrões e contextos. Durante o processo, o modelo passa por muitas iterações, ajustando seus pesos e viéses com base em erros anteriores, para melhorar sua capacidade de prever o próximo token em uma sequência de texto.

Fine-tuning

O fine-tuning é o processo de ajustar um modelo já treinado para tarefas específicas. Por exemplo, após o treinamento geral em um vasto conjunto de dados, um modelo pode ser refinado para tarefas como geração de e-mails ou atendimento ao cliente em um domínio específico. O fine-tuning permite que um modelo genérico seja especializado para contextos mais específicos, sem precisar começar o treinamento do zero.

Prompts

Um prompt é a entrada inicial fornecida a um modelo de linguagem generativa para gerar uma resposta. É a “semente” que desencadeia o processo de geração de texto. O design do prompt é crucial para obter resultados satisfatórios. Dependendo de como o prompt é estruturado, o modelo pode produzir respostas muito diferentes.

Viés (Bias)

No contexto dos modelos de IA, o termo bias refere-se a um parâmetro que influencia a forma como o modelo aprende e generaliza. Esse tipo de bias, na matemática das redes neurais, ajuda a ajustar o modelo para que ele possa capturar melhor os padrões nos dados de treinamento e alcançar maior precisão nas previsões. Essencialmente, ele atua como uma constante que permite ao modelo se adaptar mais facilmente a um conjunto de dados, tornando a aprendizagem mais eficiente e flexível. Esse tipo de parâmetro bias não está diretamente relacionado a influências culturais ou sociais, mas ao ajuste de pesos para otimizar a capacidade do modelo em realizar tarefas preditivas com menor erro.

No entanto, o termo bias também refere-se ao viés presente nos dados e, por consequência, nas respostas geradas pelo modelo. Esse viés surge dos padrões contidos nos dados de treinamento, que podem refletir preconceitos e estereótipos humanos. Quando exposto a dados enviesados, um modelo de IA pode gerar saídas que perpetuam ou até amplificam preconceitos, resultando em textos racistas, sexistas ou de outra forma prejudiciais. Isso ocorre porque o modelo aprende com grandes quantidades de dados reais, que podem carregar vieses culturais, históricos e sociais. Combater esses vieses exige um trabalho cuidadoso de seleção e tratamento dos dados, além de ajustes no próprio processo de treinamento para minimizar outputs indesejáveis.

Alucinação (Hallucination)

No contexto de modelos de IA generativa, alucinação refere-se ao fenômeno em que o modelo gera informações falsas, incoerentes ou não fundamentadas nos dados fornecidos. Isso ocorre porque os LLMs não têm acesso direto a fatos ou à realidade durante o processo de geração; eles simplesmente seguem padrões aprendidos no treinamento para prever o próximo token.

Por exemplo, um modelo pode inventar nomes de livros, criar citações inexistentes ou afirmar informações factualmente incorretas como verdadeiras. Alucinações podem ser problemáticas, especialmente em aplicações críticas como saúde, direito, educação, ou seguro onde a precisão é essencial.

Minimizar alucinações exige melhorias contínuas nos processos de treinamento, maior supervisão humana e, em muitos casos, a integração com sistemas que validem os outputs gerados pelo modelo. O design de prompts claros e específicos também ajuda a mitigar esse comportamento.

Guard Rails

Guard rails referem-se a mecanismos implementados para limitar o comportamento dos modelos de IA generativa, garantindo que suas respostas sejam seguras, éticas e alinhadas aos objetivos pretendidos. Esses mecanismos são projetados para prevenir o uso indevido, reduzir outputs prejudiciais, e proteger contra alucinações ou vieses problemáticos.

Os guard rails podem ser implementados em várias formas, incluindo:

Filtros de conteúdo: Bloqueiam respostas inadequadas, como discurso de ódio ou informações perigosas.
Validação de saídas: Integração com sistemas externos para verificar fatos ou assegurar a precisão de respostas.
Limitação de contexto: Restringe o escopo do modelo para tópicos relevantes à aplicação.
Instruções específicas no treinamento: Ajustam os dados de treinamento e o fine-tuning para moldar o comportamento do modelo.

Um exemplo comum de guard rail é a configuração de um modelo para evitar responder perguntas fora de um domínio específico, como o contexto de seguros que estamos inseridos.

"Os limites de minha linguagem são os limites de meu mundo."

— Ludwig Wittgenstein

Dominar o vocabulário técnico da área prepara o terreno para estudos mais aprofundados.

O intuito desse texto é se tornar um glossário do time da bem-te-vi, compartilhado com a comunidade. Sinta-se a vontade para sugerir adições e edições.

Referência

Bouchard, Louis-Francois, and Louie Peters. Building LLMs for Production. Towards AI, 2024.

Blog