Inteligência Artificial Simbólica: Processamento de Linguagem Natural
COLEÇÃO ESCOLA DE LÓGICA MATEMÁTICA
VOLUME 86

INTELIGÊNCIA ARTIFICIAL SIMBÓLICA

Processamento de Linguagem Natural

Uma abordagem sistemática dos fundamentos matemáticos e lógicos da inteligência artificial simbólica, explorando representação do conhecimento, gramáticas formais e algoritmos de processamento de linguagem natural.

COLEÇÃO ESCOLA DE LÓGICA MATEMÁTICA • VOLUME 86

INTELIGÊNCIA ARTIFICIAL SIMBÓLICA

Processamento de Linguagem Natural

Autor: João Carlos Moreira

Doutor em Matemática

Universidade Federal de Uberlândia

2025

Coleção Escola de Lógica Matemática • Volume 86

CONTEÚDO

Capítulo 1: Fundamentos da Inteligência Artificial Simbólica 4

Capítulo 2: Representação do Conhecimento 8

Capítulo 3: Gramáticas Formais e Linguagens 12

Capítulo 4: Análise Sintática e Parsing 16

Capítulo 5: Análise Semântica e Interpretação 22

Capítulo 6: Sistemas de Inferência Lógica 28

Capítulo 7: Algoritmos de Processamento Textual 34

Capítulo 8: Aplicações em Linguagem Natural 40

Capítulo 9: Exercícios Resolvidos e Propostos 46

Capítulo 10: Perspectivas e Desenvolvimentos 52

Referências Bibliográficas 54

Coleção Escola de Lógica Matemática • Volume 86
Página 3
Coleção Escola de Lógica Matemática • Volume 86

Capítulo 1: Fundamentos da Inteligência Artificial Simbólica

Origens Históricas e Motivação

A inteligência artificial simbólica emerge como paradigma fundamental que busca representar e manipular conhecimento através de símbolos abstratos e regras lógicas explícitas. Esta abordagem, que dominou as primeiras décadas da pesquisa em inteligência artificial, fundamenta-se na premissa de que processos cognitivos humanos podem ser formalizados mediante sistemas de manipulação simbólica governados por regras precisas e verificáveis.

Diferentemente das abordagens conexionistas que dominam parte da inteligência artificial contemporânea, a inteligência artificial simbólica oferece transparência interpretativa crucial para aplicações onde explicabilidade e verificabilidade são requisitos essenciais. Esta característica torna-a especialmente relevante em domínios como sistemas médicos de apoio ao diagnóstico, assistentes jurídicos automatizados e sistemas de tomada de decisão em infraestruturas críticas.

O processamento de linguagem natural representa uma das aplicações mais desafiadoras e promissoras da inteligência artificial simbólica, exigindo integração sofisticada de conhecimento linguístico, lógico e contextual. Esta disciplina estabelece pontes fundamentais entre capacidades comunicativas humanas e processamento computacional, viabilizando interfaces homem-máquina cada vez mais naturais e eficazes.

Inteligência Artificial Simbólica: Processamento de Linguagem Natural
Página 4
Inteligência Artificial Simbólica: Processamento de Linguagem Natural

Paradigmas da Inteligência Artificial

A inteligência artificial desenvolveu-se historicamente através de dois paradigmas principais que oferecem perspectivas complementares sobre cognição e inteligência. O paradigma simbólico postula que inteligência emerge da manipulação estruturada de representações abstratas através de regras explícitas, enquanto o paradigma conexionista propõe que comportamento inteligente surge de redes de unidades simples que aprendem padrões através de ajustes graduais de conexões.

O paradigma simbólico, fundamentado em lógica matemática e teoria da computação, caracteriza-se pela representação explícita de conhecimento em estruturas como regras de produção, redes semânticas, frames e ontologias formais. Esta abordagem permite raciocínio transparente onde cada passo inferencial pode ser inspecionado, validado e explicado, propriedade fundamental para sistemas que exigem auditabilidade e conformidade regulatória.

Sistemas híbridos contemporâneos buscam integrar vantagens de ambos os paradigmas, utilizando aprendizado conexionista para extração de padrões em dados massivos enquanto empregam representações simbólicas para raciocínio de alto nível e explicação de decisões. Esta síntese representa direção promissora para inteligência artificial do futuro, combinando robustez estatística com transparência interpretativa.

Exemplo Comparativo

Abordagem Simbólica para Classificação:

• Regra 1: SE temperatura > 38°C E tosse = sim ENTÃO suspeita_gripe = sim

• Regra 2: SE suspeita_gripe = sim E dor_corpo = sim ENTÃO diagnóstico = gripe_provável

• Vantagem: Cada decisão é explicável através das regras aplicadas

Abordagem Conexionista:

• Rede neural treinada com milhares de casos clínicos

• Aprende padrões complexos não explicitamente programados

• Desafio: Dificuldade em explicar por que determinada classificação foi feita

Abordagem Híbrida:

• Rede neural identifica sintomas relevantes em relatos textuais

• Sistema simbólico aplica regras médicas verificadas sobre sintomas extraídos

• Combina precisão estatística com explicabilidade clínica

Alinhamento com BNCC

O estudo de paradigmas de inteligência artificial desenvolve competências de raciocínio lógico-matemático previstas na Base Nacional Comum Curricular, preparando estudantes para compreensão crítica de tecnologias que cada vez mais permeiam sociedade contemporânea.

Inteligência Artificial Simbólica: Processamento de Linguagem Natural
Página 5
Inteligência Artificial Simbólica: Processamento de Linguagem Natural

Linguagem Natural e Cognição

A linguagem natural constitui fenômeno cognitivo complexo que integra aspectos sintáticos, semânticos, pragmáticos e contextuais em estruturas hierárquicas sofisticadas. Compreender e processar linguagem computacionalmente exige formalização matemática rigorosa que capture regularidades estruturais preservando flexibilidade expressiva característica da comunicação humana.

Gramáticas formais proporcionam arcabouço matemático para descrição precisa de estruturas linguísticas, estabelecendo relações entre expressões superficiais e representações abstratas de significado. Estas formalizações, desenvolvidas originalmente por Noam Chomsky nos anos 1950, revolucionaram tanto linguística teórica quanto ciência da computação, fornecendo base matemática sólida para análise algorítmica de linguagens.

Processamento de linguagem natural enfrenta desafios fundamentais como ambiguidade lexical e estrutural, dependências de longo alcance, fenômenos anafóricos e elípticos, e variabilidade dialetal e estilística. Abordar estes desafios requer combinação sofisticada de conhecimento linguístico formal, modelagem probabilística de uso linguístico e mecanismos robustos de resolução de ambiguidades baseados em contexto discursivo.

Desafios em Processamento Linguístico

Ambiguidade Lexical:

• Sentença: "O banco estava lotado esta manhã"

• Possibilidade 1: banco = instituição financeira

• Possibilidade 2: banco = assento

• Resolução requer análise contextual e conhecimento de mundo

Ambiguidade Estrutural:

• Sentença: "Maria viu o homem com o telescópio"

• Estrutura 1: [Maria viu [o homem com o telescópio]]

→ O homem possui o telescópio

• Estrutura 2: [Maria [viu o homem] [com o telescópio]]

→ Maria usou o telescópio para ver

Anáfora e Correferência:

• Sentença: "João encontrou Pedro. Ele estava atrasado."

• "Ele" pode referir-se a João ou Pedro

• Resolução requer raciocínio sobre plausibilidade e contexto

Pragmática e Implicatura:

• Pergunta: "Você tem relógio?"

• Significado literal: questiona posse de relógio

• Significado pragmático comum: solicita informação sobre horário

Estratégia de Análise

Ao abordar problemas de processamento linguístico, decomponha sistematicamente em níveis: morfológico (estrutura de palavras), sintático (estrutura de sentenças), semântico (significado) e pragmático (uso contextual). Esta abordagem em camadas facilita tratamento modular de complexidade linguística.

Inteligência Artificial Simbólica: Processamento de Linguagem Natural
Página 6
Inteligência Artificial Simbólica: Processamento de Linguagem Natural

Aplicações Práticas e Relevância Social

Sistemas de processamento de linguagem natural permeiam cada vez mais aspectos cotidianos da vida moderna, desde assistentes virtuais que facilitam interação com dispositivos tecnológicos até sistemas sofisticados de tradução automática que eliminam barreiras linguísticas em comunicação global. Estas aplicações demonstram maturidade crescente de tecnologias fundamentadas em princípios matemáticos e computacionais estudados neste volume.

Assistentes conversacionais inteligentes, como os encontrados em smartphones e dispositivos domésticos inteligentes, integram reconhecimento de fala, análise sintática e semântica, raciocínio sobre intenções do usuário, e geração de respostas apropriadas. Esta integração complexa exemplifica convergência de múltiplas subáreas de inteligência artificial simbólica operando coordenadamente para proporcionar experiência de usuário fluida e natural.

Aplicações em educação incluem sistemas tutores inteligentes que adaptam conteúdo pedagógico baseando-se em análise automatizada de respostas escritas de estudantes, ferramentas de correção gramatical e estilística que auxiliam desenvolvimento de competências linguísticas, e plataformas de aprendizado de idiomas que proporcionam feedback personalizado sobre produção oral e escrita. Estas tecnologias democratizam acesso a recursos educacionais de qualidade, contribuindo para inclusão e equidade educacional.

Aplicações em Contexto Brasileiro

Sistema de Atendimento Automatizado:

• Empresa brasileira implementa chatbot para suporte técnico

• Entrada: "Meu celular não está carregando direito"

• Análise morfológica: identifica substantivos, verbos, advérbios

• Análise sintática: reconhece estrutura sujeito-predicado

• Análise semântica: mapeia "carregando" → problema_bateria

• Sistema consulta base de conhecimento sobre problemas de bateria

• Gera resposta: "Vou ajudá-lo com problema de carregamento..."

Análise de Sentimento em Redes Sociais:

• Monitoramento de opinião pública sobre políticas públicas

• Tweet: "Adorei a nova ciclovia, cidade ficou mais segura!"

• Sistema identifica: sentimento = positivo, tópico = infraestrutura_urbana

• Agregação de milhares de mensagens gera panorama de opinião

Tradução Automática Português-Libras:

• Sistema converte texto português para Língua Brasileira de Sinais

• Desafio: estruturas gramaticais distintas entre línguas

• Requer análise sintática profunda e reorganização estrutural

• Contribui para acessibilidade de pessoas surdas

Inteligência Artificial Simbólica: Processamento de Linguagem Natural
Página 7
Inteligência Artificial Simbólica: Processamento de Linguagem Natural

Capítulo 2: Representação do Conhecimento

Formalismos de Representação

A representação formal de conhecimento constitui desafio central em inteligência artificial simbólica, exigindo equilibrar expressividade semântica com tratabilidade computacional. Diferentes formalismos foram desenvolvidos para capturar aspectos distintos de conhecimento, desde fatos simples até relações complexas, restrições temporais e conhecimento incerto ou incompleto.

Lógica de primeira ordem fornece linguagem formal poderosa para representação de conhecimento estruturado, permitindo expressar propriedades de objetos, relações entre entidades e regras gerais através de quantificadores universais e existenciais. Esta expressividade, embora matematicamente elegante, apresenta desafios computacionais significativos relacionados à decidibilidade e complexidade de inferência, motivando desenvolvimento de fragmentos restritos com propriedades computacionais mais favoráveis.

Redes semânticas e frames oferecem alternativas estruturadas que organizam conhecimento em hierarquias de conceitos conectados por relações tipificadas, facilitando herança de propriedades e raciocínio por analogia. Estas estruturas, embora menos expressivas que lógica de primeira ordem completa, proporcionam eficiência computacional e intuitividade que as tornam especialmente adequadas para aplicações práticas em sistemas especialistas e bases de conhecimento de larga escala.

Representação em Lógica de Predicados

Base de conhecimento sobre animais:

• ∀x [Ave(x) → TemPenas(x)]

→ "Todo animal que é ave tem penas"

• ∀x [Ave(x) ∧ ¬Exceção(x) → Voa(x)]

→ "Toda ave que não é exceção voa"

• Ave(canário) ∧ ¬Exceção(canário)

→ "Canário é ave e não é exceção"

• Ave(pinguim) ∧ Exceção(pinguim)

→ "Pinguim é ave mas é exceção"

Inferências possíveis:

• De Ave(canário), inferimos TemPenas(canário)

• De Ave(canário) ∧ ¬Exceção(canário), inferimos Voa(canário)

• De Ave(pinguim), inferimos TemPenas(pinguim)

• Mas NÃO podemos inferir Voa(pinguim) pois Exceção(pinguim)

Representação em Rede Semântica:

• Nó: Animal → Nó: Ave (é-um)

• Ave → tem-propriedade → TemPenas

• Ave → Canário (é-um) → tem-propriedade → Canta

• Ave → Pinguim (é-um) → tem-propriedade → Nada

Inteligência Artificial Simbólica: Processamento de Linguagem Natural
Página 8
Inteligência Artificial Simbólica: Processamento de Linguagem Natural

Ontologias e Taxonomias

Ontologias formais especificam vocabulários compartilhados para domínios de conhecimento específicos, definindo conceitos relevantes, suas propriedades e relações mediante axiomas lógicos explícitos. Estas especificações proporcionam base semântica comum que facilita integração de sistemas heterogêneos e permite raciocínio automatizado sobre conhecimento representado, sendo fundamentais para web semântica e sistemas de informação empresariais complexos.

Taxonomias organizam conceitos em hierarquias de generalização baseadas em relações de subsunção, onde conceitos mais específicos herdam propriedades de conceitos mais gerais. Esta organização hierárquica reflete estruturação natural de conhecimento humano e suporta eficientemente raciocínio por herança, classificação automatizada de instâncias e navegação exploratória em espaços conceituais extensos.

Desenvolvimento de ontologias robustas requer metodologias sistemáticas que equilibrem cobertura conceitual, precisão semântica e manutenibilidade a longo prazo. Princípios de design incluem modularidade para facilitar reutilização de componentes, minimalidade para evitar redundância conceitual, e extensibilidade para acomodar evolução natural de domínios de conhecimento sem comprometer compatibilidade retroativa com sistemas legados.

Ontologia para Sistema Médico

Hierarquia de Conceitos:

• EntidadeMédica (raiz)

├─ Doença

│ ├─ DoençaInfecciosa

│ │ ├─ DoençaViral

│ │ │ └─ Gripe

│ │ └─ DoençaBacteriana

│ └─ DoençaCrônica

│ └─ Diabetes

├─ Sintoma

│ ├─ Febre

│ └─ Tosse

└─ Tratamento

├─ Medicamento

└─ Procedimento

Propriedades e Relações:

• causadaPor: Doença × Agente → Boolean

• apresentaSintoma: Doença × Sintoma → Boolean

• trataComMedicamento: Doença × Medicamento → Boolean

Axiomas:

• ∀d,s [apresentaSintoma(d,s) ∧ Febre(s) → medirTemperatura(d)]

• ∀d [DoençaViral(d) → ¬trataComAntibiótico(d)]

Inferência Automatizada:

• Se paciente tem sintoma Febre E Tosse

• Sistema consulta doenças que apresentam estes sintomas

• Retorna Gripe como hipótese diagnóstica plausível

Padrões de Ontologia

Linguagens padrão como OWL (Web Ontology Language) proporcionam sintaxe formal para especificação de ontologias com semântica bem definida baseada em lógica descritiva, permitindo verificação automatizada de consistência e classificação inferencial de conceitos.

Inteligência Artificial Simbólica: Processamento de Linguagem Natural
Página 9
Inteligência Artificial Simbólica: Processamento de Linguagem Natural

Sistemas Baseados em Regras

Sistemas de produção organizam conhecimento mediante conjuntos de regras condição-ação que especificam como sistema deve reagir quando determinadas condições são satisfeitas na base de fatos corrente. Este formalismo, embora conceitualmente simples, demonstra-se surpreendentemente expressivo para capturar conhecimento procedural e heurístico em domínios especializados, sendo amplamente utilizado em sistemas especialistas comerciais.

Mecanismos de inferência forward chaining e backward chaining implementam estratégias complementares para ativação de regras e derivação de conclusões. Forward chaining propaga fatos conhecidos através de regras aplicáveis até atingir objetivo ou esgotar possibilidades, sendo adequado para situações onde múltiplas conclusões podem emergir de dados iniciais. Backward chaining trabalha retrospectivamente a partir de hipótese objetivo, identificando regras que poderiam estabelecê-la e recursivamente tentando satisfazer suas precondições.

Controle de conflitos torna-se necessário quando múltiplas regras satisfazem condições simultaneamente, requerendo estratégias de priorização como especificidade (preferir regras mais específicas), recência (preferir regras sobre fatos mais recentes) ou prioridades explícitas atribuídas por especialistas de domínio. Escolhas estratégicas sobre resolução de conflitos influenciam significativamente comportamento emergente de sistemas complexos baseados em regras.

Sistema Especialista Simples

Base de Regras para Diagnóstico de Problemas Computacionais:

R1: SE computador_não_liga E luz_energia_acesa

ENTÃO problema = fonte_alimentação

R2: SE computador_liga E tela_preta

ENTÃO verificar_cabo_monitor

R3: SE cabo_monitor_ok E tela_preta

ENTÃO problema = placa_vídeo

R4: SE computador_lento E muitos_programas_abertos

ENTÃO sugestão = fechar_programas_desnecessários

Execução com Forward Chaining:

• Fatos iniciais: {computador_liga, tela_preta}

• R2 ativada → adiciona verificar_cabo_monitor à agenda

• Usuário verifica: cabo_monitor_ok adicionado aos fatos

• R3 ativada → conclui problema = placa_vídeo

Execução com Backward Chaining:

• Objetivo: determinar problema

• Sistema tenta provar problema = fonte_alimentação

→ Requer computador_não_liga (falso nos fatos)

• Sistema tenta provar problema = placa_vídeo

→ Requer computador_liga (verdadeiro) E cabo_monitor_ok

→ Sistema questiona usuário sobre cabo

→ Usuário confirma cabo_monitor_ok

→ Conclusão: problema = placa_vídeo

Inteligência Artificial Simbólica: Processamento de Linguagem Natural
Página 10
Inteligência Artificial Simbólica: Processamento de Linguagem Natural

Raciocínio Temporal e Espacial

Representação de conhecimento temporal adiciona dimensão crucial que permite sistemas raciocinarem sobre mudanças, eventos, processos e restrições temporais. Lógicas temporais estendem lógica clássica com operadores modais que expressam propriedades como "sempre", "eventualmente", "até que" e "desde que", permitindo especificação formal de comportamentos dinâmicos e verificação automatizada de propriedades de segurança e vivacidade em sistemas reativos.

Álgebras de intervalos proporcionam formalismos alternativos que representam tempo mediante intervalos com relações qualitativas como "antes", "durante", "sobrepõe" e "encontra". Estes formalismos facilitam raciocínio sobre duração de eventos e sincronização de processos sem requerer representação numérica precisa de instantes temporais, sendo adequados para aplicações onde conhecimento temporal é impreciso ou incompleto.

Raciocínio espacial enfrenta desafios análogos na representação de localização, orientação, forma e relações topológicas entre objetos. Calculi espaciais qualitativos definem conjuntos de relações básicas entre regiões espaciais e regras de composição que permitem inferência sobre configurações espaciais complexas a partir de informações locais parciais, sendo essenciais para robótica autônoma e sistemas de informação geográfica.

Raciocínio sobre Eventos Temporais

Representação de Eventos em Sistema de Agendamento:

• Evento E₁: Reunião de equipe (segunda-feira, 9h-11h)

• Evento E₂: Apresentação projeto (segunda-feira, 10h-12h)

• Evento E₃: Almoço executivo (segunda-feira, 12h-14h)

Relações Temporais (Álgebra de Allen):

• E₁ SOBREPÕE E₂ (há intersecção temporal)

• E₁ ANTES E₃ (E₁ termina antes de E₃ começar: 11h < 12h)

• E₂ ENCONTRA E₃ (E₂ termina quando E₃ começa: 12h = 12h)

Detecção de Conflitos:

• Sistema identifica E₁ SOBREPÕE E₂ → conflito de agendamento

• Análise: intervalo [10h, 11h] comum a ambos eventos

• Sugestão: reagendar E₂ para 11h-13h

→ Nova configuração: E₁ ANTES E₂, E₂ DURANTE E₃

Lógica Temporal Linear:

• □(ReuniãoAgendada → ◇ParticipaçãoConfirmada)

→ "Sempre que reunião é agendada, eventualmente participação é confirmada"

• ◇(Prazo ∧ ○¬ProjetoCompleto) → Atraso

→ "Se prazo chega e no próximo estado projeto não está completo, há atraso"

Aplicações Práticas

Raciocínio temporal é fundamental em planejamento automatizado, verificação de protocolos de comunicação, sistemas de controle em tempo real e análise de narrativas em processamento de linguagem natural, onde ordem temporal de eventos determina interpretação correta de textos.

Inteligência Artificial Simbólica: Processamento de Linguagem Natural
Página 11
Inteligência Artificial Simbólica: Processamento de Linguagem Natural

Capítulo 3: Gramáticas Formais e Linguagens

Teoria de Linguagens Formais

Gramáticas formais proporcionam especificação matemática precisa de linguagens mediante conjuntos finitos de regras de reescrita que geram sistematicamente todas e apenas as expressões pertencentes à linguagem. Esta formalização, desenvolvida pioneiramente por Noam Chomsky nos anos 1950, estabelece fundamentos teóricos tanto para análise linguística quanto para design e implementação de linguagens de programação e compiladores.

A hierarquia de Chomsky classifica gramáticas e linguagens em quatro níveis de complexidade crescente: linguagens regulares, linguagens livres de contexto, linguagens sensíveis ao contexto e linguagens recursivamente enumeráveis. Esta hierarquia corresponde diretamente a classes de autômatos reconhecedores, estabelecendo relações profundas entre gerabilidade mediante gramáticas e reconhecibilidade mediante máquinas computacionais.

Linguagens naturais apresentam fenômenos que transcendem expressividade de gramáticas livres de contexto, incluindo dependências cruzadas, concordâncias de longo alcance e fenômenos de reduplicação. Estas observações motivaram desenvolvimento de formalismos gramaticais mais expressivos como gramáticas de adjunção de árvores e gramáticas categorizadas que capturam regularidades linguísticas complexas preservando tratabilidade computacional adequada para processamento eficiente.

Gramática Livre de Contexto para Português Simplificado

Regras Gramaticais:

• S → SN SV (sentença = sintagma nominal + sintagma verbal)

• SN → Det N (sintagma nominal = determinante + nome)

• SN → N (sintagma nominal = apenas nome)

• SV → V SN (sintagma verbal = verbo + sintagma nominal)

• Det → "o" | "a" | "um" | "uma"

• N → "menino" | "menina" | "bola" | "cachorro"

• V → "viu" | "pegou" | "jogou"

Derivação de Sentença:

• S

• ⇒ SN SV (aplicando S → SN SV)

• ⇒ Det N SV (aplicando SN → Det N)

• ⇒ "o" N SV (aplicando Det → "o")

• ⇒ "o" "menino" SV (aplicando N → "menino")

• ⇒ "o" "menino" V SN (aplicando SV → V SN)

• ⇒ "o" "menino" "viu" SN (aplicando V → "viu")

• ⇒ "o" "menino" "viu" Det N (aplicando SN → Det N)

• ⇒ "o" "menino" "viu" "a" N (aplicando Det → "a")

• ⇒ "o" "menino" "viu" "a" "bola" (aplicando N → "bola")

Resultado: "o menino viu a bola"

Inteligência Artificial Simbólica: Processamento de Linguagem Natural
Página 12
Inteligência Artificial Simbólica: Processamento de Linguagem Natural

Autômatos e Reconhecimento de Padrões

Autômatos finitos constituem modelos computacionais abstratos que reconhecem linguagens regulares mediante transições entre estados finitos governadas por símbolos de entrada. Estes dispositivos formais, embora computacionalmente limitados, são suficientemente expressivos para capturar padrões regulares ubíquos em processamento textual como validação de formatos, tokenização e busca de padrões mediante expressões regulares.

Autômatos de pilha estendem autômatos finitos com memória auxiliar estruturada como pilha, permitindo reconhecimento de linguagens livres de contexto que incluem estruturas hierárquicas aninhadas características de expressões aritméticas, construções sintáticas linguísticas e formatos de dados estruturados. Esta capacidade de processar hierarquias balanceadas é fundamental para análise sintática de linguagens formais e naturais.

Máquinas de Turing representam modelo de computação universal capaz de simular qualquer algoritmo computável, estabelecendo limites fundamentais sobre o que pode ser computado automaticamente. Embora irrealisticamente poderosas para aplicações práticas, Máquinas de Turing proporcionam arcabouço teórico essencial para análise de complexidade computacional e decidibilidade de problemas linguísticos e lógicos.

Autômato Finito para Validação de CPF

Formato válido de CPF: XXX.XXX.XXX-YY

• X = dígito de 0 a 9

• Y = dígito verificador

Estados do Autômato:

• q₀ = estado inicial

• q₁, q₂, q₃ = após ler 1, 2, 3 dígitos

• q₄ = após ler primeiro ponto

• q₅, q₆, q₇ = após ler 4, 5, 6 dígitos totais

• q₈ = após ler segundo ponto

• q₉, q₁₀, q₁₁ = após ler 7, 8, 9 dígitos totais

• q₁₂ = após ler hífen

• q₁₃, q₁₄ = após ler dígitos verificadores

• q_aceita = estado de aceitação

Transições:

• δ(q₀, dígito) = q₁

• δ(q₁, dígito) = q₂

• δ(q₂, dígito) = q₃

• δ(q₃, '.') = q₄

• ... [transições similares para demais estados]

• δ(q₁₃, dígito) = q₁₄

• q₁₄ = q_aceita (estado final)

Execução:

• Entrada: "123.456.789-10"

• q₀ →[1]→ q₁ →[2]→ q₂ →[3]→ q₃ →[.]→ q₄ →[4]→ q₅ ...

• Se alcança q_aceita: formato válido

• Se não alcança: formato inválido

Expressões Regulares

Expressões regulares proporcionam notação concisa para especificar padrões reconhecíveis por autômatos finitos, sendo amplamente utilizadas em editores de texto, linguagens de programação e ferramentas de processamento textual para busca e manipulação de padrões.

Inteligência Artificial Simbólica: Processamento de Linguagem Natural
Página 13
Inteligência Artificial Simbólica: Processamento de Linguagem Natural

Gramáticas Probabilísticas

Gramáticas livres de contexto probabilísticas estendem gramáticas tradicionais associando probabilidades a regras de reescrita, capturando frequências relativas de estruturas alternativas observadas em corpora linguísticos. Esta extensão permite modelagem estatística de ambiguidade estrutural, onde múltiplas análises sintáticas são gramaticalmente válidas mas apresentam plausibilidades diferentes baseadas em evidências empíricas de uso linguístico.

Estimação de probabilidades gramaticais realiza-se mediante análise de treebanks, corpora anotados com estruturas sintáticas determinadas por linguistas especializados. Contagens de frequências de aplicação de regras em árvores sintáticas anotadas proporcionam estimativas de máxima verossimilhança para probabilidades de regras, capturando preferências estruturais características de gêneros textuais e registros linguísticos específicos.

Algoritmo de Viterbi adaptado para gramáticas probabilísticas permite identificação eficiente da análise sintática mais provável para sentença dada, navegando espaço exponencial de análises possíveis mediante técnicas de programação dinâmica que evitam recomputação de subproblemas redundantes. Esta eficiência computacional viabiliza análise sintática probabilística de textos extensos em tempo prático.

Gramática Probabilística Simples

Regras com Probabilidades:

• S → SN SV [0,9] (90% das sentenças seguem este padrão)

• S → SV [0,1] (10% são sentenças sem sujeito explícito)

• SN → Det N [0,6]

• SN → N [0,3]

• SN → Det Adj N [0,1]

• SV → V SN [0,7]

• SV → V [0,3]

• Det → "o" [0,4] | "a" [0,3] | "um" [0,2] | "uma" [0,1]

• N → "menino" [0,3] | "bola" [0,4] | "casa" [0,3]

• V → "viu" [0,5] | "pegou" [0,3] | "correu" [0,2]

• Adj → "grande" [0,6] | "pequeno" [0,4]

Cálculo de Probabilidade de Análise:

• Sentença: "o menino viu a bola"

• Análise 1: [S [SN [Det o] [N menino]] [SV [V viu] [SN [Det a] [N bola]]]]

• P(Análise 1) = P(S→SN SV) × P(SN→Det N) × P(Det→o) × P(N→menino)

× P(SV→V SN) × P(V→viu) × P(SN→Det N) × P(Det→a) × P(N→bola)

• P(Análise 1) = 0,9 × 0,6 × 0,4 × 0,3 × 0,7 × 0,5 × 0,6 × 0,3 × 0,4

• P(Análise 1) ≈ 0,00082

Desambiguação:

• Sistema calcula probabilidades de todas as análises possíveis

• Seleciona análise com maior probabilidade

• Reflete preferências estruturais do corpus de treinamento

Inteligência Artificial Simbólica: Processamento de Linguagem Natural
Página 14
Inteligência Artificial Simbólica: Processamento de Linguagem Natural

Fenômenos Linguísticos Complexos

Linguagens naturais exibem fenômenos estruturais que desafiam formalizações gramaticais tradicionais, motivando desenvolvimento de arcabouços teóricos mais sofisticados. Dependências de longo alcance, onde elementos sintáticos separados por material interveniente mantêm relações gramaticais obrigatórias, requerem mecanismos que transcendem localidade contextual de gramáticas livres de contexto convencionais.

Fenômenos de movimento sintático, como relativização e interrogação em português, envolvem deslocamento de constituintes de posições canônicas para posições sintáticas especializadas, deixando vestígios ou lacunas que devem ser identificados durante análise para recuperação correta de relações gramaticais. Modelagem adequada destes fenômenos exige representações sintáticas enriquecidas que rastreiam dependências não-locais.

Concordância gramatical em número, gênero e pessoa estabelece restrições que permeiam estruturas sintáticas complexas, requerendo propagação de traços morfossintáticos através de árvores de derivação. Violações de concordância, embora muitas vezes toleradas em registro coloquial, são marcadores importantes de agramaticalidade que sistemas de correção gramatical automatizada devem detectar e sinalizar apropriadamente.

Análise de Construção Relativa

Sentença com Oração Relativa:

• "O livro que João comprou está na mesa"

Estrutura Sintática:

• [S [SN [Det O] [N livro] [Oração-Relativa [que] [S João comprou ___]]] [SV está na mesa]]

• O traço "___" indica lacuna onde "livro" seria objeto de "comprou"

Dependência de Longo Alcance:

• "que" no início da oração relativa

• corresponde a objeto de "comprou" no final da oração

• Relação NÃO-LOCAL entre estes elementos

Análise Passo a Passo:

1. Identifica sintagma nominal principal: "O livro"

2. Detecta pronome relativo "que" iniciando modificador

3. Analisa oração subordinada: "João comprou ___"

4. Verbo "comprar" é transitivo, requer objeto

5. Objeto ausente na posição canônica

6. Sistema infere que "que" (= "o livro") preenche papel temático de objeto

7. Estabelece co-indexação entre "que" e lacuna

Concordância:

• "O livro ... está" (singular) ✓

• "Os livros ... estão" (plural) ✓

• "Os livros ... está" (violação) ✗

Desafios Computacionais

Tratamento adequado de fenômenos não-locais requer algoritmos sofisticados de parsing que mantêm registros de dependências através de processamento incremental de sentença, aumentando complexidade temporal e espacial de análise sintática em comparação com gramáticas puramente locais.

Inteligência Artificial Simbólica: Processamento de Linguagem Natural
Página 15
Inteligência Artificial Simbólica: Processamento de Linguagem Natural

Capítulo 4: Análise Sintática e Parsing

Algoritmos de Parsing

Parsing constitui processo algorítmico de análise que determina estrutura sintática de sentenças conforme especificação gramatical formal, mapeando sequências lineares de palavras em representações hierárquicas que explicitam relações gramaticais e agrupamentos constituintes. Algoritmos de parsing dividem-se fundamentalmente em estratégias top-down que expandem derivações a partir de símbolo inicial da gramática e estratégias bottom-up que constroem análises agregando progressivamente palavras em constituintes maiores.

Parsing top-down recursivo implementa busca em profundidade no espaço de derivações possíveis, tentando expandir símbolo não-terminal corrente mediante regras gramaticais aplicáveis e verificando se expansão resultante corresponde a prefixo da sentença sendo analisada. Esta abordagem, embora conceitualmente direta, sofre de ineficiências relacionadas a backtracking excessivo quando múltiplas regras competem e de possibilidade de recursão infinita em gramáticas com produções recursivas à esquerda.

Parsing bottom-up mediante técnicas shift-reduce utiliza pilha para acumular constituintes parcialmente reconhecidos, alternando operações de shift que empilham próxima palavra de entrada e operações de reduce que aplicam regras gramaticais reduzindo sequência de símbolos no topo da pilha a não-terminal correspondente. Esta estratégia evita problemas de recursão infinita mas requer mecanismos sofisticados para decidir quando aplicar cada tipo de operação.

Parsing Top-Down Recursivo

Gramática:

• S → SN SV

• SN → Det N

• SV → V SN

• Det → "o" | "a"

• N → "gato" | "rato"

• V → "viu"

Sentença para analisar: "o gato viu o rato"

Traço de Execução:

1. Inicia com S, entrada = [o, gato, viu, o, rato]

2. Expande S → SN SV

Meta: reconhecer SN depois SV

3. Expande SN → Det N

Meta: reconhecer Det depois N

4. Expande Det → "o"

Compara com entrada: "o" = "o" ✓

Consome "o", entrada = [gato, viu, o, rato]

5. Expande N → "gato"

Compara com entrada: "gato" = "gato" ✓

Consome "gato", entrada = [viu, o, rato]

SN reconhecido com sucesso

6. Agora deve reconhecer SV

7. Expande SV → V SN

8. Expande V → "viu"

Compara: "viu" = "viu" ✓

Consome "viu", entrada = [o, rato]

9. Expande SN → Det N (recursivamente)

10. Det → "o", N → "rato" (ambos reconhecidos)

11. Entrada vazia, S completamente reconhecido ✓

Inteligência Artificial Simbólica: Processamento de Linguagem Natural
Página 16
Inteligência Artificial Simbólica: Processamento de Linguagem Natural

Técnicas de Parsing Eficiente

Algoritmo de Earley implementa reconhecimento e análise de gramáticas livres de contexto arbitrárias em tempo cúbico no comprimento da entrada, evitando ineficiências de backtracking através de técnica de tabulação que armazena resultados de subproblemas para reutilização. Esta abordagem de programação dinâmica constrói tabela de estados que representa sistematicamente todas as derivações parciais consistentes com porções processadas da entrada.

Algoritmo CKY (Cocke-Kasami-Younger) opera sobre gramáticas em forma normal de Chomsky, onde todas as regras apresentam lado direito com exatamente dois não-terminais ou um único terminal. Esta restrição, embora aparentemente limitante, não reduz expressividade da gramática mas permite organização sistemática de computações em tabela triangular que facilita identificação eficiente de constituintes aninhados.

Parsers GLR (Generalized LR) estendem técnicas determinísticas de parsing LR para lidar com ambiguidade mediante manutenção paralela de múltiplas pilhas de análise que representam interpretações alternativas sendo exploradas simultaneamente. Quando múltiplas ações são possíveis, parser bifurca computação, explorando ambas as possibilidades em paralelo até que análises se demonstrem inconsistentes ou alcancem completude.

Algoritmo CKY Simplificado

Gramática em Forma Normal de Chomsky:

• S → SN SV

• SN → Det N

• SV → V SN

• Det → "o"

• N → "gato"

• V → "viu"

Sentença: "o gato viu"

Tabela CKY (estrutura triangular):

• Dimensão: n × n onde n = comprimento da sentença

• Célula[i,j] contém não-terminais que geram substring de posição i até j

Preenchimento Bottom-Up:

• Diagonal principal (substrings de tamanho 1):

Célula[1,1]: "o" → {Det}

Célula[2,2]: "gato" → {N}

Célula[3,3]: "viu" → {V}

• Substrings de tamanho 2:

Célula[1,2]: combina Det(1,1) com N(2,2)

→ Verifica regra SN → Det N ✓

→ Adiciona {SN} à Célula[1,2]

• Substrings de tamanho 3:

Célula[1,3]: combina SN(1,2) com V(3,3)

→ Nenhuma regra aplicável

Combina SN(1,1) com ... (não aplicável)

Verificação:

• Se S ∈ Célula[1,n]: sentença é gramatical

• Caso contrário: agramatical

Complexidade Computacional

Algoritmo CKY apresenta complexidade temporal O(n³|G|) onde n é comprimento da sentença e |G| é tamanho da gramática. Esta eficiência cúbica torna viável análise de sentenças longas que seriam intratáveis com algoritmos ingênuos de busca exaustiva.

Inteligência Artificial Simbólica: Processamento de Linguagem Natural
Página 17
Inteligência Artificial Simbólica: Processamento de Linguagem Natural

Tratamento de Ambiguidade Sintática

Ambiguidade sintática surge quando gramática formal admite múltiplas análises estruturais distintas para mesma sequência de palavras, refletindo flexibilidade inerente de linguagem natural que permite expressões compactas com interpretações dependentes de contexto. Sentenças ambíguas apresentam desafios fundamentais para processamento automatizado que deve selecionar interpretação pretendida entre alternativas gramaticalmente válidas.

Ambiguidade de fixação de sintagma preposicional representa classe particularmente prevalente onde sintagmas preposicionais podem modificar diferentes constituintes em árvore sintática, alterando significativamente interpretação semântica resultante. Resolução adequada requer integração de informações léxicas sobre preferências de subcategorização de verbos, plausibilidade semântica de relações modificador-modificado e conhecimento pragmático sobre contexto discursivo.

Estratégias de desambiguação incluem heurísticas estruturais como minimal attachment que prefere análises com menor número de nós sintáticos e late closure que favorece fixação de material novo a constituinte correntemente sendo processado. Abordagens estatísticas utilizam modelos probabilísticos treinados em corpora anotados para estimar probabilidades relativas de análises alternativas, selecionando interpretação mais provável conforme evidências empíricas.

Ambiguidade de Fixação Preposicional

Sentença Ambígua:

• "João viu a menina com o telescópio"

Análise 1 - Modificação do Objeto:

• [S [SN João] [SV [V viu] [SN [SN a menina] [SP com o telescópio]]]]

• Interpretação: A menina possui o telescópio

• João viu [a menina que tem telescópio]

Análise 2 - Modificação do Verbo:

• [S [SN João] [SV [SV [V viu] [SN a menina]] [SP com o telescópio]]]

• Interpretação: João usou o telescópio para ver

• João [viu a menina] [usando telescópio]

Fatores de Desambiguação:

1. Plausibilidade Semântica:

• Telescópios são instrumentos de observação (favorece Análise 2)

• Meninas raramente carregam telescópios (desfavorece Análise 1)

2. Contexto Discursivo:

• Se contexto prévio mencionou astronomia → Análise 2 mais provável

• Se contexto descreveu menina com objetos → Análise 1 plausível

3. Estatísticas de Corpus:

• Verbos de percepção frequentemente admitem instrumentos

• P(modificação_verbal | ver) > P(modificação_nominal | menina)

Estratégia Combinada:

• Sistema pondera múltiplos fatores

• Seleciona análise com maior score agregado

• Em caso de empate, pode solicitar esclarecimento ao usuário

Inteligência Artificial Simbólica: Processamento de Linguagem Natural
Página 18
Inteligência Artificial Simbólica: Processamento de Linguagem Natural

Parsing Robusto e Tratamento de Erros

Textos reais frequentemente contêm desvios de norma gramatical padrão, incluindo erros de digitação, omissões de palavras funcionais, construções coloquiais não-gramaticais e fenômenos dialetais diversos. Sistemas de parsing robusto devem tolerar estas imperfeições, extraindo análises sintáticas parciais ou aproximadas quando análise completa conforme gramática formal não é possível, proporcionando degradação graciosa ao invés de falha catastrófica.

Técnicas de recuperação de erros incluem inserção hipotética de palavras funcionais omitidas, ignorância seletiva de material não-analisável, e relaxamento temporário de restrições gramaticais estritas para permitir casamento aproximado. Estas estratégias permitem que sistemas continuem processamento útil mesmo quando entrada desvia significativamente de expectativas gramaticais, sendo essenciais para aplicações práticas que lidam com linguagem espontânea não-editada.

Análise superficial ou chunking identifica constituintes sintáticos básicos sem construir estruturas hierárquicas completas, proporcionando compromisso pragmático entre robustez e informatividade estrutural. Esta abordagem fragmentária é suficiente para muitas aplicações práticas como extração de informação, recuperação de documentos e sumarização automática que requerem identificação de entidades e relações básicas sem necessitar análise sintática exaustiva.

Estratégias de Parsing Robusto

Entrada com Erro:

• "João comprou livro ontem loja" (falta preposição)

Estratégia 1 - Inserção de Palavras Funcionais:

• Sistema detecta que "loja" requer preposição

• Hipótese: inserir "na" → "João comprou livro ontem na loja"

• Análise bem-sucedida com correção sugerida

Estratégia 2 - Análise Parcial (Chunking):

• Identifica chunks básicos sem estrutura completa:

[SN João] [SV comprou] [SN livro] [Adv ontem] [SN loja]

• Extrai informação relevante: comprador=João, item=livro, tempo=ontem

Entrada Agramatical Severa:

• "comprou João livro ontem" (ordem não-canônica)

• Parser reconhece elementos mas não consegue estrutura completa

• Retorna análise parcial com indicação de anomalia

Aplicação Prática - Chatbot:

• Usuário: "quero comprar celular barato"

• Omissão de artigo "um" é comum em linguagem coloquial

• Sistema tolera e extrai: intenção=compra, item=celular, atributo=barato

• Resposta adequada mesmo com sintaxe não-padrão

Balanceamento de Robustez

Sistemas excessivamente permissivos podem aceitar entradas absurdas, enquanto sistemas muito estritos falham em texto real. O desafio é encontrar equilíbrio que maximize cobertura de variação linguística legítima sem comprometer capacidade de detectar erros genuínos que beneficiariam de sinalização.

Inteligência Artificial Simbólica: Processamento de Linguagem Natural
Página 19
Inteligência Artificial Simbólica: Processamento de Linguagem Natural

Gramáticas de Dependência

Gramáticas de dependência proporcionam formalismo alternativo que representa estrutura sintática mediante relações binárias diretas entre palavras ao invés de agrupamentos constituintes hierárquicos. Nesta abordagem, cada palavra exceto uma raiz possui exatamente um governante que determina suas propriedades sintáticas, formando árvore de dependências onde arestas representam relações gramaticais tipificadas como sujeito, objeto, modificador adjetival e complementos diversos.

Vantagens de representações baseadas em dependências incluem correspondência mais direta com interpretação semântica onde relações gramaticais mapeiam naturalmente para estrutura de predicado-argumentos, e melhor adaptabilidade a linguagens com ordem de palavras relativamente livre onde constituintes podem ser separados por material interveniente sem comprometer relações gramaticais básicas.

Algoritmos de parsing de dependências como algoritmo de Eisner utilizam programação dinâmica para identificar árvore de dependências ótima conforme modelo scoring que atribui pontuações a arcos candidatos baseando-se em características léxicas e contextuais. Estes algoritmos alcançam eficiência cúbica similar a parsers de constituintes preservando expressividade representacional adequada para captura de relações sintáticas essenciais.

Análise de Dependências

Sentença: "Maria ofereceu um presente para João"

Árvore de Dependências:

• ofereceu (RAIZ)

├─ Maria (nsubj = sujeito nominal)

├─ presente (obj = objeto direto)

│ └─ um (det = determinante)

└─ João (obl = oblíquo)

└─ para (case = marcador de caso)

Relações Gramaticais:

• nsubj(ofereceu, Maria) → Maria é sujeito de ofereceu

• obj(ofereceu, presente) → presente é objeto de ofereceu

• det(presente, um) → um determina presente

• obl(ofereceu, João) → João é argumento oblíquo de ofereceu

• case(João, para) → para marca caso de João

Comparação com Constituintes:

• Estrutura de constituintes: [S [SN Maria] [SV [V ofereceu] [SN um presente] [SP para João]]]

• Dependências focam em relações palavra-palavra

• Constituintes focam em agrupamentos hierárquicos

Vantagem para Linguagens com Ordem Livre:

• "Para João Maria ofereceu um presente" (topicalização)

• Dependências permanecem idênticas

• Estrutura de constituintes muda significativamente

Inteligência Artificial Simbólica: Processamento de Linguagem Natural
Página 20
Inteligência Artificial Simbólica: Processamento de Linguagem Natural

Integração Sintaxe-Semântica

Análise sintática isolada, embora matematicamente elegante, proporciona apenas estruturação superficial insuficiente para aplicações que requerem compreensão profunda de significado. Integração efetiva de processamento sintático com construção de representações semânticas exige mapeamentos sistemáticos entre estruturas sintáticas e interpretações lógicas que capturam relações predicado-argumentos, quantificação, modalidade e outras dimensões semânticas essenciais.

Princípio de composicionalidade, atribuído a Gottlob Frege, postula que significado de expressão complexa determina-se sistematicamente a partir de significados de constituintes e modo de combinação sintática. Este princípio fundamental orienta construção de gramáticas que associam regras sintáticas a regras semânticas paralelas que compõem interpretações de constituintes em interpretações de estruturas maiores mediante operações lógicas bem-definidas.

Semântica formal baseada em lógica de predicados representa significados como fórmulas lógicas que podem ser avaliadas relativamente a modelos formais, proporcionando fundamentos matemáticos rigorosos para raciocínio sobre verdade, inferência e implicação. Esta abordagem permite verificação automatizada de propriedades semânticas e suporta aplicações como sistemas de perguntas-respostas que exigem raciocínio lógico sobre conhecimento representado linguisticamente.

Composição Sintaxe-Semântica

Análise Composicional:

• Sentença: "Todo estudante leu algum livro"

Estrutura Sintática:

• [S [SN Todo estudante] [SV [V leu] [SN algum livro]]]

Construção Semântica Bottom-Up:

1. "Todo estudante" → ∀x [Estudante(x) → ...]

Quantificador universal sobre estudantes

2. "algum livro" → ∃y [Livro(y) ∧ ...]

Quantificador existencial sobre livros

3. "leu" → Leu(x, y)

Relação binária entre leitor e livro

4. Combinação SV = "leu algum livro"

→ λx . ∃y [Livro(y) ∧ Leu(x, y)]

Propriedade: existir livro que x leu

5. Combinação S completa:

→ ∀x [Estudante(x) → ∃y [Livro(y) ∧ Leu(x, y)]]

"Para todo estudante x, existe algum livro y tal que x leu y"

Ambiguidade de Escopo:

• Leitura 1 (escopo de ∀ sobre ∃): cada estudante leu possivelmente livro diferente

∀x [Estudante(x) → ∃y [Livro(y) ∧ Leu(x, y)]]

• Leitura 2 (escopo de ∃ sobre ∀): existe livro específico que todos leram

∃y [Livro(y) ∧ ∀x [Estudante(x) → Leu(x, y)]]

Aplicação em Sistema de Perguntas-Respostas:

• Pergunta: "Quem leu Machado de Assis?"

• Representação: λx . ∃y [Autor(y, "Machado de Assis") ∧ Livro-de(z, y) ∧ Leu(x, z)]

• Sistema consulta base de conhecimento buscando valores de x

Inteligência Artificial Simbólica: Processamento de Linguagem Natural
Página 21
Inteligência Artificial Simbólica: Processamento de Linguagem Natural

Capítulo 5: Análise Semântica e Interpretação

Representações Semânticas

Representação semântica formal busca capturar significado de expressões linguísticas mediante estruturas lógicas ou conceituais que abstraem de peculiaridades superficiais preservando conteúdo informacional essencial. Estas representações devem suportar inferência computacional, permitindo derivação de conclusões implícitas a partir de informações explicitamente afirmadas, e facilitar comparação de significados para detecção de paráfrase, contradição e implicação.

Lógica de predicados de primeira ordem proporciona linguagem representacional madura com semântica formal bem-estabelecida baseada em teoria de modelos. Expressões linguísticas mapeiam-se em fórmulas que expressam propriedades de entidades e relações entre objetos mediante predicados, quantificadores e conectivos lógicos, permitindo raciocínio dedutivo rigoroso sobre conhecimento representado linguisticamente.

Representações estruturadas alternativas como frames semânticos e redes conceituais organizam conhecimento em torno de esquemas tipificados que capturam papéis participantes característicos de situações ou eventos. Estas estruturas facilitam raciocínio por default e herança de propriedades típicas, complementando precisão lógica com tratamento pragmático de conhecimento prototípico e expectativas contextuais que permeiam compreensão linguística humana.

Frames Semânticos

Frame: Transação Comercial

• Participantes obrigatórios:

- Comprador (quem adquire)

- Vendedor (quem fornece)

- Mercadoria (o que é transacionado)

- Pagamento (valor monetário)

• Participantes opcionais:

- Local (onde ocorre transação)

- Tempo (quando ocorre)

- Modo (forma de pagamento)

Exemplo de Instanciação:

• Sentença: "João comprou um livro de Maria por R$ 50 ontem"

• Frame preenchido:

Comprador: João

Vendedor: Maria

Mercadoria: livro

Pagamento: R$ 50

Tempo: ontem

Inferências Suportadas:

• Maria recebeu R$ 50 (implicação de Vendedor + Pagamento)

• João agora possui o livro (implicação de Comprador + Mercadoria)

• Houve transferência de propriedade (conhecimento do frame)

Variações Linguísticas:

• "Maria vendeu um livro para João" → mesmo frame, papéis idênticos

• "João pagou R$ 50 pelo livro de Maria" → mesmo frame

• Sistema reconhece paráfrase via mapeamento para frame comum

Inteligência Artificial Simbólica: Processamento de Linguagem Natural
Página 22
Inteligência Artificial Simbólica: Processamento de Linguagem Natural

Resolução Anafórica e Correferência

Anáfora refere-se a fenômeno linguístico onde expressão deriva seu referente de outra expressão previamente mencionada no discurso, estabelecendo coesão textual mediante elos referenciais entre diferentes porções de texto. Resolução anafórica computacional identifica antecedentes apropriados para pronomes, demonstrativos e outras expressões referencialmente dependentes, sendo essencial para construção de modelos coerentes de situações descritas em textos.

Restrições sintáticas como princípios de ligação da teoria gramatical limitam possibilidades de correferência baseando-se em configurações estruturais, excluindo antecedentes que não comandam-c expressões anafóricas ou que violam domínios de ligação apropriados. Estas restrições formais reduzem espaço de busca computacional eliminando candidatos estruturalmente inadmissíveis antes de aplicação de heurísticas semânticas e pragmáticas mais custosas.

Fatores semânticos e pragmáticos incluem concordância em número, gênero e pessoa, plausibilidade de relações predicativas, proeminência discursiva de entidades candidatas, e paralelismo estrutural entre cláusulas coordenadas. Algoritmos de resolução anafórica integram estes múltiplos fatores mediante modelos de scoring que classificam candidatos conforme probabilidade de correferência, selecionando antecedente mais provável para cada expressão anafórica encontrada.

Resolução de Pronomes

Texto:

• "João encontrou Pedro no parque. Ele estava atrasado."

Candidatos para "Ele":

• Candidato 1: João

• Candidato 2: Pedro

• Candidato 3: parque (excluído - não humano)

Análise de Fatores:

1. Concordância:

"Ele" → masculino singular

João → masculino ✓

Pedro → masculino ✓

Parque → não-animado ✗

2. Proeminência Sintática:

João é sujeito da primeira sentença (mais proeminente)

Pedro é objeto (menos proeminente)

→ Favorece João

3. Plausibilidade Semântica:

"estar atrasado" é propriedade tipicamente de quem chega

Contexto "encontrou" sugere que um esperava o outro

→ Ambos plausíveis

4. Conhecimento de Mundo:

Quem "encontra" tipicamente estava esperando

Quem é "encontrado" tipicamente chegou depois

→ Favorece Pedro como atrasado

Resolução:

• Sistema pondera fatores conflitantes

• Conhecimento de mundo + plausibilidade > proeminência sintática

• Conclusão: "Ele" = Pedro (mais provavelmente)

Caso com Resolução Clara:

• "Maria viu a professora. Ela sorriu."

• Ambos candidatos são femininos → concordância não discrimina

• "Ela" como sujeito de "sorriu" provavelmente refere-se ao sujeito anterior

• "Ela" = Maria (pela continuidade de tópico)

Desafios Práticos

Resolução anafórica perfeita permanece desafio aberto devido à necessidade de raciocínio sofisticado sobre conhecimento de mundo, intenções comunicativas e modelos mentais de interlocutores. Sistemas práticos aceitam taxa de erro residual focando em casos estatisticamente mais comuns.

Inteligência Artificial Simbólica: Processamento de Linguagem Natural
Página 23
Inteligência Artificial Simbólica: Processamento de Linguagem Natural

Papéis Semânticos e Estrutura Argumental

Papéis semânticos ou temáticos capturam funções participantes desempenham em situações denotadas por predicados, abstraindo de realizações sintáticas superficiais para identificar contribuições semânticas fundamentais. Papéis típicos incluem Agente (iniciador volitivo de ação), Paciente (entidade afetada), Tema (entidade movida ou localizada), Instrumento (meio pelo qual ação é realizada), Beneficiário (entidade que se beneficia), entre outros.

Estrutura argumental de predicados verbais especifica número e tipos de participantes que verbo pode ou deve licenciar, estabelecendo interface entre léxico e sintaxe que determina padrões de complementação gramatical. Verbos transitivos requerem objetos diretos que tipicamente realizam papel Paciente, enquanto verbos ditransitivos licenciam adicionalmente objetos indiretos frequentemente interpretados como Recipientes ou Beneficiários.

Alternâncias de valência como construções passivas, aplicativas e causativas alteram mapeamentos entre papéis semânticos e posições sintáticas, permitindo flexibilidade expressiva que destaca diferentes participantes conforme necessidades discursivas. Compreensão adequada destas alternâncias requer modelos que relacionem sistematicamente formas sintáticas alternativas preservando núcleo semântico comum subjacente.

Análise de Papéis Semânticos

Verbo: "quebrar"

Análise 1 - Uso Transitivo:

• "João quebrou o vaso com um martelo"

• João → Agente (quem realiza ação intencionalmente)

• vaso → Paciente (entidade afetada, sofre mudança de estado)

• martelo → Instrumento (meio usado para realizar ação)

Análise 2 - Uso Intransitivo (alternância causativa):

• "O vaso quebrou"

• vaso → Paciente (entidade que muda de estado)

• Agente não especificado (pode ser desconhecido ou irrelevante)

Análise 3 - Voz Passiva:

• "O vaso foi quebrado por João"

• vaso → Paciente (promovido a posição de sujeito)

• João → Agente (rebaixado a adjunto oblíquo)

• Papéis semânticos idênticos à Análise 1, sintaxe diferente

Aplicação em Extração de Informação:

• Sistema pergunta: "Quem quebrou o vaso?"

• Resposta de Análise 1: João (Agente)

• Resposta de Análise 2: não especificado

• Resposta de Análise 3: João (mesmo papel, sintaxe diferente)

• Sistema reconhece equivalência semântica via papéis

Verbo: "dar"

• "Maria deu um presente para João"

• Maria → Agente (doadora)

• presente → Tema (objeto transferido)

• João → Recipiente (destinatário)

• Estrutura triádica característica de verbos de transferência

Inteligência Artificial Simbólica: Processamento de Linguagem Natural
Página 24
Inteligência Artificial Simbólica: Processamento de Linguagem Natural

Inferência e Implicatura

Compreensão linguística transcende decodificação literal de significado composicional, requerendo inferências sofisticadas que integram conhecimento de mundo, expectativas pragmáticas e modelos de racionalidade comunicativa. Implicaturas conversacionais, conceito desenvolvido por Paul Grice, referem-se a significados implícitos deriváveis de princípios cooperativos que governam comunicação efetiva, incluindo máximas de quantidade, qualidade, relevância e modo.

Inferências por default exploram conhecimento estereotípico para derivar conclusões plausíveis na ausência de informação explícita contrária, proporcionando eficiência cognitiva que permite raciocínio rápido baseado em suposições tipicamente válidas. Estas inferências são derrotáveis, podendo ser canceladas quando informação adicional contradiz expectativas default, distinguindo-as de implicações lógicas necessárias que se mantêm invariavelmente.

Raciocínio abdutivo busca explicações plausíveis para observações mediante inferência para melhor explicação, processo fundamental em compreensão narrativa onde leitores constroem modelos coerentes de situações descritas preenchendo lacunas informacionais com hipóteses explanatórias. Este tipo de raciocínio, embora logicamente não-monotônico, captura aspecto essencial de cognição humana que vai além de dedução mecânica de consequências explícitas.

Implicaturas Conversacionais

Exemplo 1 - Máxima de Quantidade:

• Pergunta: "Você tem os três livros que pedi?"

• Resposta: "Tenho dois"

• Significado literal: possui pelo menos dois

• Implicatura: possui exatamente dois (não três)

→ Se tivesse três, teria dito (máxima: seja tão informativo quanto necessário)

Exemplo 2 - Máxima de Relevância:

• Pergunta: "Onde está João?"

• Resposta: "Vi um carro azul na frente da biblioteca"

• Literal: informação sobre carro

• Implicatura: João está provavelmente na biblioteca

→ Resposta seria irrelevante se não conectasse com pergunta

→ Conhecimento compartilhado: João tem carro azul

Exemplo 3 - Inferência por Default:

• Sentença: "Maria foi ao restaurante e comeu pizza"

• Inferências plausíveis:

- Maria comeu a pizza no restaurante (local típico)

- Maria pagou pela pizza (transação típica)

- Maria usou garfo e faca (modo típico)

• Derrotável:

"Maria foi ao restaurante mas comprou pizza para viagem"

→ Cancela inferência sobre comer no local

Exemplo 4 - Raciocínio Abdutivo:

• Observação: "O chão está molhado"

• Explicações possíveis:

H₁: Choveu recentemente

H₂: Alguém lavou o chão

H₃: Vazamento de cano

• Evidência adicional: "O céu está nublado"

• Conclusão: H₁ é melhor explicação

Desafios Computacionais

Implementação computacional de inferência pragmática requer modelagem explícita de conhecimento comum, expectativas contextuais e princípios de racionalidade comunicativa, domínio ainda parcialmente resolvido em sistemas de processamento de linguagem natural.

Inteligência Artificial Simbólica: Processamento de Linguagem Natural
Página 25
Inteligência Artificial Simbólica: Processamento de Linguagem Natural

Estrutura Discursiva e Coerência

Discurso coerente transcende coleção de sentenças isoladas, exibindo organização estrutural que reflete propósitos comunicativos, relações retóricas entre segmentos textuais, e progressão informacional planejada. Teorias de estrutura discursiva como Rhetorical Structure Theory modelam textos como árvores hierárquicas onde nós folhas correspondem a unidades discursivas elementares e nós internos representam relações retóricas como elaboração, contraste, causa-efeito e evidência.

Coerência textual emerge de múltiplos fatores incluindo continuidade referencial onde entidades mencionadas mantêm identidade através do discurso, coerência relacional baseada em conexões lógicas e causais entre eventos descritos, e coerência temporal derivada de ordenação cronológica consistente de situações narradas. Violações destes princípios produzem textos que, embora gramaticais sentença-por-sentença, carecem de inteligibilidade global.

Processamento computacional de estrutura discursiva enfrenta desafios relacionados à necessidade de identificar fronteiras de unidades discursivas, classificar relações retóricas entre segmentos adjacentes, e construir representações arbóreas globais que capturem organização hierárquica completa de textos extensos. Estas capacidades são essenciais para aplicações como sumarização automática que deve preservar estrutura argumentativa central e geração de texto que produz discurso fluente e bem-organizado.

Análise de Estrutura Discursiva

Texto:

• [1] "O trânsito estava congestionado."

• [2] "João saiu cedo de casa."

• [3] "Mesmo assim, chegou atrasado à reunião."

Estrutura de Relações Retóricas:

• Relação 1→3: CAUSA

[1] explica por que [3] ocorreu

Congestionamento causa atraso

• Relação 2→3: CONTRASTE (CONCESSÃO)

[2] descreve ação preventiva

[3] indica que prevenção foi insuficiente

"Mesmo assim" sinaliza relação concessiva

Representação Hierárquica:

• [SATÉLITE: [1] Trânsito congestionado]

[NÚCLEO: [CONTRASTE:

[2] João saiu cedo

[3] Chegou atrasado]]

• Núcleo = informação central

• Satélite = informação de apoio (contextualiza ou explica)

Aplicação em Sumarização:

• Sistema identifica [3] como núcleo principal

• Sumarização agressiva pode omitir satélites

• Resumo: "João chegou atrasado à reunião"

• Resumo com contexto: "Apesar de sair cedo, João chegou atrasado"

Marcadores Discursivos:

• "Mesmo assim" → sinal de CONTRASTE

• "Porque" → sinal de CAUSA

• "Portanto" → sinal de CONCLUSÃO

• "Por exemplo" → sinal de ELABORAÇÃO

• Sistema usa marcadores como pistas para relações retóricas

Inteligência Artificial Simbólica: Processamento de Linguagem Natural
Página 26
Inteligência Artificial Simbólica: Processamento de Linguagem Natural

Pragmática Computacional

Pragmática estuda como contexto influencia interpretação de enunciados, abrangendo fenômenos como dêixis onde significado de expressões depende de coordenadas situacionais (quem fala, para quem, onde, quando), atos de fala que realizam ações mediante proferimentos linguísticos (prometer, ordenar, pedir), e pressuposições que estabelecem fundamentos informacionais assumidos como compartilhados entre interlocutores.

Modelagem computacional de contexto requer representações explícitas de participantes conversacionais, seus conhecimentos e crenças, objetivos comunicativos correntes, e histórico discursivo que estabelece acessibilidade de entidades e proposições previamente mencionadas. Estas informações contextuais, organizadas em estruturas como modelos de discurso e registros conversacionais, orientam resolução de ambiguidades e interpretação de expressões referencialmente dependentes.

Teoria de atos de fala, desenvolvida por Austin e Searle, distingue força ilocucionária (tipo de ato realizado mediante proferimento) de conteúdo proposicional, permitindo análise sistemática de como mesma proposição pode ser empregada para realizar atos diversos como asserção, pergunta, pedido ou comando. Reconhecimento automatizado de intenção comunicativa requer classificação de enunciados conforme categorias ilocucionárias mediante análise de indicadores linguísticos e contextuais.

Análise Pragmática

Exemplo 1 - Dêixis:

• Enunciado: "Eu vi isso ontem aqui"

• "Eu" → depende de quem fala

• "isso" → depende do que está saliente no contexto

• "ontem" → depende do momento de fala

• "aqui" → depende do local de fala

• Sistema precisa acessar contexto para interpretar

Exemplo 2 - Atos de Fala:

• Enunciado: "A janela está aberta"

• Contexto 1 (sala fria): Pedido indireto para fechar janela

• Contexto 2 (conversa sobre estado da casa): Asserção informativa

• Contexto 3 (investigação de arrombamento): Evidência de invasão

• Força ilocucionária varia com contexto

Exemplo 3 - Pressuposições:

• Pergunta: "Quando João parou de fumar?"

• Pressuposição: João fumava antes (agora não fuma)

• Se pressuposição é falsa, pergunta é inadequada

• Sistema deve identificar e validar pressuposições

Aplicação em Assistente Virtual:

• Usuário: "Me acorde às 7"

• Interpretação pragmática:

- Ato de fala: PEDIDO

- "Me" = usuário falando

- "7" = 7h da manhã (convenção)

- Contexto temporal: próximo dia útil

• Sistema: "Alarme configurado para 7h de amanhã"

• Confirmação explicita interpretação pragmática

Importância Prática

Assistentes conversacionais efetivos dependem crucialmente de processamento pragmático adequado para interpretar comandos elípticos, resolver referências dêiticas e reconhecer intenções comunicativas implícitas em interações naturais com usuários.

Inteligência Artificial Simbólica: Processamento de Linguagem Natural
Página 27
Inteligência Artificial Simbólica: Processamento de Linguagem Natural

Capítulo 6: Sistemas de Inferência Lógica

Métodos de Prova Automatizada

Prova automatizada de teoremas desenvolve procedimentos algorítmicos para verificação mecânica de validade de fórmulas lógicas e derivação de conclusões a partir de conjuntos de premissas. Estes métodos, fundamentais para verificação formal de sistemas críticos, baseiam-se em regras de inferência que preservam verdade e estratégias de busca que exploram sistematicamente espaços de prova potencialmente infinitos.

Resolução, desenvolvida por Robinson nos anos 1960, proporciona regra de inferência completa para lógica de primeira ordem que opera mediante refutação: para provar que conclusão segue de premissas, nega-se conclusão e demonstra-se inconsistência do conjunto resultante. Esta abordagem, embora conceitualmente elegante, requer transformação de fórmulas para forma clausal e pode gerar cláusulas intermediárias extensas que desafiam eficiência computacional.

Tableaux analíticos constroem provas mediante expansão sistemática de fórmulas em árvores que testam satisfazibilidade, fechando ramos quando contradições locais são detectadas. Este método, mais intuitivo que resolução, relaciona-se diretamente com raciocínio semântico sobre modelos e facilita geração de contra-exemplos quando fórmulas não são válidas, propriedade útil para debugging de especificações lógicas.

Prova por Resolução

Problema: Provar que "Sócrates é mortal"

Premissas:

• P1: ∀x [Humano(x) → Mortal(x)] (todo humano é mortal)

• P2: Humano(Sócrates) (Sócrates é humano)

Conclusão desejada: Mortal(Sócrates)

Passo 1 - Negar conclusão:

• ¬Mortal(Sócrates)

Passo 2 - Converter para forma clausal:

• C1: ¬Humano(x) ∨ Mortal(x) (de P1)

• C2: Humano(Sócrates) (de P2)

• C3: ¬Mortal(Sócrates) (negação da conclusão)

Passo 3 - Aplicar resolução:

• Resolver C1 e C2:

Substituir x por Sócrates em C1: ¬Humano(Sócrates) ∨ Mortal(Sócrates)

Com C2: Humano(Sócrates)

Resolvente: Mortal(Sócrates)

• Resolver com C3:

Mortal(Sócrates) e ¬Mortal(Sócrates)

Resolvente: □ (cláusula vazia = contradição)

Conclusão:

• Contradição encontrada

• Logo, negação da conclusão é inconsistente com premissas

• Portanto, Mortal(Sócrates) é provável ✓

Inteligência Artificial Simbólica: Processamento de Linguagem Natural
Página 28
Inteligência Artificial Simbólica: Processamento de Linguagem Natural

Sistemas Especialistas Baseados em Conhecimento

Sistemas especialistas codificam conhecimento de domínio específico mediante bases de regras que capturam heurísticas e estratégias de raciocínio de especialistas humanos, proporcionando consultoria automatizada em áreas como diagnóstico médico, configuração de sistemas, planejamento financeiro e análise jurídica. Estes sistemas pioneiros demonstraram viabilidade de inteligência artificial simbólica para resolução de problemas práticos complexos em domínios estreitos.

Arquitetura típica separa base de conhecimento que contém regras de domínio de mecanismo de inferência que aplica regras para derivar conclusões, permitindo manutenção independente de conhecimento por especialistas de domínio sem modificação de código inferencial. Esta modularidade facilita atualização e extensão de sistemas conforme conhecimento de domínio evolui ou quando novos subdomínios são incorporados.

Explicação de raciocínio constitui característica distintiva de sistemas especialistas simbólicos, permitindo que usuários inspecionem cadeias de regras aplicadas para alcançar conclusões e verifiquem adequação de bases de conhecimento. Esta transparência interpretativa contrasta com opacidade de muitos sistemas baseados em aprendizado de máquina, sendo crucial para aplicações onde justificativas são requisitos regulatórios ou onde confiança de usuários depende de compreensão de processos decisórios.

Sistema Especialista para Diagnóstico

Domínio: Problemas de Computador

Base de Regras:

• R1: SE computador_não_liga E luz_ligada ENTÃO problema = fonte

• R2: SE computador_liga E sem_vídeo E beeps ENTÃO problema = memória

• R3: SE computador_liga E sem_vídeo E sem_beeps ENTÃO problema = placa_vídeo

• R4: SE sistema_lento E HD_fragmentado ENTÃO ação = desfragmentar

• R5: SE sistema_lento E RAM_baixa ENTÃO ação = ampliar_memória

Sessão de Consulta:

• Sistema: "O computador liga?"

• Usuário: "Sim"

• [Fato adicionado: computador_liga = sim]

• Sistema: "Há imagem no monitor?"

• Usuário: "Não"

• [Fato adicionado: sem_vídeo = sim]

• Sistema: "O computador emite beeps ao ligar?"

• Usuário: "Sim, vários beeps curtos"

• [Fato adicionado: beeps = sim]

• Sistema aplica R2:

computador_liga ∧ sem_vídeo ∧ beeps → problema = memória

Diagnóstico:

• "Problema identificado: MEMÓRIA RAM com falha"

Explicação (rastreamento):

• Apliquei regra R2 porque:

- Você confirmou que computador liga

- Você confirmou ausência de vídeo

- Você confirmou presença de beeps

• Beeps múltiplos indicam problema de memória

Recomendação:

• "Sugestão: Remova e reinsira módulos de memória"

• "Se problema persistir, substitua memória RAM"

Limitações

Sistemas especialistas tradicionais enfrentam desafios relacionados a aquisição trabalhosa de conhecimento, dificuldade em lidar com conhecimento incerto ou incompleto, e fragilidade quando confrontados com situações fora do escopo previsto por regras codificadas.

Inteligência Artificial Simbólica: Processamento de Linguagem Natural
Página 29
Inteligência Artificial Simbólica: Processamento de Linguagem Natural

Raciocínio Não-Monotônico

Raciocínio monotônico clássico garante que conclusões uma vez derivadas permanecem válidas quando informação adicional é acrescentada, propriedade característica de dedução lógica padrão mas inadequada para modelagem de raciocínio de senso comum que frequentemente revisa conclusões tentativas quando novas evidências contradizem suposições iniciais. Raciocínio não-monotônico permite retração de inferências anteriores, refletindo natureza revisável de conhecimento incompleto.

Lógicas de default formalizam raciocínio baseado em suposições típicas que se mantêm na ausência de informação contrária, capturando conhecimento estereotípico como "pássaros tipicamente voam" que admite exceções como pinguins sem invalidar generalização útil. Estas lógicas distinguem entre fatos estabelecidos que resistem a revisão e defaults derrotáveis que podem ser cancelados por informações mais específicas.

Raciocínio abdutivo busca explicações plausíveis para observações, inferindo causas prováveis a partir de efeitos observados mediante seleção de hipóteses que melhor explicam evidências disponíveis. Este tipo de raciocínio, fundamental em diagnóstico médico, debugging de programas e investigação científica, complementa dedução e indução proporcionando terceira forma de inferência essencial para inteligência prática.

Raciocínio com Defaults

Base de Conhecimento:

• Regra Default: Ave(x) : Voa(x) / Voa(x)

→ "Se x é ave e é consistente supor que x voa, então conclua que x voa"

• Fato: Ave(Tweety)

• Exceção conhecida: Ave(pinguim) ∧ ¬Voa(pinguim)

Cenário 1 - Informação Incompleta:

• Conhecimento: Ave(Tweety)

• Nenhuma informação sobre Tweety ser exceção

• Sistema aplica default: Voa(Tweety) ✓

• Conclusão tentativa baseada em suposição típica

Cenário 2 - Informação Adicional:

• Nova informação: Pinguim(Tweety)

• Conhecimento prévio: Pinguim(x) → ¬Voa(x)

• Sistema retrata conclusão anterior

• Nova conclusão: ¬Voa(Tweety) ✓

• Informação específica derrota default geral

Aplicação em Diagnóstico:

• Sintoma: Febre

• Default: Febre tipicamente indica infecção

• Conclusão inicial: possível infecção

• Informação adicional: paciente tomou vacina ontem

• Retração: febre é reação à vacina (não infecção)

Raciocínio Abdutivo:

• Observação: Gramado molhado

• Hipóteses explicativas:

H1: Choveu (explica observação)

H2: Irrigação automática ativou (explica observação)

H3: Vazamento de água (explica observação)

• Evidência adicional: vizinhos também têm gramado molhado

• Melhor explicação: H1 (chuva afeta área ampla)

Inteligência Artificial Simbólica: Processamento de Linguagem Natural
Página 30
Inteligência Artificial Simbólica: Processamento de Linguagem Natural

Raciocínio sobre Mudança e Ação

Representação de conhecimento sobre mundos dinâmicos que mudam através de ações e eventos requer formalismos que capturam estados sucessivos, precondições para executabilidade de ações, e efeitos que ações produzem quando executadas. Cálculo de situações, desenvolvido por McCarthy, modela mundos dinâmicos mediante sequências de situações conectadas por ações, onde predicados fluentes descrevem propriedades que variam entre situações.

Problema do frame questiona como especificar o que não muda quando ações são executadas, evitando necessidade de axiomas explícitos para cada aspecto que permanece inalterado. Axiomas de frame afirmam persistência de propriedades não afetadas por ações, mas proliferação destes axiomas torna representações extensas e manutenção trabalhosa. Abordagens alternativas como cálculo de eventos e programação em lógica com negação por falha proporcionam soluções mais compactas.

Planejamento automatizado aplica raciocínio sobre ações para sintetizar sequências de ações que transformam estado inicial em estado objetivo desejado, sendo fundamental em robótica, sistemas de controle e assistentes inteligentes que devem alcançar metas mediante execução coordenada de ações disponíveis. Algoritmos de planejamento combinam busca em espaço de estados com heurísticas de domínio específico para geração eficiente de planos factíveis.

Planejamento com Ações

Domínio: Mundo de Blocos

Estado Inicial:

• Bloco A está sobre mesa

• Bloco B está sobre mesa

• Bloco C está sobre A

• Representação: OnTable(A), OnTable(B), On(C,A), Clear(C), Clear(B)

Estado Objetivo:

• Bloco A está sobre B

• Bloco C está sobre mesa

• Representação: On(A,B), OnTable(C)

Ações Disponíveis:

• Move(x, y, z): move bloco x de y para z

Precondição: Clear(x) ∧ Clear(z) ∧ On(x,y)

Efeitos: On(x,z), Clear(y), ¬On(x,y), ¬Clear(z)

• Pickup(x): pega bloco x da mesa

Precondição: Clear(x) ∧ OnTable(x) ∧ HandEmpty

Efeitos: Holding(x), ¬OnTable(x), ¬Clear(x), ¬HandEmpty

• Putdown(x): coloca bloco x na mesa

Precondição: Holding(x)

Efeitos: OnTable(x), Clear(x), HandEmpty, ¬Holding(x)

Plano Gerado:

1. Pickup(C) → remove C de cima de A

Estado: Holding(C), Clear(A), OnTable(B), Clear(B)

2. Putdown(C) → coloca C na mesa

Estado: OnTable(A), OnTable(B), OnTable(C), Clear(A), Clear(B), Clear(C)

3. Pickup(A) → pega A da mesa

Estado: Holding(A), OnTable(B), OnTable(C), Clear(B), Clear(C)

4. Stack(A,B) → coloca A sobre B

Estado: On(A,B), OnTable(B), OnTable(C), Clear(A), Clear(C)

Verificação:

• Estado final satisfaz objetivo ✓

• Plano é executável (todas as precondições satisfeitas em cada passo)

Aplicações Práticas

Planejamento automatizado é essencial em logística (rotas de entrega), manufatura (sequenciamento de operações), robótica (navegação e manipulação) e agentes conversacionais (planejamento de diálogo para alcançar objetivos comunicativos).

Inteligência Artificial Simbólica: Processamento de Linguagem Natural
Página 31
Inteligência Artificial Simbólica: Processamento de Linguagem Natural

Lógicas Modais e Epistem ológicas

Lógicas modais estendem lógica clássica com operadores que expressam modalidades como necessidade, possibilidade, conhecimento, crença, obrigação e permissão, permitindo formalização de raciocínio sobre estados possíveis, conhecimento de agentes e normas deônticas. Estas extensões são fundamentais para modelagem de sistemas multiagentes onde diferentes agentes possuem conhecimentos e crenças distintos que evoluem através de comunicação e percepção.

Lógica epistêmica formaliza raciocínio sobre conhecimento mediante operador K onde Kᵢφ expressa que agente i sabe que φ é verdadeira. Axiomas epistêmicos capturam propriedades idealizadas de conhecimento como veracidade (se agente sabe φ, então φ é verdadeira), introspecção positiva (agente sabe que sabe φ) e introspecção negativa (agente sabe que não sabe φ), embora conhecimento humano real frequentemente viole estas idealizações.

Lógica temporal modal combina operadores temporais com modalidades epistêmicas, permitindo expressão de propriedades dinâmicas de conhecimento como "eventualmente todo agente saberá φ" ou "conhecimento de φ persiste invariavelmente através do tempo". Estes formalismos são essenciais para verificação formal de protocolos de comunicação e coordenação em sistemas distribuídos onde sincronização de conhecimento entre agentes é crucial.

Raciocínio Epistêmico

Cenário: Jogo de Cartas

• Três jogadores: Alice (A), Bob (B), Carol (C)

• Cada um recebe uma carta: ♠, ♥, ♦

• Cada jogador vê apenas sua própria carta

Estado Inicial de Conhecimento:

• K_A(carta_A = ♠) → Alice sabe sua carta

• ¬K_A(carta_B = ♥) → Alice não sabe carta de Bob

• ¬K_A(carta_C = ♦) → Alice não sabe carta de Carol

• Similar para Bob e Carol

Anúncio Público:

• Alice anuncia: "Não sei se Bob tem ♥"

• Todos ouvem o anúncio

Raciocínio de Bob:

1. Bob sabe que Alice tem ou ♠ ou ♦ (pois Bob tem ♥)

2. Se Alice tivesse ♦, ela saberia que Bob tem ♥

(pois Carol teria ♠, única opção restante)

3. Mas Alice disse que não sabe se Bob tem ♥

4. Logo, Alice não tem ♦

5. Portanto, Alice tem ♠

6. Bob agora sabe: K_B(carta_A = ♠)

Raciocínio de Carol (simétrico ao de Bob):

• Carol conclui que Alice tem ♠

• Carol agora sabe: K_C(carta_A = ♠)

Conhecimento Comum:

• Após anúncio, todos sabem que Alice tem ♠

• Todos sabem que todos sabem isso

• E assim por diante (conhecimento comum)

• Representação: C(carta_A = ♠)

onde C é operador de conhecimento comum

Inteligência Artificial Simbólica: Processamento de Linguagem Natural
Página 32
Inteligência Artificial Simbólica: Processamento de Linguagem Natural

Integração de Múltiplas Formas de Raciocínio

Sistemas inteligentes práticos raramente dependem exclusivamente de uma única forma de raciocínio, requerendo integração harmoniosa de dedução lógica, raciocínio probabilístico, inferência abdutiva, planejamento baseado em ações e aprendizado a partir de experiências. Esta integração apresenta desafios teóricos e práticos relacionados a combinação de formalismos com semânticas distintas e resolução de conflitos quando diferentes módulos de raciocínio produzem conclusões incompatíveis.

Arquiteturas híbridas combinam componentes simbólicos e subsimbólicos, aproveitando vantagens de representação explícita e inferência transparente de abordagens simbólicas com robustez estatística e capacidades de aprendizado de redes neurais. Estas arquiteturas podem utilizar aprendizado profundo para extração de características e reconhecimento de padrões enquanto empregam raciocínio simbólico para decisões de alto nível que requerem explicação e conformidade com restrições lógicas.

Explicabilidade emerge como preocupação central em inteligência artificial contemporânea, motivada por requisitos regulatórios, considerações éticas e necessidades práticas de debugging e manutenção. Sistemas simbólicos, com suas representações explícitas e cadeias de inferência rastreáveis, oferecem vantagens naturais para explicabilidade que abordagens puramente conexionistas lutam para replicar, sugerindo papel contínuo importante para inteligência artificial simbólica em aplicações críticas.

Sistema Híbrido para Medicina

Arquitetura Integrada:

Camada 1 - Processamento de Dados (Subsimbólico):

• Rede neural analisa imagens médicas

• Identifica padrões visuais: lesões, anomalias, etc.

• Saída: probabilidades de diferentes achados

P(tumor_maligno) = 0,75

P(tumor_benigno) = 0,20

P(normal) = 0,05

Camada 2 - Interpretação Simbólica:

• Sistema simbólico recebe probabilidades

• Integra com conhecimento médico estruturado:

SE P(tumor_maligno) > 0,7 E idade > 50

ENTÃO recomendar_biópsia

• Consulta ontologia médica para confirmar consistência

Camada 3 - Raciocínio Clínico:

• Sistema especialista aplica guidelines médicos:

- Verifica histórico familiar

- Considera sintomas relatados

- Avalia resultados de exames anteriores

• Integra evidências múltiplas:

Achado_imagem ∧ Sintomas ∧ História → Diagnóstico

Camada 4 - Planejamento de Tratamento:

• Se diagnóstico = tumor_maligno:

Objetivos: {remover_tumor, preservar_função, minimizar_efeitos}

• Planer gera sequência de ações:

1. Biópsia confirmatória

2. Estadiamento

3. Cirurgia ou radioterapia (conforme estágio)

4. Acompanhamento

Explicação Gerada:

• "Recomendo biópsia porque:"

- Análise de imagem indica 75% de probabilidade de malignidade

- Paciente tem 58 anos (fator de risco)

- Guidelines recomendam biópsia para P > 0,7

- Histórico familiar positivo aumenta urgência

Vantagens da Integração:

• Precisão de redes neurais em análise de imagens

• Explicabilidade de raciocínio simbólico

• Conformidade com protocolos médicos estabelecidos

• Auditabilidade de decisões clínicas

Inteligência Artificial Simbólica: Processamento de Linguagem Natural
Página 33
Inteligência Artificial Simbólica: Processamento de Linguagem Natural

Capítulo 7: Algoritmos de Processamento Textual

Análise Morfológica e Tokenização

Processamento de linguagem natural inicia-se com decomposição de texto em unidades básicas mediante tokenização que identifica fronteiras entre palavras, pontuação e outros elementos textuais. Esta etapa aparentemente simples apresenta desafios em português devido a fenômenos como contrações ("do" = "de" + "o"), enclíticos pronominais ("dá-me" = "dá" + "me") e ambiguidades de pontuação que requerem análise contextual para resolução adequada.

Análise morfológica decompõe palavras em morfemas constituintes, identificando raízes, prefixos, sufixos e flexões que determinam propriedades gramaticais como gênero, número, tempo verbal e pessoa. Português, língua com morfologia rica especialmente em sistema verbal, requer analisadores morfológicos sofisticados que reconheçam irregularidades e variações dialetais preservando cobertura abrangente de formas possíveis.

Stemming e lemmatização reduzem palavras flexionadas a formas canônicas, facilitando recuperação de informação e agrupamento de variantes morfológicas relacionadas. Stemming aplica regras heurísticas que removem sufixos comuns, abordagem rápida mas imprecisa, enquanto lemmatização utiliza análise morfológica completa para identificação precisa de lemas, sendo mais custosa computacionalmente mas linguisticamente mais adequada.

Análise Morfológica do Português

Palavra: "correram"

Decomposição Morfológica:

• Raiz: corr- (relacionada a "correr")

• Vogal temática: -e- (característica de 2ª conjugação)

• Desinência modo-temporal: -ra- (pretérito perfeito)

• Desinência número-pessoal: -m (3ª pessoa plural)

• Estrutura: corr + e + ra + m

Informações Extraídas:

• Categoria: verbo

• Infinitivo (lema): correr

• Tempo: pretérito perfeito

• Pessoa: 3ª

• Número: plural

Stemming vs. Lemmatização:

• Palavra: "computadores"

• Stemming (Porter): "comput"

- Remove sufixo "-adores"

- Resultado: forma não-palavra

• Lemmatização: "computador"

- Identifica sufixo plural "-es"

- Retorna forma singular (lema válido)

Desafios do Português:

1. Verbos irregulares:

"foi" → lema "ir" ou "ser"? (ambiguidade)

Requer desambiguação contextual

2. Contrações:

"deste" → "de" + "este" ou forma de "dar"?

"desta" → "de" + "esta" ou "de" + "este" (feminino)?

3. Enclíticos:

"dá-me" → "dar" + pronome "me"

"dá-mo" → "dar" + "me" + "o" (contração de pronomes)

Inteligência Artificial Simbólica: Processamento de Linguagem Natural
Página 34
Inteligência Artificial Simbólica: Processamento de Linguagem Natural

Etiquetagem Morfossintática

Etiquetagem morfossintática ou POS tagging atribui categorias gramaticais (substantivo, verbo, adjetivo, etc.) a cada palavra em sentença, resolvendo ambiguidades lexicais onde mesma forma superficial pode corresponder a diferentes categorias dependendo de contexto sintático. Esta análise, embora aparentemente simples, apresenta desafios significativos devido à prevalência de ambiguidade categorial em línguas naturais.

Algoritmos baseados em Modelos Ocultos de Markov modelam probabilisticamente transições entre categorias gramaticais e emissões de palavras dadas categorias, permitindo identificação da sequência de etiquetas mais provável para sentença dada mediante algoritmo de Viterbi. Abordagens mais recentes utilizam redes neurais recorrentes que capturam dependências de longo alcance e contextualização bidirecional para precisão melhorada.

Desambiguação contextual requer consideração de vizinhança sintática, sendo casos típicos a distinção entre substantivos e verbos homônimos ("canto" como substantivo vs. forma verbal), adjetivos que funcionam como substantivos via substantivação ("o bom, o belo e o verdadeiro"), e advérbios que modificam diferentes constituintes conforme posição sintática.

Desambiguação de Categorias

Sentença Ambígua:

• "O banco estava lotado esta manhã"

Análise de "banco":

• Possibilidade 1: banco = substantivo (instituição financeira)

• Possibilidade 2: banco = substantivo (assento)

• Categoria: SUBSTANTIVO (não-ambígua categorialmente)

• Ambiguidade é semântica (sentido), não morfossintática

Sentença com Ambiguidade Categorial:

• "O soldado canto do quartel"

Análise de "canto":

• Hipótese 1: canto = SUBSTANTIVO

"O soldado [no] canto do quartel"

(preposição omitida em registro coloquial)

• Hipótese 2: canto = VERBO

"O soldado canta [música] do quartel"

(objeto direto omitido)

Desambiguação por Contexto:

• Padrão: ARTIGO + SUBSTANTIVO + ??? + PREPOSIÇÃO + SUBSTANTIVO

• "O soldado canto do quartel"

• Sequência esperada após substantivo: VERBO ou PREPOSIÇÃO

• "canto" seguido de preposição "do" sugere SUBSTANTIVO

• Decisão: canto = SUBSTANTIVO ✓

Algoritmo de Viterbi Simplificado:

• Estado 1: "O" → ARTIGO (probabilidade = 1,0)

• Estado 2: "soldado" → SUBSTANTIVO (após ARTIGO: P = 0,9)

• Estado 3: "canto" → ?

- P(SUBST | SUBST anterior) = 0,3

- P(VERBO | SUBST anterior) = 0,6

• Estado 4: "do" → PREP+ART

- P(PREP | SUBST anterior) = 0,7

- P(PREP | VERBO anterior) = 0,1

• Caminho mais provável:

ART → SUBST → SUBST → PREP (score mais alto)

Precisão Prática

Sistemas estado-da-arte de etiquetagem morfossintática alcançam precisão superior a 97% em textos bem-formados, com erros concentrando-se em casos genuinamente ambíguos mesmo para falantes nativos e em palavras raras não observadas durante treinamento.

Inteligência Artificial Simbólica: Processamento de Linguagem Natural
Página 35
Inteligência Artificial Simbólica: Processamento de Linguagem Natural

Reconhecimento de Entidades Nomeadas

Reconhecimento de entidades nomeadas identifica e classifica menções a entidades específicas em textos, incluindo pessoas, organizações, localizações geográficas, datas, valores monetários e outras categorias de interesse dependendo de domínio aplicacional. Esta tarefa é fundamental para extração de informação estruturada, busca semântica e construção de bases de conhecimento a partir de textos não-estruturados.

Desafios incluem ambiguidade entre nomes comuns e próprios ("Lima" como cidade vs. fruta), variabilidade na menção a mesmas entidades ("Brasil", "República Federativa do Brasil", "nosso país"), e necessidade de conhecimento de mundo para classificação adequada de entidades em contextos específicos. Reconhecimento robusto requer integração de análise linguística com recursos externos como gazetteers e bases de conhecimento.

Abordagens simbólicas utilizam regras baseadas em padrões linguísticos característicos e listas de entidades conhecidas, enquanto métodos estatísticos treinam classificadores sobre corpora anotados. Sistemas híbridos combinam ambas as estratégias, utilizando regras para casos claros e classificadores para situações ambíguas, alcançando equilíbrio entre precisão e cobertura.

Extração de Entidades

Texto:

• "João da Silva nasceu em Uberlândia em 15 de março de 1985 e trabalha na Petrobras desde 2010."

Entidades Identificadas:

• [PESSOA: João da Silva]

- Padrão: Nome próprio + sobrenome

- Verbo "nasceu" típico de pessoas

• [LOCAL: Uberlândia]

- Após preposição "em" (locativa)

- Presente em gazetteer de cidades brasileiras

• [DATA: 15 de março de 1985]

- Padrão: número + "de" + mês + "de" + ano

- Contexto: data de nascimento

• [ORGANIZAÇÃO: Petrobras]

- Nome próprio após preposição "na"

- Lista de empresas conhecidas

- Verbo "trabalha" típico de organizações empregadoras

• [DATA: 2010]

- Número de quatro dígitos (ano)

- Contexto temporal "desde"

Casos Ambíguos:

1. "Washington aprovou nova lei"

- Washington = [PESSOA] (presidente)?

- Washington = [LOCAL] (capital)?

- Resolução: verbo "aprovou" + "lei" sugere entidade gov human: governamental

- Provável: [ORGANIZAÇÃO: Congresso em Washington]

2. "Apple lançou novo iPhone"

- Apple = [ORGANIZAÇÃO] (empresa) ✓

- Não confundir com fruta (contexto tecnológico)

Normalização de Entidades:

• "Presidente Lula", "Lula", "Luiz Inácio Lula da Silva"

• Todas referem-se à mesma pessoa

• Sistema deve co-referenciar e criar identificador único

Inteligência Artificial Simbólica: Processamento de Linguagem Natural
Página 36
Inteligência Artificial Simbólica: Processamento de Linguagem Natural

Extração de Relações

Extração de relações identifica associações semânticas entre entidades mencionadas em textos, construindo triplas estruturadas que capturam fatos explícitos ou implícitos sobre mundo descrito. Relações típicas incluem emprego (pessoa trabalha em organização), localização (entidade situada em local), parentesco (pessoa relacionada a outra pessoa) e propriedade (entidade possui atributo), entre muitas outras dependendo de domínio aplicacional.

Padrões linguísticos característicos facilitam identificação de relações, como construções verbais específicas que tipicamente expressam determinadas relações semânticas. Por exemplo, verbos como "fundou", "criou" e "estabeleceu" frequentemente indicam relação de fundação entre pessoa e organização, enquanto "localizado em", "situado em" e "fica em" sugerem relações espaciais. Aprendizado destes padrões pode ser automatizado através de análise de corpora anotados.

Bases de conhecimento populadas mediante extração de relações proporcionam substrato para sistemas de pergunta-resposta, busca semântica e descoberta de conhecimento novo através de inferência sobre fatos extraídos. Qualidade de extração impacta diretamente utilidade de bases resultantes, motivando investimento em técnicas robustas que combinam análise linguística profunda com validação mediante fontes múltiplas e consistência lógica.

Identificação de Relações

Texto:

• "Maria Silva, engenheira nascida em Belo Horizonte, trabalha na Embraer desde 2015 desenvolvendo sistemas autônomos."

Entidades Identificadas:

• E1: [PESSOA: Maria Silva]

• E2: [PROFISSÃO: engenheira]

• E3: [LOCAL: Belo Horizonte]

• E4: [ORGANIZAÇÃO: Embraer]

• E5: [DATA: 2015]

• E6: [ATIVIDADE: sistemas autônomos]

Relações Extraídas:

1. tem_profissão(E1, E2)

• Maria Silva → engenheira

• Padrão: NP, NP_profissão (aposição)

2. nasceu_em(E1, E3)

• Maria Silva → Belo Horizonte

• Padrão verbal: "nascida em"

3. trabalha_em(E1, E4)

• Maria Silva → Embraer

• Verbo "trabalha" + preposição "na"

4. desde(trabalha_em(E1, E4), E5)

• Relação temporal: início em 2015

• Modificador temporal "desde"

5. desenvolve(E1, E6)

• Maria Silva → sistemas autônomos

• Gerúndio "desenvolvendo" indica atividade

Representação em Triplas:

• (Maria_Silva, profissão, engenheira)

• (Maria_Silva, local_nascimento, Belo_Horizonte)

• (Maria_Silva, empregador, Embraer)

• (Maria_Silva, ano_início_emprego, 2015)

• (Maria_Silva, área_atuação, sistemas_autônomos)

Inferências Possíveis:

• Maria Silva é brasileira (Belo Horizonte é no Brasil)

• Maria Silva trabalha na área aeroespacial (Embraer é empresa aeroespacial)

• Maria Silva tem pelo menos 10 anos de experiência (2015 → 2025)

Aplicações Práticas

Extração de relações alimenta construção automatizada de grafos de conhecimento utilizados por mecanismos de busca para enriquecimento de resultados, assistentes virtuais para resposta a perguntas factuais, e sistemas de recomendação para identificação de itens relacionados por múltiplas dimensões semânticas.

Inteligência Artificial Simbólica: Processamento de Linguagem Natural
Página 37
Inteligência Artificial Simbólica: Processamento de Linguagem Natural

Análise de Sentimento e Opinião

Análise de sentimento identifica atitudes, emoções e opiniões expressas em textos, classificando polaridade afetiva como positiva, negativa ou neutra e detectando emoções específicas como alegria, raiva, tristeza e surpresa. Esta capacidade é fundamental para monitoramento de opinião pública, análise de feedback de clientes, detecção de tendências sociais e sistemas de recomendação sensíveis a preferências expressas linguisticamente.

Léxicos de sentimento catalogam palavras e expressões com polaridades afetivas associadas, proporcionando recursos básicos para análise baseada em regras que agrega polaridades de termos individuais para determinar sentimento global de textos. Abordagens mais sofisticadas consideram modificadores como negação que invertem polaridade, intensificadores que amplificam sentimento, e construções condicionais que estabelecem sentimento contingente a situações hipotéticas.

Análise de sentimento dependente de aspecto identifica alvos específicos de opiniões e sentimentos associados a cada aspecto mencionado, permitindo caracterização multidimensional de avaliações complexas. Por exemplo, resenha de restaurante pode expressar sentimento positivo sobre comida mas negativo sobre atendimento, requerendo identificação separada de aspectos e sentimentos correspondentes para análise útil.

Análise de Sentimento Multi-Aspecto

Resenha de Hotel:

• "O quarto era amplo e confortável, mas o atendimento deixou muito a desejar. A localização é excelente, próxima ao centro. Porém, o café da manhã era fraco e repetitivo."

Análise por Aspectos:

1. Aspecto: Quarto

• Menções: "amplo", "confortável"

• Polaridade: POSITIVA (+2)

• Termos positivos sem negação

2. Aspecto: Atendimento

• Menção: "deixou muito a desejar"

• Polaridade: NEGATIVA (-3)

• Expressão idiomática negativa intensificada por "muito"

3. Aspecto: Localização

• Menções: "excelente", "próxima ao centro"

• Polaridade: POSITIVA (+3)

• Adjetivo superlativo positivo

4. Aspecto: Café da Manhã

• Menções: "fraco", "repetitivo"

• Polaridade: NEGATIVA (-2)

• Dois adjetivos negativos conectados por "e"

Tratamento de Conectivos Contrastivos:

• "mas", "porém" → sinalizam mudança de polaridade

• Sentimento após "mas" geralmente tem peso maior

• Sentença 1: positivo MAS negativo → ênfase no negativo

• Sentença 2: positivo MAS negativo → estrutura similar

Agregação de Sentimento Global:

• Positivos: +2 (quarto) +3 (localização) = +5

• Negativos: -3 (atendimento) -2 (café) = -5

• Score global: NEUTRO (empate entre positivo e negativo)

• Interpretação: avaliação mista com pontos fortes e fracos

Aplicação em Sistema de Recomendação:

• Usuário valoriza localização → recomendar este hotel

• Usuário valoriza atendimento → evitar este hotel

• Perfil personalizado determina peso de cada aspecto

Inteligência Artificial Simbólica: Processamento de Linguagem Natural
Página 38
Inteligência Artificial Simbólica: Processamento de Linguagem Natural

Sumarização Automática de Textos

Sumarização automática produz versões condensadas de textos preservando informações mais importantes e estrutura argumentativa central, facilitando consumo eficiente de conteúdo informacional em contextos onde tempo ou atenção são limitados. Métodos dividem-se fundamentalmente em abordagens extrativas que selecionam sentenças originais para inclusão em resumo e abordagens abstrativas que geram paráfrases condensadas mediante reformulação linguística criativa.

Sumarização extrativa utiliza métricas de importância para classificação de sentenças conforme relevância informacional, considerando fatores como posição no texto, frequência de termos significativos, similaridade com título ou primeiro parágrafo, e centralidade em grafo de similaridade entre sentenças. Seleção subsequente combina sentenças importantes respeitando restrições de comprimento e evitando redundância mediante detecção de similaridade entre candidatos.

Sumarização abstrativa requer capacidades de geração de linguagem natural que reformulem conteúdo original mediante paráfrase, fusão de informações de múltiplas sentenças, e generalização de detalhes específicos para conceitos mais abstratos. Esta abordagem produz resumos mais fluentes e coesos mas apresenta riscos de introduzir distorções semânticas ou factualmente incorretas que comprometem fidelidade ao texto original.

Sumarização Extrativa

Texto Original (3 parágrafos):

• P1: "Cientistas brasileiros desenvolveram nova tecnologia de dessalinização que reduz custos de produção de água potável em 40%. A técnica utiliza membranas de grafeno modificado."

• P2: "O projeto foi desenvolvido na Universidade Federal do Rio de Janeiro ao longo de cinco anos com financiamento da FAPESP. Participaram 12 pesquisadores de diferentes áreas."

• P3: "A tecnologia já está sendo testada em escala piloto no semiárido nordestino. Resultados preliminares indicam viabilidade técnica e econômica promissora."

Análise de Importância:

• P1: Score = 0,85

- Primeira sentença (posição privilegiada)

- Contém informação principal (nova tecnologia)

- Termos-chave: tecnologia, dessalinização, redução de custos

• P2: Score = 0,45

- Informação contextual (instituição, financiamento)

- Menos central para mensagem principal

• P3: Score = 0,70

- Informação sobre implementação (relevante)

- Menciona resultados (importante)

- Conecta pesquisa com aplicação prática

Resumo Extrativo (50% de compressão):

• Seleção: P1 + P3 (scores mais altos)

• Resultado: "Cientistas brasileiros desenvolveram nova tecnologia de dessalinização que reduz custos de produção de água potável em 40%. A tecnologia já está sendo testada em escala piloto no semiárido nordestino."

Resumo Abstrativo:

• "Pesquisadores brasileiros criaram método inovador de dessalinização com redução significativa de custos, atualmente em teste piloto no Nordeste."

• Características: reformulação, fusão de informações, generalização

Escolha de Abordagem

Sumarização extrativa garante fidelidade factual ao texto original mas pode produzir resumos menos fluentes. Sumarização abstrativa gera textos mais naturais mas requer validação cuidadosa para evitar distorções ou alucinações factuais, especialmente em domínios técnicos ou sensíveis.

Inteligência Artificial Simbólica: Processamento de Linguagem Natural
Página 39
Inteligência Artificial Simbólica: Processamento de Linguagem Natural

Capítulo 8: Aplicações em Linguagem Natural

Sistemas de Pergunta-Resposta

Sistemas de pergunta-resposta proporcionam acesso direto a informações específicas mediante consultas em linguagem natural, eliminando necessidade de navegação através de documentos extensos ou formulação de queries estruturadas complexas. Estes sistemas, que variam de assistentes virtuais domésticos a ferramentas especializadas para pesquisa científica ou jurídica, representam interface natural entre usuários humanos e vastas bases de conhecimento digital.

Processamento de perguntas envolve análise sintática para identificação de tipo de pergunta (quem, o que, quando, onde, por que, como), extração de foco semântico que determina tipo de resposta esperada, e formulação de consultas estruturadas que recuperam documentos ou fatos relevantes de bases de dados. Classificação de perguntas orienta estratégias de busca e validação de respostas candidatas conforme expectativas tipológicas.

Extração de respostas localiza passagens textuais que contêm informações solicitadas, empregando técnicas de casamento semântico entre perguntas reformuladas e candidatos potenciais, validação mediante padrões linguísticos característicos de respostas válidas, e ranking de alternativas conforme confiança e relevância. Sistemas sofisticados integram múltiplas fontes de evidência e sintetizam respostas coerentes quando informação completa distribui-se fragmentadamente.

Sistema de Perguntas-Respostas

Pergunta do Usuário:

• "Quem foi o primeiro presidente do Brasil?"

Análise da Pergunta:

• Tipo: Pergunta do tipo "Quem" → resposta esperada: PESSOA

• Foco semântico: "primeiro presidente"

• Restrição temporal: implícita (história)

• Restrição geográfica: "do Brasil"

Reformulações para Busca:

• "primeiro presidente Brasil"

• "presidente inicial Brasil"

• "fundação república Brasil presidente"

• Variações aumentam cobertura de busca

Documentos Recuperados:

• Doc1: "Deodoro da Fonseca foi proclamado primeiro presidente..."

• Doc2: "A República foi instituída em 1889 com Deodoro..."

• Doc3: "Marechal Deodoro liderou o governo provisório..."

Extração de Resposta Candidata:

• Candidato 1: "Deodoro da Fonseca" (Doc1)

- Padrão identificado: "X foi proclamado primeiro presidente"

- Tipo semântico: PESSOA ✓

- Confiança: 0,95

• Candidato 2: "Marechal Deodoro" (Doc3)

- Referência à mesma pessoa

- Correferência detectada

Validação:

• Múltiplas fontes confirmam resposta

• Tipo semântico correto (pessoa, não data ou local)

• Contexto histórico consistente

Resposta Final:

• "O primeiro presidente do Brasil foi Deodoro da Fonseca, proclamado em 1889."

• Resposta enriquecida com contexto temporal

• Fonte: múltiplos documentos consistentes

Inteligência Artificial Simbólica: Processamento de Linguagem Natural
Página 40
Inteligência Artificial Simbólica: Processamento de Linguagem Natural

Tradução Automática

Tradução automática transpõe textos entre idiomas preservando significado e fluência na língua alvo, quebrando barreiras linguísticas que limitam comunicação global e acesso a conhecimento. Abordagens historicamente evoluíram de métodos baseados em regras que codificavam conhecimento linguístico explícito, passando por métodos estatísticos que aprendiam correspondências de corpora paralelos, até sistemas neurais contemporâneos que capturam padrões complexos mediante redes profundas.

Tradução baseada em regras requer gramáticas contrastivas que mapeiam estruturas sintáticas entre línguas, léxicos bilíngues com correspondências palavra-a-palavra e regras de transferência que adaptam construções idiomáticas e dependentes de contexto. Esta abordagem, embora laboriosa em desenvolvimento, proporciona controle fino sobre qualidade de saída e explicabilidade de decisões tradutórias, sendo valiosa para pares de línguas com recursos limitados.

Desafios incluem ambiguidade lexical onde palavras possuem múltiplas traduções dependendo de contexto, divergências estruturais onde línguas organizam informação diferentemente, e expressões idiomáticas que requerem tradução não-literal para preservação de significado. Sistemas robustos integram análise profunda de língua fonte, representação semântica intermediária independente de língua, e geração adaptada às convenções estilísticas da língua alvo.

Desafios em Tradução Português-Inglês

Desafio 1 - Ambiguidade Lexical:

• Português: "O banco estava fechado"

• Opção 1: "The bank was closed" (instituição financeira)

• Opção 2: "The bench was closed" (assento - incomum)

• Resolução: contexto sugere instituição financeira

Desafio 2 - Divergência Estrutural:

• Português: "João tem 25 anos"

• Literal: "João has 25 years" ✗ (agramatical em inglês)

• Correto: "João is 25 years old" ✓

• Português usa "ter" para idade, inglês usa "ser"

Desafio 3 - Expressões Idiomáticas:

• Português: "Está chovendo canivetes"

• Literal: "It's raining penknives" ✗ (sem sentido)

• Equivalente idiomático: "It's raining cats and dogs" ✓

• Requer conhecimento de expressões equivalentes

Desafio 4 - Ordem de Palavras:

• Português: "A casa vermelha grande"

• Inglês: "The big red house"

• Adjetivos de tamanho precedem cor em inglês

• Ordem inversa ao português

Desafio 5 - Pronomes Sujeito:

• Português: "Estudei muito ontem"

• Pronome implícito na flexão verbal (eu estudei)

• Inglês: "I studied a lot yesterday"

• Pronome explícito obrigatório

Pipeline de Tradução Simbólica:

1. Análise morfossintática (língua fonte)

2. Análise semântica (identificar significados)

3. Transferência estrutural (mapear para língua alvo)

4. Geração morfossintática (língua alvo)

5. Pós-processamento (fluência e naturalidade)

Inteligência Artificial Simbólica: Processamento de Linguagem Natural
Página 41
Inteligência Artificial Simbólica: Processamento de Linguagem Natural

Assistentes Conversacionais

Assistentes conversacionais implementam interfaces dialogais que permitem interação natural entre humanos e sistemas computacionais, suportando consultas informacionais, execução de tarefas práticas, e conversação social que estabelece rapport com usuários. Estes sistemas, cada vez mais ubíquos em dispositivos móveis e ambientes domésticos, representam culminação de décadas de pesquisa em processamento de linguagem natural e gestão de diálogo.

Gestão de diálogo coordena múltiplos turnos conversacionais mantendo coerência de interação através de rastreamento de contexto, identificação de intenções comunicativas em cada turno, e seleção de ações apropriadas que progridem diálogo em direção a objetivos estabelecidos. Estados de diálogo capturam informações acumuladas sobre necessidades do usuário, histórico de interações e tarefas pendentes que aguardam resolução ou confirmação.

Geração de linguagem natural produz respostas fluentes e contextualmente apropriadas mediante seleção de conteúdo relevante, estruturação de mensagens conforme convenções conversacionais, e realização superficial que adapta formulação linguística a registros formais ou informais dependendo de contexto e preferências de usuários. Personalização de estilo contribui para percepção de naturalidade e estabelece identidade distintiva de assistentes.

Diálogo com Assistente Virtual

Turno 1:

• Usuário: "Preciso acordar cedo amanhã"

• Análise de intenção: NECESSIDADE_ALARME

• Parâmetros faltantes: horário específico

• Assistente: "A que horas você precisa acordar?"

• Estratégia: solicitar informação obrigatória faltante

Turno 2:

• Usuário: "Às seis"

• Resolução anafórica implícita: "seis horas"

• Desambiguação temporal: 6h da manhã (contexto "acordar")

• Estado atualizado: horário = 06:00

• Assistente: "Alarme configurado para 6h da manhã. Posso ajudar com mais alguma coisa?"

• Confirmação explícita + abertura para novas solicitações

Turno 3:

• Usuário: "Me lembre de tomar remédio quando tocar"

• Intenção: CRIAR_LEMBRETE

• Referência temporal: "quando tocar" = quando alarme disparar

• Vinculação: lembrete associado ao alarme configurado

• Assistente: "Ok, vou lembrar você de tomar o remédio quando o alarme tocar às 6h."

• Confirmação que integra informações de turnos anteriores

Gestão de Contexto:

• Contexto mantido: alarme_6h, lembrete_remédio

• Relação entre objetos: lembrete ← alarme

• Pronomes e referências resolvidos via contexto

Tratamento de Ambiguidade:

• Se usuário diz apenas "às seis":

- Sistema assume manhã (contexto "acordar")

- Mas confirma explicitamente para evitar erro

Design de Diálogos

Diálogos efetivos equilibram eficiência (minimizar turnos necessários) com robustez (confirmar informações críticas) e naturalidade (respeitar convenções conversacionais humanas). Estratégias adaptativas ajustam verbosidade conforme expertise e preferências de usuários individuais.

Inteligência Artificial Simbólica: Processamento de Linguagem Natural
Página 42
Inteligência Artificial Simbólica: Processamento de Linguagem Natural

Correção Gramatical e Estilística

Sistemas de correção automática identificam e sugerem reparos para erros gramaticais, ortográficos e estilísticos em textos, auxiliando escritores na produção de conteúdo polido e conforme normas linguísticas estabelecidas. Estas ferramentas, integradas em processadores de texto e plataformas de escrita online, democratizam acesso a revisão de qualidade previamente limitada a contextos profissionais especializados.

Detecção de erros ortográficos identifica palavras ausentes em léxicos de referência, sugere correções baseadas em similaridade fonética ou ortográfica, e valida sugestões mediante análise contextual que filtra candidatos implausíveis sintaticamente ou semanticamente. Erros reais de digitação distinguem-se de neologismos intencionais, nomes próprios e terminologia técnica mediante heurísticas e aprendizado de vocabulário personalizado.

Verificação gramatical detecta violações de concordância, regência inadequada, colocações pronominais incorretas e construções sintáticas malformadas mediante análise sintática que compara estruturas observadas com padrões gramaticais normativos. Sugestões de correção consideram múltiplas alternativas viáveis, apresentando opções que preservam intenção comunicativa enquanto corrigem desvios identificados.

Detecção e Correção de Erros

Erro 1 - Concordância Verbal:

• Texto: "Os alunos estuda matemática"

• Problema: sujeito plural + verbo singular

• Regra violada: concordância número-pessoal

• Correção: "Os alunos estudam matemática"

• Explicação: verbo deve concordar com sujeito plural

Erro 2 - Regência Verbal:

• Texto: "Assisti o filme ontem"

• Problema: verbo "assistir" (sentido ver) exige preposição "a"

• Regra: assistir (ver) = verbo transitivo indireto

• Correção: "Assisti ao filme ontem"

• Nota: "assistir" sem preposição = "ajudar, prestar assistência"

Erro 3 - Colocação Pronominal:

• Texto: "Me disseram que haveria aula"

• Problema: próclise em início de frase (registro formal)

• Norma culta: evitar pronome átono iniciando sentença

• Correção formal: "Disseram-me que haveria aula"

• Alternativa: "Eles me disseram que haveria aula"

Erro 4 - Ortografia:

• Texto: "Ele está concerteza errado"

• Problema: "concerteza" não existe (junção incorreta)

• Análise: "com certeza" = locução adverbial (separado)

• Correção: "Ele está com certeza errado"

• Confusão comum: "com certeza" vs. "concerto" (musical)

Verificação Estilística:

• Texto: "A situação se encontra difícil"

• Problema: gerundismo, voz passiva desnecessária

• Sugestão mais direta: "A situação está difícil"

• Melhoria: clareza e concisão

Sistema de Sugestões:

• Níveis de confiança em correções:

- Alta: correções ortográficas óbvias

- Média: concordâncias e regências

- Baixa: sugestões estilísticas (preferências)

Inteligência Artificial Simbólica: Processamento de Linguagem Natural
Página 43
Inteligência Artificial Simbólica: Processamento de Linguagem Natural

Análise Inteligente de Documentos

Análise inteligente de documentos extrai automaticamente informações estruturadas de textos não-estruturados, identificando seções temáticas, classificando documentos conforme tipologias estabelecidas, e populando formulários ou bases de dados com dados relevantes extraídos. Esta capacidade transforma documentos em ativos informacionais pesquisáveis e processáveis computacionalmente, sendo fundamental para gestão de conhecimento organizacional e conformidade regulatória.

Classificação de documentos atribui categorias temáticas ou funcionais a textos completos baseando-se em vocabulário característico, estrutura discursiva e padrões estilísticos distintivos de gêneros textuais diversos. Sistemas de classificação treinados em corpora anotados aprendem discriminar entre tipos documentais como contratos legais, artigos científicos, comunicados oficiais e correspondências informais, facilitando roteamento automatizado e organização de repositórios extensos.

Extração de informação estruturada identifica campos específicos em documentos semi-estruturados como formulários, faturas e relatórios, mapeando valores textuais para slots em templates predefinidos mediante reconhecimento de padrões característicos e validação de tipos esperados. Esta automação reduz drasticamente esforço manual de digitação e transcrição, acelerando workflows documentais em contextos administrativos e comerciais.

Processamento de Documentos Fiscais

Documento: Nota Fiscal Eletrônica

Template de Extração:

• Campos obrigatórios:

- Número da nota

- Data de emissão

- CNPJ do emitente

- Razão social do emitente

- CNPJ do destinatário

- Valor total

- Impostos (ICMS, PIS, COFINS, etc.)

Texto Bruto Parcial:

• "NOTA FISCAL ELETRÔNICA Nº 12.345

Emitida em: 15/01/2025

EMITENTE: Tech Solutions LTDA

CNPJ: 12.345.678/0001-90

DESTINATÁRIO: ABC Comércio

CNPJ: 98.765.432/0001-10

Valor Total: R$ 5.430,00

ICMS: R$ 652,00"

Processo de Extração:

1. Identificação de Seções:

• Cabeçalho (número e data)

• Dados do emitente

• Dados do destinatário

• Valores e impostos

2. Extração por Padrões:

• Número: regex → "\d{2}\.\d{3}"

• Data: padrão → "DD/MM/AAAA"

• CNPJ: padrão → "XX.XXX.XXX/XXXX-XX"

• Valores: padrão → "R$" seguido de número

3. Validação:

• CNPJ: validar dígitos verificadores

• Data: verificar coerência temporal

• Valores: somar componentes = total

Saída Estruturada (JSON):

• {

"numero_nota": "12345",

"data_emissao": "2025-01-15",

"emitente": {

"razao_social": "Tech Solutions LTDA",

"cnpj": "12345678000190"

},

"destinatario": {

"razao_social": "ABC Comércio",

"cnpj": "98765432000110"

},

"valores": {

"total": 5430.00,

"icms": 652.00

}

}

Aplicação:

• Dados inseridos automaticamente em sistema contábil

• Redução de 95% no tempo de processamento

• Eliminação de erros de digitação

Inteligência Artificial Simbólica: Processamento de Linguagem Natural
Página 44
Inteligência Artificial Simbólica: Processamento de Linguagem Natural

Recuperação de Informação Semântica

Recuperação de informação identifica documentos relevantes em coleções extensas mediante comparação entre consultas de usuários e conteúdos documentais, classificando resultados conforme relevância estimada. Sistemas modernos transcendem casamento superficial de palavras-chave, empregando análise semântica que reconhece sinonímia, paráfrase e relações conceituais que permitem recuperação de documentos relevantes mesmo quando vocabulário difere de consulta original.

Expansão de consultas enriquece queries originais mediante adição de termos relacionados semanticamente, aumentando recall sem comprometer excessivamente precisão. Técnicas incluem expansão por sinônimos extraídos de thesauri, termos co-ocorrentes frequentes em documentos relevantes conhecidos, e conceitos relacionados em ontologias de domínio que capturam conhecimento estruturado sobre relações entre tópicos.

Ranking de resultados ordena documentos recuperados conforme estimativas de relevância que consideram múltiplos fatores incluindo frequência de termos de consulta ponderada por raridade global, proximidade espacial entre termos de consulta em documentos, autoridade de fontes medida por citações ou links entrantes, e sinais de qualidade como atualidade e completude. Modelos probabilísticos e baseados em aprendizado otimizam pesos destes fatores mediante exemplos de julgamentos de relevância.

Busca Semântica

Consulta do Usuário:

• "tratamentos para diabetes"

Expansão da Consulta:

• Termos originais: tratamentos, diabetes

• Sinônimos adicionados:

- tratamentos → terapia, medicação, controle

- diabetes → diabete, hiperglicemia, glicemia elevada

• Termos relacionados (ontologia médica):

- insulina, metformina, dieta, exercício

• Consulta expandida: {tratamentos OU terapia OU medicação} E {diabetes OU diabete OU hiperglicemia}

Documentos Candidatos:

• Doc1: "Novas terapias para controle glicêmico em pacientes diabéticos"

- Termos casados: terapia (sinônimo), diabéticos (variação)

- Score de relevância: 0,85

• Doc2: "Metformina como primeira linha no tratamento da diabetes tipo 2"

- Termos casados: tratamento (direto), diabetes (direto), metformina (relacionado)

- Score de relevância: 0,92

• Doc3: "Exercício físico melhora controle glicêmico"

- Termos casados: controle (sinônimo), glicêmico (relacionado)

- Score de relevância: 0,70

Ranking Final:

1. Doc2 (0,92) - alta correspondência direta + termo específico

2. Doc1 (0,85) - correspondência via sinônimos

3. Doc3 (0,70) - correspondência indireta via termos relacionados

Técnicas de Análise Semântica:

• Reconhecimento de paráfrases:

- "tratamento para diabetes" ≈ "terapia do diabete"

• Desambiguação contextual:

- "diabetes" no contexto médico (não outras acepções)

• Identificação de relações:

- insulina TRATA diabetes (conhecimento de domínio)

Precisão vs. Cobertura

Expansão excessiva de consultas aumenta recall mas pode comprometer precisão ao recuperar documentos tangencialmente relacionados. Sistemas efetivos equilibram estes objetivos mediante ponderação adaptativa de termos expandidos conforme confiança em relações semânticas identificadas.

Inteligência Artificial Simbólica: Processamento de Linguagem Natural
Página 45
Inteligência Artificial Simbólica: Processamento de Linguagem Natural

Capítulo 9: Exercícios Resolvidos e Propostos

Exercícios de Análise Morfossintática

Esta seção apresenta exercícios progressivamente desafiadores que desenvolvem competências práticas em análise morfossintática, parsing, representação semântica e aplicações de processamento de linguagem natural. Problemas resolvidos ilustram metodologias sistemáticas de resolução, enquanto exercícios propostos proporcionam oportunidades de prática independente que consolidam compreensão conceitual através de aplicação ativa.

Exercícios abordam aspectos fundamentais como tokenização e análise morfológica do português, etiquetagem de categorias gramaticais, construção de árvores sintáticas para sentenças complexas, e tradução entre representações linguísticas e lógicas formais. Progressão cuidadosa assegura que estudantes desenvolvam fluência técnica antes de enfrentarem problemas integradores que exigem síntese de múltiplas competências.

Problemas aplicados conectam teoria com contextos práticos, demonstrando como técnicas estudadas suportam aplicações reais em assistentes conversacionais, sistemas de recuperação de informação, análise de sentimento e outras áreas onde processamento de linguagem natural agrega valor tangível. Esta orientação aplicacional motiva aprendizado e prepara estudantes para desafios profissionais em carreiras tecnológicas.

Exercício Resolvido: Análise Sintática

Problema: Construa árvore sintática para sentença "O professor explicou o teorema aos alunos."

Solução:

Passo 1 - Identificar categorias:

• O → Det (determinante)

• professor → N (substantivo)

• explicou → V (verbo)

• o → Det

• teorema → N

• aos → Prep (preposição) + Det (contração de "a" + "os")

• alunos → N

Passo 2 - Identificar sintagmas:

• "O professor" → SN (sintagma nominal)

• "explicou o teorema aos alunos" → SV (sintagma verbal)

• "o teorema" → SN (objeto direto)

• "aos alunos" → SP (sintagma preposicional, objeto indireto)

Passo 3 - Construir árvore:

• [S

[SN [Det O] [N professor]]

[SV

[V explicou]

[SN [Det o] [N teorema]]

[SP [Prep aos] [SN [N alunos]]]]

]

Passo 4 - Análise de papéis semânticos:

• "O professor" → Agente (quem explica)

• "o teorema" → Tema (o que é explicado)

• "aos alunos" → Beneficiário/Recipiente (para quem explica)

Passo 5 - Representação em dependências:

• explicou (RAIZ)

├─ professor (nsubj)

│ └─ O (det)

├─ teorema (obj)

│ └─ o (det)

└─ alunos (iobj)

└─ aos (case)

Inteligência Artificial Simbólica: Processamento de Linguagem Natural
Página 46
Inteligência Artificial Simbólica: Processamento de Linguagem Natural

Exercícios de Representação Semântica

Exercícios de representação semântica desenvolvem habilidades de tradução entre linguagem natural e formalismos lógicos que capturam significado de maneira precisa e processável computacionalmente. Esta competência é fundamental para desenvolvimento de sistemas de pergunta-resposta, verificação formal de propriedades textuais, e integração de conhecimento linguístico com bases de dados estruturadas.

Problemas típicos envolvem construção de fórmulas de lógica de predicados que representam fielmente conteúdo proposicional de sentenças naturais, identificação de implicações lógicas entre enunciados formulados em linguagem cotidiana, e detecção de inconsistências em conjuntos de afirmações mediante análise formal de suas representações lógicas.

Dificuldades comuns incluem tratamento adequado de quantificadores encaixados, representação precisa de negações distribuídas sobre estruturas complexas, e modelagem de conhecimento temporal e modal que transcende capacidades de lógica de primeira ordem clássica. Domínio destas sutilezas diferencia competência superficial de expertise genuína em semântica formal computacional.

Exercício Resolvido: Tradução Semântica

Problema: Represente em lógica de predicados: "Todo estudante que estuda passa em alguma disciplina."

Solução:

Passo 1 - Identificar estrutura:

• Quantificador universal: "Todo estudante"

• Condição restritiva: "que estuda"

• Conclusão: "passa em alguma disciplina"

• Quantificador existencial implícito: "alguma"

Passo 2 - Definir predicados:

• Estudante(x) = "x é estudante"

• Estuda(x) = "x estuda"

• Disciplina(y) = "y é disciplina"

• Passa(x,y) = "x passa em y"

Passo 3 - Construir fórmula:

• Estrutura: ∀x [(condições sobre x) → (consequência sobre x)]

• Condições: Estudante(x) ∧ Estuda(x)

• Consequência: ∃y [Disciplina(y) ∧ Passa(x,y)]

• Fórmula completa:

∀x [(Estudante(x) ∧ Estuda(x)) → ∃y [Disciplina(y) ∧ Passa(x,y)]]

Passo 4 - Verificação:

• Interpretação: Para todo x, se x é estudante E x estuda, então existe alguma disciplina y tal que x passa em y

• Escopo quantificadores: ∀ externo, ∃ interno (correto)

• Cada estudante pode passar em disciplina diferente ✓

Alternativas incorretas comuns:

• ∃y ∀x [...]: significaria disciplina única para todos (errado)

• ∀x [Estudante(x) → Estuda(x) → ...]: implicações encadeadas (ambíguo)

• ∀x ∀y [... → Passa(x,y)]: passaria em TODAS as disciplinas (não é isso)

Inteligência Artificial Simbólica: Processamento de Linguagem Natural
Página 47
Inteligência Artificial Simbólica: Processamento de Linguagem Natural

Exercícios Propostos - Nível Básico

Exercícios básicos desenvolvem fluência em aplicação direta de técnicas fundamentais estudadas, proporcionando consolidação de conhecimentos essenciais antes de progressão para problemas mais complexos que exigem integração criativa de múltiplas competências. Prática sistemática neste nível estabelece fundação sólida para trabalho avançado em processamento de linguagem natural.

Problemas cobrem espectro abrangente de tópicos incluindo análise morfológica, etiquetagem de categorias, construção de árvores sintáticas simples, identificação de entidades nomeadas, análise de sentimento básica, e formulação de consultas para sistemas de recuperação de informação. Diversidade temática assegura desenvolvimento equilibrado de competências técnicas essenciais.

Estudantes devem resolver exercícios independentemente antes de consultar soluções, desenvolvendo autoconfiança e habilidades de resolução autônoma de problemas. Dificuldades encontradas identificam áreas que requerem revisão adicional de conceitos ou prática suplementar para consolidação adequada de aprendizado.

Exercícios Propostos - Básicos

1. Análise Morfológica:

Decomponha as palavras em morfemas constituintes:

(a) "correram", (b) "desfazer", (c) "felizmente", (d) "anticientífico"

2. Etiquetagem Morfossintática:

Atribua categorias gramaticais a cada palavra:

"O gato preto dormia tranquilamente na poltrona velha."

3. Identificação de Entidades:

Identifique e classifique entidades nomeadas:

"João Silva nasceu em Porto Alegre e trabalha na Petrobras desde março de 2020."

4. Análise Sintática:

Construa árvore sintática para:

(a) "Maria comprou flores", (b) "O menino que estuda passa"

5. Resolução Anafórica:

Identifique antecedentes de pronomes:

"Pedro encontrou João no parque. Ele estava feliz. Conversaram longamente."

6. Análise de Sentimento:

Classifique polaridade (positivo/negativo/neutro):

(a) "O filme era excelente!", (b) "Não gostei da comida"

7. Representação Semântica:

Traduza para lógica de predicados:

(a) "Alguns professores são estudiosos", (b) "Todo médico estudou medicina"

8. Gramáticas:

Crie gramática livre de contexto que gera:

L = {a^n b^n | n ≥ 1}

9. Extração de Relações:

Identifique relações entre entidades:

"Einstein desenvolveu a teoria da relatividade em 1905."

10. Correção Gramatical:

Identifique e corrija erros:

"Os aluno estuda muito para as prova de matemática."

Estratégias de Resolução

Para exercícios de análise linguística: identifique primeiro estrutura global antes de detalhar componentes. Para representação formal: defina claramente vocabulário de predicados antes de construir fórmulas. Para aplicações: considere múltiplas abordagens e compare trade-offs entre alternativas.

Inteligência Artificial Simbólica: Processamento de Linguagem Natural
Página 48
Inteligência Artificial Simbólica: Processamento de Linguagem Natural

Exercícios Propostos - Nível Intermediário

Exercícios intermediários integram múltiplas técnicas de processamento linguístico em problemas mais realistas que refletem complexidade de aplicações práticas. Estes problemas desenvolvem capacidade de julgamento sobre estratégias apropriadas, habilidades de integração de conhecimentos diversos, e criatividade na adaptação de técnicas estudadas para contextos novos não explicitamente cobertos em exemplos didáticos.

Problemas típicos envolvem design de componentes para sistemas de diálogo, análise de fenômenos linguísticos complexos como ambiguidade estrutural e escopo de quantificadores, desenvolvimento de léxicos especializados para domínios específicos, e implementação de pipelines de processamento que combinam análise morfológica, sintática e semântica em fluxos coordenados.

Soluções frequentemente admitem múltiplas abordagens viáveis com trade-offs distintos entre precisão, cobertura, eficiência computacional e manutenibilidade. Parte importante de resolução é analisar criticamente alternativas, justificar escolhas metodológicas e documentar limitações conhecidas de soluções propostas, desenvolvendo maturidade técnica essencial para trabalho profissional responsável.

Exercícios Propostos - Intermediários

11. Sistema de Diálogo:

Projete máquina de estados finitos para diálogo de reserva de restaurante incluindo coleta de data, horário, número de pessoas e preferências alimentares.

12. Ambiguidade Estrutural:

Analise ambiguidade sintática em "João viu o homem com o telescópio no parque" e construa árvores alternativas.

13. Análise Discursiva:

Identifique relações retóricas entre segmentos: "Choveu muito ontem. Consequentemente, o jogo foi cancelado. Os torcedores ficaram desapontados."

14. Extração de Informação:

Desenvolva padrões regex para extrair emails, telefones e CPFs de textos não-estruturados.

15. Sistema Especialista:

Implemente base de regras para diagnóstico de problemas de conexão de internet (modem, roteador, provedor, etc.).

16. Tradução Automática:

Identifique desafios e proponha estratégias para traduzir do português para inglês: "Faz três anos que moro aqui."

17. Sumarização:

Implemente algoritmo extrativo de sumarização baseado em scoring de sentenças por posição, frequência de termos e similaridade.

18. Ontologia:

Modele ontologia para domínio universitário incluindo cursos, disciplinas, professores, alunos e suas relações.

19. Análise de Sentimento:

Construa léxico de sentimento para português incluindo pelo menos 50 termos positivos e 50 negativos com intensidades.

20. Resolução de Correferência:

Desenvolva algoritmo baseado em regras para resolução de correferência pronominal considerando concordância e distância.

Desenvolvimento de Projetos

Exercícios intermediários frequentemente beneficiam-se de implementação computacional que consolida compreensão teórica através de confronto com detalhes práticos. Considere desenvolver protótipos simples em Python utilizando bibliotecas como NLTK ou spaCy para explorar conceitos estudados.

Inteligência Artificial Simbólica: Processamento de Linguagem Natural
Página 49
Inteligência Artificial Simbólica: Processamento de Linguagem Natural

Exercícios Propostos - Nível Avançado

Exercícios avançados desafiam estudantes com problemas abertos que requerem pesquisa independente, integração criativa de conhecimentos de múltiplas disciplinas, e desenvolvimento de soluções inovadoras para problemas que transcendem aplicações diretas de técnicas padronizadas. Estes problemas preparam para pesquisa acadêmica avançada e liderança técnica em desenvolvimento de sistemas comerciais sofisticados.

Problemas incluem design de arquiteturas completas para sistemas de processamento linguístico, análise crítica de limitações de abordagens atuais e proposição de extensões teóricas, desenvolvimento de recursos linguísticos originais para domínios especializados, e investigações empíricas que avaliam desempenho de diferentes metodologias mediante experimentos controlados com métricas apropriadas.

Soluções requerem não apenas competência técnica mas também capacidade de comunicação profissional que apresenta trabalho de maneira acessível a audiências diversas, documentação rigorosa que facilita reprodutibilidade e extensão por outros pesquisadores, e reflexão crítica sobre implicações éticas e sociais de tecnologias desenvolvidas. Estes aspectos complementam expertise técnica formando profissionais completos e socialmente responsáveis.

Exercícios Propostos - Avançados

21. Arquitetura Híbrida:

Projete sistema que integra análise simbólica e redes neurais para pergunta-resposta em domínio médico, justificando escolhas arquiteturais e trade-offs.

22. Corpus Anotado:

Desenvolva metodologia para anotação de papéis semânticos em corpus de notícias brasileiras, incluindo guidelines e análise de concordância inter-anotadores.

23. Avaliação de Sistemas:

Compare três sistemas de tradução automática português-inglês mediante experimentos controlados, utilizando métricas automáticas e julgamentos humanos.

24. Fenômenos Complexos:

Investigue tratamento computacional de elipse em português, propondo representações formais e algoritmos de resolução.

25. Aplicação Social:

Desenvolva sistema de análise automatizada de acessibilidade textual para identificar barreiras de compreensão em documentos oficiais brasileiros.

26. Lógicas Não-Monotônicas:

Modele raciocínio de senso comum sobre narrativas utilizando lógica de defaults, incluindo tratamento de revisão de crenças.

27. Multilingualidade:

Investigue fenômenos de code-switching em textos de redes sociais brasileiras, propondo taxonomia e métodos de detecção automatizada.

28. Ética em PLN:

Analise vieses de gênero em sistemas de tradução automática, propondo métricas de avaliação e estratégias de mitigação.

29. Processamento Incremental:

Desenvolva parser incremental que atualiza análises sintáticas em tempo real conforme usuário digita, otimizado para aplicações interativas.

30. Conhecimento Estruturado:

Construa grafo de conhecimento sobre biodiversidade brasileira mediante extração automatizada de relações de Wikipedia em português, validando qualidade resultante.

Abordagem para Problemas Abertos

Para problemas avançados: revise literatura científica recente, identifique lacunas em abordagens existentes, desenvolva protótipos iterativamente validando com usuários reais, documente cuidadosamente decisões e limitações, e considere implicações éticas desde estágios iniciais de design.

Inteligência Artificial Simbólica: Processamento de Linguagem Natural
Página 50
Inteligência Artificial Simbólica: Processamento de Linguagem Natural

Projetos Integradores

Projetos integradores proporcionam experiências de aprendizado holísticas que sintetizam conhecimentos de múltiplos capítulos em desenvolvimento de sistemas funcionais completos. Estes projetos, tipicamente realizados ao longo de várias semanas, desenvolvem competências de gerenciamento de projetos, trabalho colaborativo, e entrega de produtos técnicos documentados adequadamente para transferência de conhecimento e manutenção futura.

Projetos sugeridos abrangem aplicações diversas incluindo assistentes conversacionais especializados para domínios específicos, ferramentas de análise textual para pesquisa qualitativa em ciências sociais, sistemas de extração de informação para automatização de workflows documentais, e plataformas educacionais que empregam processamento linguístico para personalização de conteúdo e feedback automatizado.

Desenvolvimento bem-sucedido requer planejamento cuidadoso incluindo especificação de requisitos funcionais e não-funcionais, design modular que facilita teste e manutenção incremental, implementação iterativa com validação contínua de componentes, e documentação compreensiva que inclui guias de usuário, documentação técnica de arquitetura, e reflexões sobre desafios encontrados e lições aprendidas durante processo de desenvolvimento.

Projeto: Assistente Virtual Educacional

Objetivo:

Desenvolver assistente conversacional para apoio a estudantes do ensino médio em matemática, capaz de responder perguntas sobre conceitos, resolver problemas e fornecer explicações adaptadas ao nível do estudante.

Componentes Principais:

1. Módulo de Compreensão:

• Análise sintática de perguntas matemáticas

• Classificação de tipo de pergunta (conceito, resolução, etc.)

• Extração de parâmetros (equação, teorema mencionado)

2. Base de Conhecimento:

• Ontologia de conceitos matemáticos alinhada com BNCC

• Regras simbólicas para resolução de problemas padrão

• Exemplos resolvidos organizados por dificuldade

3. Módulo de Raciocínio:

• Sistema especialista para diagnóstico de dificuldades

• Planejamento de explicações adaptadas

• Geração de exercícios personalizados

4. Módulo de Geração:

• Templates para explicações estruturadas

• Simplificação de linguagem técnica

• Geração de passos de resolução passo-a-passo

Tecnologias Sugeridas:

• Python + NLTK/spaCy para processamento linguístico

• Prolog ou sistema de regras para raciocínio simbólico

• Base de dados para armazenamento de interações

• Interface web para interação com estudantes

Critérios de Avaliação:

• Precisão em interpretação de perguntas (> 85%)

• Correção de respostas matemáticas (> 90%)

• Clareza de explicações (avaliação qualitativa)

• Satisfação de usuários (survey)

Inteligência Artificial Simbólica: Processamento de Linguagem Natural
Página 51
Inteligência Artificial Simbólica: Processamento de Linguagem Natural

Capítulo 10: Perspectivas e Desenvolvimentos

Tendências Atuais em PLN

Processamento de linguagem natural contemporâneo testemunha convergência entre abordagens simbólicas tradicionais e métodos baseados em aprendizado profundo, buscando combinar forças complementares de representações explícitas e descoberta automática de padrões. Modelos de linguagem de grande escala demonstram capacidades surpreendentes em geração e compreensão textual, motivando pesquisas sobre como integrar conhecimento estruturado e raciocínio lógico nestes sistemas para melhorar explicabilidade e confiabilidade.

Explicabilidade emerge como preocupação central motivada por requisitos regulatórios como LGPD no Brasil e GDPR na Europa, considerações éticas sobre impactos sociais de decisões automatizadas, e necessidades práticas de debugging e manutenção de sistemas complexos. Abordagens simbólicas, com suas representações transparentes e cadeias de inferência rastreáveis, oferecem vantagens naturais que complementam poder bruto de modelos neurais massivos.

Multilingualidade e inclusão linguística ganham atenção crescente conforme pesquisadores reconhecem que maioria de recursos e pesquisas concentra-se em poucos idiomas dominantes, deixando bilhões de falantes com acesso limitado a tecnologias linguísticas. Desenvolvimento de recursos para português brasileiro e outras línguas sub-representadas contribui para democratização de inteligência artificial e preservação de diversidade linguística global.

Integração Neuro-Simbólica

Exemplo: Sistema Híbrido de Pergunta-Resposta

Componente Neural:

• Modelo de linguagem BERT processa pergunta

• Gera embedding semântico contextualizado

• Identifica passagens candidatas em documentos

• Vantagem: robustez a variações linguísticas, cobertura ampla

Componente Simbólico:

• Parser formal extrai estrutura sintática da pergunta

• Sistema de regras identifica tipo de pergunta e restrições

• Verificador lógico valida coerência de respostas candidatas

• Vantagem: precisão, explicabilidade, garantias formais

Integração:

1. Neural recupera candidatos (alta cobertura)

2. Simbólico filtra via verificação lógica (alta precisão)

3. Neural ranqueia candidatos filtrados (otimização)

4. Simbólico gera explicação estruturada

Benefícios Combinados:

• Precisão superior: neural + simbólico > cada um isolado

• Explicável: cadeia de raciocínio rastreável

• Robusto: neural lida com variação, simbólico com lógica

• Confiável: verificação formal previne respostas absurdas

Desafios:

• Sincronização de representações entre componentes

• Balanceamento de trade-offs (precisão vs. cobertura)

• Manutenção de dois subsistemas distintos

Inteligência Artificial Simbólica: Processamento de Linguagem Natural
Página 52
Inteligência Artificial Simbólica: Processamento de Linguagem Natural

Desafios e Direções Futuras

Compreensão profunda de linguagem permanece desafio fundamental que transcende capacidades atuais tanto de sistemas simbólicos quanto neurais. Verdadeira compreensão requer não apenas processamento de padrões superficiais mas integração sofisticada de conhecimento de mundo, raciocínio causal sobre situações descritas, e modelagem de intenções comunicativas e estados mentais de interlocutores que orientam interpretação pragmática.

Raciocínio de senso comum sobre situações cotidianas, trivial para humanos, resiste a formalização computacional adequada devido à vastidão de conhecimento implícito que permeia comunicação humana e à natureza revisável e contextual deste conhecimento. Projetos ambiciosos como Cyc demonstram dificuldades de codificação manual de conhecimento comum, enquanto métodos de aprendizado enfrentam desafios de generalização para situações não observadas durante treinamento.

Aspectos éticos e sociais de tecnologias linguísticas demandam atenção urgente, incluindo mitigação de vieses discriminatórios incorporados em dados de treinamento, proteção de privacidade em sistemas que processam comunicações pessoais, e consideração de impactos sobre empregos em profissões que dependem de processamento linguístico humano. Desenvolvimento responsável requer participação multidisciplinar incluindo cientistas sociais, filósofos e representantes de comunidades afetadas.

Desafios em Contexto Brasileiro

1. Recursos Linguísticos Limitados:

• Português possui menos recursos que inglês

• Corpora anotados são menores e menos diversos

• Ferramentas de análise têm precisão inferior

• Necessidade: investimento em desenvolvimento de recursos

2. Variação Dialetal:

• Brasil tem enorme diversidade linguística regional

• Sistemas treinados em português padrão falham em dialetos

• Questões de inclusão social e acesso equitativo

• Necessidade: representação diversificada em dados de treinamento

3. Code-Switching:

• Mistura frequente português-inglês em contextos técnicos

• Sistemas monolíngues têm dificuldade

• Necessidade: modelos multilíngues robustos

4. Contexto Cultural:

• Expressões idiomáticas específicas do Brasil

• Referências culturais não captadas em sistemas internacionais

• Necessidade: localização profunda, não apenas tradução

5. Aplicações Sociais:

• Educação: ferramentas de apoio adaptadas à realidade brasileira

• Saúde: sistemas que compreendem descrições de sintomas locais

• Justiça: análise de documentos legais brasileiros

• Governo: acessibilidade de serviços públicos via linguagem natural

Oportunidades de Pesquisa:

• Desenvolvimento de corpora anotados em português brasileiro

• Adaptação de modelos para variantes dialetais

• Sistemas de PLN para línguas indígenas brasileiras

• Aplicações em problemas sociais brasileiros específicos

Chamada à Ação

Estudantes brasileiros têm oportunidade única de contribuir para democratização de tecnologias linguísticas desenvolvendo recursos, modelos e aplicações que atendam necessidades específicas de população brasileira em sua diversidade linguística e cultural, promovendo inclusão digital e acesso equitativo a benefícios de inteligência artificial.

Inteligência Artificial Simbólica: Processamento de Linguagem Natural
Página 53
Inteligência Artificial Simbólica: Processamento de Linguagem Natural

Referências Bibliográficas

Bibliografia Fundamental

JURAFSKY, Daniel; MARTIN, James H. Speech and Language Processing. 3ª ed. Stanford: Stanford University, 2023.

RUSSELL, Stuart; NORVIG, Peter. Inteligência Artificial. 4ª ed. Rio de Janeiro: Elsevier, 2022.

MANNING, Christopher D.; SCHÜTZE, Hinrich. Foundations of Statistical Natural Language Processing. Cambridge: MIT Press, 1999.

EISENSTEIN, Jacob. Introduction to Natural Language Processing. Cambridge: MIT Press, 2019.

MITKOV, Ruslan. The Oxford Handbook of Computational Linguistics. 2ª ed. Oxford: Oxford University Press, 2022.

PERINI, Mário A. Gramática do Português Brasileiro. São Paulo: Parábola Editorial, 2010.

Inteligência Artificial Simbólica

BRACHMAN, Ronald J.; LEVESQUE, Hector J. Knowledge Representation and Reasoning. Burlington: Morgan Kaufmann, 2004.

GENESERETH, Michael R.; NILSSON, Nils J. Logical Foundations of Artificial Intelligence. San Francisco: Morgan Kaufmann, 1987.

LUGER, George F. Artificial Intelligence: Structures and Strategies for Complex Problem Solving. 6ª ed. Boston: Pearson, 2009.

SOWA, John F. Knowledge Representation: Logical, Philosophical, and Computational Foundations. Pacific Grove: Brooks/Cole, 2000.

Processamento de Linguagem Natural

BIRD, Steven; KLEIN, Ewan; LOPER, Edward. Natural Language Processing with Python. Sebastopol: O'Reilly Media, 2009.

CHOPRA, Deepti; JOSHI, Nisheeth; MATHUR, Iti. Natural Language Processing and Computational Linguistics. Birmingham: Packt Publishing, 2018.

GOLDBERG, Yoav. Neural Network Methods for Natural Language Processing. San Rafael: Morgan & Claypool, 2017.

INDURKHYA, Nitin; DAMERAU, Fred J. Handbook of Natural Language Processing. 2ª ed. Boca Raton: Chapman & Hall/CRC, 2010.

Lógica e Semântica Formal

BLACKBURN, Patrick; BOS, Johan. Representation and Inference for Natural Language. Stanford: CSLI Publications, 2005.

GAMUT, L.T.F. Logic, Language, and Meaning. Chicago: University of Chicago Press, 1991.

PARTEE, Barbara H.; TER MEULEN, Alice; WALL, Robert E. Mathematical Methods in Linguistics. Dordrecht: Kluwer, 1990.

Recursos para Português

ALUÍSIO, Sandra Maria; ALMEIDA, Gladis Maria de Barcellos. O que é e como se constrói um corpus. São Carlos: NILC/UFSCar, 2006.

BICK, Eckhard. The Parsing System PALAVRAS: Automatic Grammatical Analysis of Portuguese. Aarhus: Aarhus University Press, 2000.

NUNES, Maria das Graças Volpe. Processamento de Linguagem Natural: Conceitos, Técnicas e Aplicações em Português. São Carlos: ICMC/USP, 2016.

Recursos Online e Ferramentas

NLTK PROJECT. Natural Language Toolkit. Disponível em: https://www.nltk.org/. Acesso em: jan. 2025.

SPACY. Industrial-Strength Natural Language Processing. Disponível em: https://spacy.io/. Acesso em: jan. 2025.

HUGGING FACE. Transformers Library. Disponível em: https://huggingface.co/. Acesso em: jan. 2025.

STANFORD NLP GROUP. Stanford NLP Software. Disponível em: https://nlp.stanford.edu/software/. Acesso em: jan. 2025.

Organizações e Comunidades

ACL. Association for Computational Linguistics. Disponível em: https://www.aclweb.org/. Acesso em: jan. 2025.

PROPOR. International Conference on Computational Processing of Portuguese. Disponível em: https://propor2024.citius.gal/. Acesso em: jan. 2025.

Inteligência Artificial Simbólica: Processamento de Linguagem Natural
Página 54

Sobre Este Volume

Este volume da Coleção Escola de Lógica Matemática apresenta abordagem sistemática e abrangente da inteligência artificial simbólica aplicada ao processamento de linguagem natural, integrando fundamentos matemáticos rigorosos com aplicações práticas relevantes para contexto brasileiro contemporâneo.

Desenvolvido em conformidade com diretrizes da Base Nacional Comum Curricular, o livro conecta teoria formal com implementações computacionais, proporcionando base sólida para estudantes que buscam compreensão profunda de como sistemas inteligentes processam, analisam e geram linguagem humana. Através de exemplos contextualizados, exercícios progressivos e projetos práticos, o texto prepara leitores para contribuir significativamente ao desenvolvimento de tecnologias linguísticas que atendam necessidades específicas da sociedade brasileira.

Principais Características:

  • • Fundamentos da inteligência artificial simbólica
  • • Representação formal de conhecimento linguístico
  • • Gramáticas formais e teoria de linguagens
  • • Algoritmos de análise sintática e parsing
  • • Análise semântica e interpretação lógica
  • • Sistemas de inferência e raciocínio automatizado
  • • Processamento morfológico do português brasileiro
  • • Extração de informação e reconhecimento de entidades
  • • Análise de sentimento e mineração de opinião
  • • Sistemas de pergunta-resposta e diálogo
  • • Tradução automática e correção gramatical
  • • Aplicações em contextos educacionais e sociais brasileiros
  • • Integração de abordagens simbólicas e conexionistas
  • • Exercícios resolvidos em três níveis de dificuldade
  • • Projetos práticos para desenvolvimento de competências
  • • Discussão de desafios éticos e sociais em PLN

João Carlos Moreira

Universidade Federal de Uberlândia • 2025

CÓDIGO DE BARRAS
9 788500 000864