Considerando a taxonomia de modelos de Recuperação de Inform...
Gabarito comentado
Confira o gabarito comentado por um dos nossos professores
Gabarito: Alternativa E
Vamos analisar o tema da questão e as alternativas apresentadas com base na taxonomia de modelos de Recuperação de Informação (RI) conforme Baeza-Yates e Ribeiro-Neto (2013).
**Explicação do Tema:**
A Recuperação de Informação (RI) é uma área que se preocupa com a organização, armazenamento, busca e recuperação de dados, especialmente textos. Segundo Baeza-Yates e Ribeiro-Neto, há diversas abordagens ou modelos de RI, cada um com suas particularidades e aplicações. Esses modelos podem ser classificados em diferentes categorias, como modelos clássicos, modelos probabilísticos, modelos algébricos, e modelos para textos semiestruturados.
Justificativa da Alternativa Correta:
Alternativa E: Modelos de RI para textos semiestruturados podem ser: nodos proximais e outros baseados em XML.
Essa alternativa está correta porque, de fato, um dos desafios na recuperação de textos semiestruturados envolve lidar com a estrutura hierárquica dos documentos XML. Nodos proximais e métodos específicos para XML são técnicas pertinentes a essa categoria de modelos.
Justificativa das Alternativas Incorretas:
Alternativa A: Os modelos clássicos de RI são: recuperação de imagens, recuperação de vídeo e recuperação de texto.
Essa alternativa está incorreta porque os modelos clássicos de RI não se baseiam no tipo de mídia (imagem, vídeo, texto), mas sim em frameworks conceituais como os modelos booleano, vetorial e probabilístico.
Alternativa B: Os modelos de recuperação de texto não estruturado são: page rank, booleano e vetorial.
Essa alternativa está incorreta porque PageRank é um algoritmo de ranking utilizado principalmente em motores de busca na web e não um modelo de recuperação de texto não estruturado. Os modelos corretos incluem booleano e vetorial, mas não PageRank.
Alternativa C: Exemplos de modelos probabilísticos são: redes neurais, fuzzy e redes bayesianas.
Essa alternativa está incorreta. Modelos probabilísticos clássicos incluem o modelo de independência binária e variações baseadas em inferência estatística, enquanto redes neurais e fuzzy pertencem a outras categorias de técnicas.
Alternativa D: Para modelos algébricos, os autores citam: modelo vetorial generalizado, baseado em conjuntos, e BM25.
Essa alternativa está incorreta porque BM25, embora relacionado aos modelos probabilísticos, não é um modelo algébrico. Modelos algébricos incluem, por exemplo, variações do modelo vetorial e modelos baseados em álgebra linear.
Espero ter ajudado a esclarecer suas dúvidas sobre a questão e os modelos de Recuperação de Informação. Qualquer outra dúvida, estou à disposição!
Clique para visualizar este gabarito
Visualize o gabarito desta questão clicando no botão abaixo
Comentários
Veja os comentários dos nossos alunos
A Recuperação de Informação (RI ou IR, abreviação do termo em inglês, Information Retrieval) é uma área da Ciência da Computação que pesquisa métodos para representar, armazenar, organizar e prover acesso a conteúdos informacionais, como documentos estruturados e semiestruturados, objetos multimídia, páginas web, entre outros (BAEZA-YATES; RIBEIRO NETO, 2013).
Apesar do termo Recuperação de Informação ser relativamente novo, sendo supostamente criado pelo cientista da computação nos anos 1950, o tema remete a muitos séculos atrás, com a preocupação em preservar fatos e conhecimentos para as gerações futuras.
De fato, no decorrer da história, a humanidade sempre esteve preocupada em desenvolver tecnologias para armazenar, organizar, distribuir e, principalmente, acessar informações de maneira rápida.
Na antiguidade, a biblioteca mais conhecida é a famosa Biblioteca de Alexandria, assim nomeada em homenagem ao emblemático rei macedônio Alexandre, o Grande (356-323 a.C). Durante mais de sete séculos, a Biblioteca Real, além de outras bibliotecas da cidade, fizeram com que Alexandria fosse a capital intelectual do ocidente.
Nesse sentido, os livros e, principalmente, as bibliotecas exerceram e ainda exercem um papel fundamental na história, visto que preservam a memória coletiva da raça humana.
Com o advento da internet e suas tecnologias subjacentes, a RI tem ganhado destaque nas mais diversas áreas, considerando que praticamente todo o conhecimento humano foi digitalizado ou está em processo de digitalização.
Portanto, criar meios eficientes de acesso à informação não é interesse apenas de historiadores, jornalistas e outros profissionais que se relacionam diretamente com ela, mas de todos os cidadãos.
Um exemplo de consulta complexa: “Encontre todos os deputados federais que são contra a legalização das drogas”.
Essa descrição textual mostra uma necessidade específica de um usuário, mas não necessariamente a melhor formulação de uma consulta para um sistema de RI, considerando que a informação desejada pode estar em um conjunto de dados não estruturados.
Assim, é muito comum que o usuário traduza sua necessidade em uma sequência de consultas, ou, de maneira mais intuitiva, utilize termos de indexação para recuperar os documentos mais úteis ou mais relevantes, assim como fazemos quando usanmos o buscador Google.
Portanto, um sistema de RI deve, de certa maneira, interpretar o conteúdo dos documentos da coleção (dataset) e classificá-los (ranqueamento) considerando o grau de relevância de acordo com a consulta do usuário.
É importante salientar que o foco de um sistema de RI é recuperar informações e não dados. Portanto, há muitas técnicas nos de sistemas de RI, desde as que usam apenas termos de indexação para consulta, até as mais sofisticadas, que usam inclusive Inteligência Artificial.
Convém destacar que ranqueamento dos resultados, ou seja, a classificação mediante a relevância dos documentos retornados, é importantíssimo em RI. Os primeiros resultados devem ser os mais relevantes e, a medida que o usuário navega, os resultados tornam-se menos relevantes.
Recuperação da informação xrecuperacao de dados
Pense num sistema que recupere com exatidão os dados de um banco de dados relacional (dados estruturados) mediante uma consulta, por exemplo: “encontre todos os clientes do sexo masculino com idade superior a 18 anos“.
Essa necessidade pode ser traduzida em uma consulta da linguagem SQL.
A consulta SQL irá retornar exatamente os dados que o usuário precisa, nada a mais, nada a menos. Isso é possível porque a principal característica dos bancos de dados relacionais é a relação bem definida entre os conjuntos de dados (tabelas) que expressam o domínio da aplicação.
“Bancos de dados relacionais são conjuntos de dados (datasets) estruturados”
Por sua vez, um sistema de RI faz suas consultas em conjuntos de dados não estruturados ou semiestruturados, logo ele deve permitir ao usuário recuperar informações sobre um determinado assunto, ao invés de recuperar dados exatos que satisfaçam plenamente uma consulta.
“Um sistema de RI realiza consultas em conjuntos de dados semiestruturados ou não estruturados”
Assim, um sistema de RI retorna um conjunto de resultados, ou documentos, considerando, por exemplo, sinônimos dos termos pesquisados, a presença ou ausência deles e outras relações sintáticas e/ou semânticas, visto que o conjunto de dados usados são semiestruturados ou não estruturados.
A RI possui grande importância, visto que, ao contrário de um banco de dados relacional, que possui dados estruturados, a RI se ocupa de procurar por informações em bases de dados semiestruturados e não estruturados.
FONTE: jlgregorio
Considerando textos não estruturados, há 3 modelos clássicos:
O modelo Booleano considera que os termos de indexação da consulta podem estar presentes ou ausentes no documento (pesos binários). Assim uma consulta q é composta por termos de indexação ligados pelos operadores booleanos not, and e or. Por sua simplicidade, foi o modelo mais usados no passado por muitos sistemas bibliográficos.
Ao contrário do modelo booleano, que admite pesos binários aos termos de indexação da consulta em relação ao documento, esse modelo admite pesos não binários que são usados para calcular o grau de similaridade entre os documentos do dataset e a consulta do usuário. Assim, os documentos recuperados são ordenados de maneira decrescente, considerando documentos que casam parcialmente com os termos de indexação usados na consulta.
O modelo probabilístico parte da premissa de que mediante uma consulta do usuário, há um conjunto de documentos que compõem uma resposta ideal. Entretanto, essa resposta ideal não é conhecida, exigindo uma etapa inicial que determina uma descrição probabilística que define essa resposta. Assim, as interações com o usuário são iniciadas, em que ele indica quais documentos são relevantes ou não. O sistema usa essas respostas do usuário para melhorar a resposta ideal, refinando o sistema a cada iteração.
De fato, esse modelo, após inúmeros experimentos, é baseado na premissa de que a probabilidade de relevância dos documentos dependa somente das representações dos documentos e das consultas, e que existe um subconjunto de resultados que o usuário prefira como resposta ideal.
Além dos modelos clássicos, há diversos outros modelos, como aponta Baeza-Yates e Ribeiro Neto (2013):
Uma taxonomia de modelos de modelos de RI (BAEZA-YATES; RIBEIRO NETO, 2013)
Antes de conceber um sistema de RI é necessário considerar o problema a ser resolvido, e somente assim definir qual é o melhor modelo a ser implementado.
Os modelos clássicos apresentados aqui baseiam-se numa abordagem focada em termos de indexação (palavras-chave) que fazem parte dos documentos, conhecida como Bag of Word (BoW – saco de palavra).
Essa característica faz com que sistemas que implementem esses modelos sejam de simples implementação, além de possuir baixo custo computacional.
Fonte: jlgregorio
Clique para visualizar este comentário
Visualize os comentários desta questão clicando no botão abaixo