Um pouco sobre a busca

01/02/2012 at 21:14 2 comentários

Sistemas de indexação de uma forma em geral utilizam anéis de sinônimo para resolver problemas em entender o que o usuário quer na busca. Ou seja, será necessário que na programação seja incluída a variação das palavras através de um vocabulário. Se tenho uma loja de informática, obviamente que meu vocabulário terá palavras de informática, como lap top. Uma será a palavra oficialmente utilizada, as demais seguem lógicas linguistícas e de digitação.

Por exemplo: Lap top = laptop = laprop… Neste caso, também se trabalha com os sinônimos, compondo assim o chamado anel de sinônimos. O resultado é o famoso “Você Quis Dizer Isso___” recurso muito conhecido do Google. Ocorre que ferramentas de Inteligência Artificial (IA) ocupam cada vez mais espaço no mundo da informação e essas plataformas de tratamento de informação acabam incorporando este árduo trabalho dos anéis de sinônimos.

Hoje em dia também utiliza-se separadores de palavras (tokenizadores) e lematizadores que executam análise lingüística dos dados indexados e do texto completo. Plataformas de IA como Autonomy ou Fast, só para citar duas, acabam incorporando outras funcionalidades linguísticas, deixando de fato para os anéis as relações de sinonímia. Por exemplo, lematização ou stemming, serve para reduzir uma palavra a sua raiz. Ele busca a conjugação do verbo e chega à sua matriz. São tirados os plurais, os gêneros são arrumados, prefixos e sufixos são extraídos. Logo, cria-se um termo indexado e uma fila de variações de palavras que acabam indexando o conteúdo. Por exemplo, “executando”, “executou” e “executor” são várias formas da palavra “executar”.

Outro recurso na questão da busca é em relação à linguagem humana e a linguagem de indexação, entra em cena a lista de stopwords é uma lista com palavras irrelevantes para efeito de indexação de documentos, como preposições, pronomes e artigos: o, a, é, um, dois, tu, tua, tudo, etc.

Isso tudo gera a tabela de termos indexada, que é utilizada na hora da busca para o cálculo da relevância. Mas aí já é outra história.

Anúncios

Entry filed under: Descrição Arquivística, Gestão da Informação, informação digital, metadados, Taxonomia. Tags: , , , .

O maior legado de Jobs Economia criativa e os profissionais da informação

2 Comentários Add your own

  • 1. Pollyana  |  19/04/2012 às 00:41

    Poxa vida!! Isso que é aula de indexação!! Meu nome é Pollyana, sou aluna do 8º Período de Arquivologia da UEPB! Sou completamente apaixonada pelo curso. E nunca tive uma aula tão boa de indexação! Show de bola!! Minha monografia abordará Cultura Organizacional e vi que você trabalha com a informação empresarial. Será ótimo receber seus artigos! Adorei o que li no seu blog. Como eu sempre digo: Arquivologia é lindo!! Parabéns por seu trabalho!!

    Resposta
    • 2. charlley  |  19/04/2012 às 09:41

      Obrigado Pollyana, adoro este tema e já tive oportunidade de participar de projetos envolvendo Search e sempre gosto dos resultados.
      []s
      Charlley

      Resposta

Deixe um comentário

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair / Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair / Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair / Alterar )

Foto do Google+

Você está comentando utilizando sua conta Google+. Sair / Alterar )

Conectando a %s

Trackback this post  |  Subscribe to the comments via RSS Feed


Meu Twitter


%d blogueiros gostam disto: