Um pouco sobre a busca

Written by:

Sistemas de indexação de uma forma em geral utilizam anéis de sinônimo para resolver problemas em entender o que o usuário quer na busca. Ou seja, será necessário que na programação seja incluída a variação das palavras através de um vocabulário. Se tenho uma loja de informática, obviamente que meu vocabulário terá palavras de informática, como lap top. Uma será a palavra oficialmente utilizada, as demais seguem lógicas linguistícas e de digitação.

Por exemplo: Lap top = laptop = laprop… Neste caso, também se trabalha com os sinônimos, compondo assim o chamado anel de sinônimos. O resultado é o famoso “Você Quis Dizer Isso___” recurso muito conhecido do Google. Ocorre que ferramentas de Inteligência Artificial (IA) ocupam cada vez mais espaço no mundo da informação e essas plataformas de tratamento de informação acabam incorporando este árduo trabalho dos anéis de sinônimos.

Hoje em dia também utiliza-se separadores de palavras (tokenizadores) e lematizadores que executam análise lingüística dos dados indexados e do texto completo. Plataformas de IA como Autonomy ou Fast, só para citar duas, acabam incorporando outras funcionalidades linguísticas, deixando de fato para os anéis as relações de sinonímia. Por exemplo, lematização ou stemming, serve para reduzir uma palavra a sua raiz. Ele busca a conjugação do verbo e chega à sua matriz. São tirados os plurais, os gêneros são arrumados, prefixos e sufixos são extraídos. Logo, cria-se um termo indexado e uma fila de variações de palavras que acabam indexando o conteúdo. Por exemplo, “executando”, “executou” e “executor” são várias formas da palavra “executar”.

Outro recurso na questão da busca é em relação à linguagem humana e a linguagem de indexação, entra em cena a lista de stopwords é uma lista com palavras irrelevantes para efeito de indexação de documentos, como preposições, pronomes e artigos: o, a, é, um, dois, tu, tua, tudo, etc.

Isso tudo gera a tabela de termos indexada, que é utilizada na hora da busca para o cálculo da relevância. Mas aí já é outra história.

2 respostas para “Um pouco sobre a busca”.

  1. Avatar de Pollyana
    Pollyana

    Poxa vida!! Isso que é aula de indexação!! Meu nome é Pollyana, sou aluna do 8º Período de Arquivologia da UEPB! Sou completamente apaixonada pelo curso. E nunca tive uma aula tão boa de indexação! Show de bola!! Minha monografia abordará Cultura Organizacional e vi que você trabalha com a informação empresarial. Será ótimo receber seus artigos! Adorei o que li no seu blog. Como eu sempre digo: Arquivologia é lindo!! Parabéns por seu trabalho!!

    1. Avatar de charlley
      charlley

      Obrigado Pollyana, adoro este tema e já tive oportunidade de participar de projetos envolvendo Search e sempre gosto dos resultados.
      []s
      Charlley

Deixar mensagem para Pollyana Cancelar resposta