Exploração da semântica intrínseca dos dados

Pierre Lévy, em seu A Esfera Semântica, propõem um trabalho que combina ciências humanas com informática e ciências cognitivas, começando o trabalho teórico e conceitual da construção colaborativa de um “Hipercórtex global coordenada por uma metalinguagem computacional”.

A Web tem um problema sério a ser resolvido: a quantidade absurda de documentos não estruturados que não permitem que computadores entendam o que eles significam.

Guardem essa palavra: significado.

Um campo do conhecimento que é pouco explorado, apesar da sua importância, é o que cuida da utilização da semântica incluída nos documentos em si. O potencial intrínseco no textos, criado pelo uso da linguagem natural, conectado com o potencial de tecnologias como a Inteligência Artificial, Tesauros, ontologias e marcação de dados, promete revolucionar o jeito que fazemos indexação, organização e recuperação da informação.

Os sistemas de recuperação de informação tradicionais têm sido suplantadas pela crescente exploração das técnicas de recuperação semântica (PINHEIRO DE MELO GOMES; MARTINS DE ARAÚJO ALTOUNIAN, 2016).

(…) possibilitam a compreensão dos conceitos em seu contexto e finalidade. Algumas tecnologias têm contribuído para essa realidade, como a marcação semântica dos dados, utilizada na web semântica, o processamento de linguagem natural e as redes neurais. O tesauro também apresenta-se como um componente semântico que impacta no desempenho dos SRI. Tesauros são ferramentas da linguagem artificial em um domínio específico, formados por um sistema de conceitos relacionados entre si.1

A recuperação semântica da informação no contexto do controle externo.

Sistemas de recuperação da informação

SRI ou sistemas de recuperação de informação geralmente usam palavras isoladas como descritores e unidades de recuperação.

Embora funcionem bem para fins de recuperação de informação, o principal motivo de falha é que eles não consideram o contexto de informação implícito em toda a consulta. Isso acontece porque eles não são preparados para lidar com a forma como essas palavras ou conceitos estão relacionados.

Os relacionamentos entre termos são, na prática, os elementos usados para determinar os assuntos pesquisados, em seus detalhes mais específicos.

Pesquisas acerca da informação e dados

As pesquisas feitas nesta nessa área vão do uso de estruturas profundas da linguagem natural, como os sintagmas verbais e nominais, usados na indexação e recuperação da informação, como no trabalho de Kuramoto, Moreiro e Souza (KURAMOTO, 1996 e 1999; MOREIRO et al, 2003; SOUZA, 2005); chegando ao uso de ferramentas que criam representações dos relacionamentos semânticos e conceituais, como os tesauros e ontologias, usados durante muito tempo para ampliar a gama de informações recuperadas e aferição de contextos.

A Biblioteconomia e as Ciências da Informação usam metodologias e técnicas como as descritas acima e tem um papel fundamental na definição teórica e metodologia para esse campo.

E o SEO com isso?

Quantas vezes você, amigo analista SEO, trabalhou em um projeto que toda a informação está corretamente marcada, estruturada, relacionada?

Quantas vezes o projeto que foi chamado para otimizar tinha uma ontologia, taxonomia ou um tesauros definido?

Se você respondeu algo além de zero, é um sortudo.

Na maioria esmagadora das vezes trabalhamos em projetos onde o conteúdo está definidos em páginas, planilhas, arquivos (como pdf) e banco de dados, sem estruturação, relacionamento e descrição. Sem semântica nenhuma, portanto.

Lembra que lhe pedi para guardar essa palavra: Semântica? Então, é para isso. É para saber que a Web precisa de um trabalho de indexação, organização e recuperação da informação usando as técnicas de recuperação semântica.

Trabalhos como o de Pierre Levy, dos sistemas de criação de ontologias com ferramentas automatizadas precisam estar no nosso radar. São elas que vão nos permitir transformar o volume de dados desestruturados em informação semanticamente relevante.


1- PINHEIRO DE MELO GOMES, B; MARTINS DE ARAÚJO ALTOUNIAN, M. A recuperação semântica da informação no contexto do controle externo. Revista do TCU, Setembro/Dezembro – 2016. Disponível em: https://revista.tcu.gov.br/ojs/index.php/RTCU/article/view/1376/1522. Acesso em: 3 abr. 2021.


Alexander Rodrigues Silva

Alexander Rodrigues Silva

Consultor SEO

Especialista SEO, consultor internacional SEO e autor do livro SEO Semântico: Fluxo de trabalho semântico. Sou um defensor da Web Semântica e Bibliotecário em formação, com mais de 20 anos de experiência no Digital. Trabalho com Search Engine Optimization desde 2009, sempre buscando alinhar a experiência do usuário a estratégias como Marketing de Conteúdo, otimizando o investimento em SEO.

eBook Kindle: SEO Semântico – Fluxo de trabalho semântico

SEO Semântico – A série