Exploração da semântica intrínseca dos dados

Pierre Lévy, em seu A Esfera Semântica, propõem um trabalho que combina ciências humanas com informática e ciências cognitivas, começando o trabalho teórico e conceitual da construção colaborativa de um “Hipercórtex global coordenada por uma metalinguagem computacional”.

A Web tem um problema sério a ser resolvido: a quantidade absurda de documentos não estruturados que não permitem que computadores entendam o que eles significam.

Guardem essa palavra: significado.

O significado dos seus dados

Um campo do conhecimento que é pouco explorado, apesar da sua importância, é o que cuida da utilização da semântica incluída nos documentos em si. O potencial intrínseco no textos, criado pelo uso da linguagem natural, conectado com o potencial de tecnologias como a Inteligência Artificial, Tesauros, ontologias e marcação de dados, promete revolucionar o jeito que fazemos indexação, organização e recuperação da informação.

Os sistemas de recuperação de informação tradicionais têm sido suplantadas pela crescente exploração das técnicas de recuperação semântica (PINHEIRO DE MELO GOMES; MARTINS DE ARAÚJO ALTOUNIAN, 2016).

(…) possibilitam a compreensão dos conceitos em seu contexto e finalidade. Algumas tecnologias têm contribuído para essa realidade, como a marcação semântica dos dados, utilizada na web semântica, o processamento de linguagem natural e as redes neurais. O tesauro também apresenta-se como um componente semântico que impacta no desempenho dos SRI. Tesauros são ferramentas da linguagem artificial em um domínio específico, formados por um sistema de conceitos relacionados entre si.1

A recuperação semântica da informação no contexto do controle externo.

Sistemas de recuperação da informação

SRI ou sistemas de recuperação de informação geralmente usam palavras isoladas como descritores e unidades de recuperação.

Embora funcionem bem para fins de recuperação de informação, o principal motivo de falha é que eles não consideram o contexto de informação implícito em toda a consulta. Isso acontece porque eles não são preparados para lidar com a forma como essas palavras ou conceitos estão relacionados.

Os relacionamentos entre termos são, na prática, os elementos usados para determinar os assuntos pesquisados, em seus detalhes mais específicos.

Pesquisas acerca da informação e dados

As pesquisas feitas nesta nessa área vão do uso de estruturas profundas da linguagem natural, como os sintagmas verbais e nominais, usados na indexação e recuperação da informação, como no trabalho de Kuramoto, Moreiro e Souza (KURAMOTO, 1996 e 1999; MOREIRO et al, 2003; SOUZA, 2005); chegando ao uso de ferramentas que criam representações dos relacionamentos semânticos e conceituais, como os tesauros e ontologias, usados durante muito tempo para ampliar a gama de informações recuperadas e aferição de contextos.

A Biblioteconomia e as Ciências da Informação usam metodologias e técnicas como as descritas acima e tem um papel fundamental na definição teórica e metodologia para esse campo.

E o SEO com isso?

Quantas vezes você, amigo analista SEO, trabalhou em um projeto que toda a informação está corretamente marcada, estruturada, relacionada?

Quantas vezes o projeto que foi chamado para otimizar tinha uma ontologia, taxonomia ou um tesauros definido?

Se você respondeu algo além de zero, é um sortudo.

Na maioria esmagadora das vezes trabalhamos em projetos onde o conteúdo está definidos em páginas, planilhas, arquivos (como pdf) e banco de dados, sem estruturação, relacionamento e descrição. Sem semântica nenhuma, portanto.

Lembra que lhe pedi para guardar essa palavra: Semântica? Então, é para isso. É para saber que a Web precisa de um trabalho de indexação, organização e recuperação da informação usando as técnicas de recuperação semântica.

Trabalhos como o de Pierre Levy, dos sistemas de criação de ontologias com ferramentas automatizadas precisam estar no nosso radar. São elas que vão nos permitir transformar o volume de dados desestruturados em informação semanticamente relevante.


1- PINHEIRO DE MELO GOMES, B; MARTINS DE ARAÚJO ALTOUNIAN, M. A recuperação semântica da informação no contexto do controle externo. Revista do TCU, Setembro/Dezembro – 2016. Disponível em: https://revista.tcu.gov.br/ojs/index.php/RTCU/article/view/1376/1522. Acesso em: 3 abr. 2021.

0 comentários

Checklist de SEO para wordpress em 2021

Hoje pela manhã um amigo me pergunta no WhatsApp: "Tu tem algum checklist de SEO para wordpress pra me indicar?". Ter eu tenho, mas ele está na minha cabeça, pensei. Eu poderia pesquisar um na...

A Web Semântica e o SEO – Ao Vivo

Vamos conversar? Desde 2018 quando entrei em contato com o SEO pela primeira vez uma coisa me incomoda: Ter mais contato com profissionais de fora do Brasil do que daqui. Durante um tempo eu ia em...

Google Core Updates

O Google acabou de confirmar que lançou um "Google Core Update" ou um update amplo hoje: Uma nova atualização ampla do núcleo (Google Core Updates) começará a ser lançada na quarta-feira - esta...

Como trabalhar com o SEO?

Antes de responder como trabalhar com o SEO, quero que separe um tempo para assistir esse filme. Nele você vai ter a história por trás de como o Google funciona. O SEO é independente de um buscador,...

A Solução para as Fake News

Esse post foi originalmente escrito no meu linkedin e está sendo repostado aqui no blog. A solução para as notícias falsas (fake news) está bem mais próxima do que você imagina Fake News, Fake...

Entre em Contato

Alexander Rodrigues Silva

Alexander Rodrigues Silva

Consultor SEO

Sou publicitário, com mais de 20 anos de experiência no Digital. Trabalho com Search Engine Optimization desde 2009, sempre buscando alinha a experiência do usuário a estratégias como Marketing de Conteúdo, otimizando o investimento em SEO.

Rua Santo Antônio, 325 - Porto Alegre, RS  | contato@semantico.com.br