PageRank

PageRank™ é um algoritmo utilizado pela ferramenta de busca Google para posicionar websites entre os resultados de suas buscas. O PageRank mede a importância de uma página contabilizando a quantidade e qualidade de links apontando para ela.

Não é o único algoritmo utilizado pelo Google para classificar páginas da internet, mas é o primeiro utilizado pela companhia e o mais conhecido. Suas propriedades são muito discutidas por especialistas em optimização dos motores de busca (SEO, sigla em língua inglesa para ”search engine optimization”).

O processo do PageRank foi patenteado pela Universidade de Stanford nos Estados Unidos sob o número 6.285.999. Somente o nome PageRank é uma marca registrada do Google. O Google tem os direitos de licença exclusivos sobre a patente de PageRank.

A universidade de Stanford recebeu 1,8 milhão de ações do Google em troca do uso da patente. As ações foram vendidas em 2005 por 336 milhões de dólares .

Na construção da métrica de PageRank, a web é vista como uma rede de citações, cada nó corresponde a uma página e cada ligação corresponde a uma referência de uma página para outra (hiperligação). A métrica atribuí um valor a cada nó (página) da rede, um valor maior corresponde a um nó mais importante na rede.

Do ponto de vista da teoria das redes, PageRank é uma métrica de centralidade. Esta métrica tira partido da estrutura de hiperligações na web para produzir o valor para cada página da rede. Uma hiperligação a uma página conta como um “voto” de suporte.

O valor de PageRank de uma página depende do número de páginas e da métrica PageRank dessas páginas que aponta para si. Uma página tem um valor mais alto de PageRank se:

  • existem muitas página a apontar para si
  • existem algumas páginas a apontar para si com uma métrica de PageRank alta (uma página é importante se páginas importantes apontarem para si)

Métrica de PageRank

400px PageRanks

Métrica PageRank para os nós de uma rede simples, expressos em percentagens. (O Google usa uma escala logarítmica).

O nó C tem um valor de PageRank mais elevado do que o nó E, apesar de existirem poucas ligações para C, a ligação para C vem de um nó importante e, portanto, tem um valor elevado.

Se um utilizador começar num nó aleatório com uma probabilidade de 85% de escolher uma ligação aleatória a partir do nó que está a visitar no momento, e uma probabilidade de 15% de saltar para um nó escolhido aleatoriamente de toda a rede, esse utilizador vai chegar ao nó E 8,1% das vezes. (A probabilidade de 15% de saltar para um nó arbitrário corresponde a um fator de amortecimento de 85%).

Sem amortecimento, qualquer utilizador acabariam nos nós A, B, ou C, e todos os outros teriam o valor zero para PageRank.

Através da utilização do fator de amortecimento, o nó A está ligado a todos os nós da rede, mesmo que não tenha ligações para outros nós.

Google e o PageRank

O sistema PageRank é usado pelo motor de busca Google para ajudar a determinar a relevância ou importância de uma página. Foi desenvolvida pelos fundadores do Google, Larry Page e Sergey Brin enquanto cursavam a Universidade de Stanford em 1998.

Google mantém uma lista de bilhões de páginas em ordem de importância, isto é, cada página tem sua importância na Web como um todo; esse Banco de Páginas mantém desde a página mais importante do mundo até a menos importante. Essa importância se dá pelo número de votos que uma página recebe. Um voto é um link em qualquer lugar da Web para aquela página. Votos de páginas mais importantes valem mais do que votos de páginas menos importantes.

Esse critério de ordenação das páginas, de acordo com várias pessoas, é bastante democrático, reflectindo o que a “Web pensa” sobre determinado termo. Lembre-se que cerca de dez bilhões de páginas são levadas em conta. A qualidade das páginas mais importantes são naturalmente garantidas, classificadas e eleitas pela própria Web. Além de todas as páginas terem a mesma condição de subir nessa lista, conquistando votos pela Web afora.

Uma boa unidade de medida para definir o PageRank de uma página pode ser a percentagem (%) de páginas que ela é mais importante. Por exemplo, se uma página tem PageRank de 33% significa que ela é mais importante que um terço de toda a Web. Se o seu PageRank é 99% significa que ela é superior a quase todas as páginas da Web.

No entanto, é possível manipular o PageRank atribuindo links descontextualizados com o objectivo da página, modificando a ordenação de resultados na pesquisa pelo Google e induzindo a resultados pouco relevantes ou tendenciosos. Um exemplo recente disso é a pesquisa por failure ou miserable failure que retornava como primeiro site a biografia oficial da Casa Branca para o presidente dos Estados UnidosGeorge W. Bush e em sequência a página de Michael Moore, inimigo declarado do presidente dos EUA. Este processo ficou conhecido por Googlebombing. Apesar disso, o Google tem removido alguns resultados decorrentes de “Googlebombing”.

A história da criação do PageRank

PageRank foi desenvolvido na Universidade de Stanford por Larry Page (daí o nome Page Rank) e Sergey Brin em 1996, no contexto de um projeto de investigação sobre um novo tipo de motor de busca. Sergey Brin teve a ideia de que a informação na web poderiam ser ordenada numa hierarquia de “popularidade de ligações”: Uma página é mais importante se tiver mais hiperligações a apontar para si. Foi co-autoria de Rajeev Motwani e Terry Winograd. O primeiro artigo sobre o projeto, descrevendo a métrica PageRank e o protótipo inicial do motor de busca Google, foi publicado em 1998. Logo depois, Page e Brin fundaram a Google Inc., a empresa por trás do motor de busca Google.

A métrica PageRank foi inspirada na análise de citações, desenvolvida por Eugene Garfield em 1950 na Universidade da Pensilvânia, e pelo método “Hyper Search”, desenvolvido por Massimo Marchiori, da Universidade de Pádua. No mesmo ano, foi introduzido o PageRank (1998), Jon Kleinberg publicou seu trabalho sobre HITS. Os fundadores do Google citaram Marchiori, e Kleinberg no seu artigo original.

Um motor de busca chamado “RankDex” da IDD Information Services, desenhado por Robin Li, desde 1996, já explorava uma estratégia semelhante para pontuação e ranking de páginas . A tecnologia utilizada em RankDex foi patenteada em 1999 e usada mais tarde quando Li fundou a Baidu na China. O trabalho de Li está referenciado em algumas patentes, de métodos de pesquisa do Google, de Larry Page.

Para saber mais sobre o PageRank, acesse a página da Wikipedia.