Robots o que são?

recuperação da informação tornaram se necessários. E dessa necessidade surgiram os robots: robôs que percorrem toda a web para coletar documentos e orgraniza-los para futuras consultas e operações. Existem vários robots hoje na web, como por exemplo o googleBot, da gigante google, e mesmo assim, na prática, é impossível coletar todas as páginas disponíveis na Web.

E como eles funcionam?

Dada uma URL inicial, os robots coletam todo o documento, extraem seus links e os colocam em uma fila de urls para serem visitados, em seguida guardam uma cópia local para realizar operações de indexação nesse documento.
Um documento pode ter dezenas de links para outros documentos, dessa forma o robô consegue percorrer milhões de páginas.
Documentos que não possuem nenhuma referencia, ou seja não existem links apontando para eles, jamais serão coletados pelo robots.
Os robots usam algumas políticas de visitas a URL como por exemplo:

Baseada em conectividade
: O mecanismo de escalonamento considera o número de referências (links) para a página. O valor de uma página é proporcional ao número de referências a ela. Links de páginas de maior valor têm maior peso.
Baseada em donimio: coleta somente documentos encontrados em servidores HTTP cujos domínios DNS sejam sub-domínios do domínio “.br”.

A Coleta de um Documento tipicamente, é o passo mais demorado de todo o processo de coleta. Corresponde a uma requisição HTTP:

  • conexão à porta HTTP default (80) do servidor responsável pelo documento;
  • envio de um header de requisição HTTP;
  • exemplo: GET;
  • recebimento do header de resposta do servidor;
  • recebimento do conteúdo da página


Barrando um robot:

O conselho dos construtores de robôs definiram alguns requisitos éticos para serem respeitados e um deles é verificar se o servidor web possui um arquivo texto de nome robots.txt.
Nesse arquivo o responsável pelo servidor define quais diretórios não devem ser pesquisados:
User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /editor/

A estrutura do arquivo é a seguinte:
User: agente é qual robô que ele não quer que pesquise o site, o * define que são todos
Disallow: é o diretório que não deve ser indexado.
Para verificar se um site possui esse arquivo, digite robots.txt após o dominio: 'wwww.algumacoisa/robots.txt'.
Você pode conferir um exemplo do arquivo acessando o site http://www.eas.com.br/robots.txt .

Além desse arquivo, você pode usar
Meta-tags especiais:
<meta name="ROBOTS" content="NOINDE> não coletar o documento; pode extrair e seguir seus links.
<meta name="ROBOTS" content="NOFOLLOW">: o documento pode ser coletado; seus links não devem ser seguidos.
<meta name="ROBOTS” content="NOINDEX,NOFOLLOW">: não coletar o documento;não extrair e seguir seus links.

Algumas instituições como universidades, usam esse mecanismo para impedir que robots como os de jornais congestionem seus servidores
em épocas em que há muitas consultas, por exemplo resultados de vestibular.

Outras informações sobre os robots:

O conselho de desenvolvedores de robôs, colocaram mais algumas recomendações:

  • manter um intervalo mínimo de tempo entre requisições sucessivas enviadas a um mesmo servidor. Tipicamente 60 segundos.
  • Prover as informações necessárias para os administradores de servidores:
  1. nome do robô;
  2. e-mail do responsável;
  3. nome do responsável;
  4. instituição; etc.
  • Evitar coleta maciça em horas de tráfego tipicamente alto


Vale lembrar que essas são apenas recomendações, portanto não quer dizer que serão cumpridas.

Conclusão:

Os robots facilitam muito a nossa vida. Recuperam informações preciosas e em pouco tempo na web. Mas quando não são corretamente
projetados, seguindo as recomendações, podem trazer grandes problemas. Eles podem aumentar o tráfico na rede e sobrecarregar um servidor.
É uma ferramenta que deve ser usado com responsabilidade para que a web possa ser usada por todos.