Inicio / Desarrollo web / Archivos PDF en los resultados de búsqueda de Google

Archivos PDF en los resultados de búsqueda de Google

PDF en Google

Un artículo publicado en el blog oficial de Google para Webmasters explica los detalles sobre la indexación de archivos PDF que realiza el buscador.

Nuestra misión consiste en organizar la información del mundo y hacer que resulte útil y accesible para todos los usuarios. En esta ambiciosa tarea, a veces nos encontramos con archivos que no son HTML, como archivos PDF, hojas de cálculo y presentaciones. Nuestros algoritmos no se detienen ante formatos de archivo diferentes; trabajamos duro para extraer el contenido relevante e indexarlo de forma adecuada para poder incluirlo en los resultados de búsqueda. Pero, si estos formatos de archivo suelen diferenciarse tanto de los archivos HTML estándar, ¿cómo indexamos realmente estos archivos y qué directrices aplicamos? ¿Y si un webmaster no quiere que los indexemos?

Google empezó a indexar archivos PDF en 2001 y actualmente cuenta con cientos de millones de archivos PDF indexados. Han recopilado las preguntas más frecuentes sobre la indexación de archivos PDF y estas son las respuestas:

P: ¿Google puede indexar cualquier tipo de archivo PDF? 
R: Normalmente, podemos indexar contenido textual (escrito en cualquier idioma) de los archivos PDF que utilizan diferentes tipos de codificación de caracteres, siempre que no estén cifrados ni protegidos por contraseña. Si el texto está insertado en forma de imágenes, podemos procesar las imágenes con algoritmos OCR [inglés] para extraer el texto. La norma general es que si se puede copiar el texto de un documento PDF y pegarlo en un documento de texto estándar, deberíamos ser capaces de indexarlo.

P: ¿Qué ocurre con las imágenes de los archivos PDF? 
R: Actualmente, las imágenes no se indexan. Para que podamos indexarlas, deberías crear páginas HTML para las imágenes. Para aumentar las probabilidades de que podamos incluir tus imágenes en los resultados de búsqueda, consulta las sugerencias que te ofrecemos en el Centro de asistencia.

P: ¿Cómo se tratan los enlaces incluidos en los documentos PDF? 
R: Normalmente, los enlaces incluidos en los documentos PDF se tratan de forma similar a los enlaces que encontramos en los archivos HTML: pueden entrar en la clasificación de PageRank y otras señales de indexación, y podemos seguirlos después de haber rastreado el archivo PDF. Actualmente, no es posible utilizar el atributo “nofollow” en los enlaces de un documento PDF.

P: ¿Cómo puedo evitar que mis archivos PDF aparezcan en los resultados de búsqueda? Y, si ya aparecen, ¿cómo puedo eliminarlos? 
R: La forma más sencilla de evitar que los documentos PDF aparezcan en los resultados de búsqueda es añadir una etiqueta X-Robots “noindex” en la cabecera HTTP utilizada para mostrar el archivo. Si ya se han indexado, dejarán de aparecer con el tiempo si utilizas la etiqueta X-Robots con la directiva “noindex”. Para acelerar la eliminación, puedes utilizar la herramienta de solicitud de eliminación de URL de las Herramientas para webmasters de Google.

P: ¿Pueden obtener los archivos PDF una buena clasificación en los resultados de búsqueda? 
R: Por supuesto. Por lo general, estos archivos se clasifican de forma similar a otras páginas web. Por ejemplo, en el momento de esta publicación, [mortgage market review], [irs form 2011] o [paracetamol expert report] devuelven documentos PDF que obtienen una buena posición en los resultados de búsqueda gracias a su contenido y a la forma en la que están insertados y vinculados desde otras páginas web.

P: ¿Se considera contenido duplicado si tengo una copia de mis páginas en formato HTML y PDF? 
R: Siempre que sea posible, te recomendamos que muestres una única copia de tu contenido. Si no es posible, asegúrate de indicar cuál es tu versión preferida. Para ello, puedes incluir la URL que prefieras en tu sitemap o especificar la versión canónica en el archivo HTML o en las cabeceras HTTP del PDF. Para obtener más sugerencias, consulta el artículo del Centro de asistencia sobre canonicalización.

P: ¿Cómo puedo influir en el título que aparece en los resultados de búsqueda de mi documento PDF? 
R: Utilizamos dos elementos principales para determinar el título que mostramos: los metadatos del título que contiene el archivo y el texto de anclaje de los enlaces que dirigen al archivo PDF. Para que nuestros algoritmos capten claramente el título que deben utilizar, te recomendamos que actualices ambos elementos.

Fuente: Blog oficial de Google para Webmasters

Acerca de MasterGeek

José Antonio Ramírez # Ingeniero Técnico en Informática de Gestión # Fundador y administrador de nGeeks.com # Market Analyst en SocialRep

También puedes ver...

Como siempre Google trae un doodle para festejar las fechas más importantes del mundo

La empresa de tecnología se ha encargado de publicar un doodle especial para celebrar aquellas …

2 Comentarios

  1. Para los que esteis interesados en encontrar documentos pdf de calidad probar el buscador http://www.pedeefes.com ademas de poder buscar por palabras clave en el resultado presenta un preview del documento, el número de páginas, su tamaño y otras informaciones interesantes para valorar la calidad de los documentos en formato pdf.

  1. Pingback: Bitacoras.com

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *