miércoles, 14 de noviembre de 2012

Autómatas en la SGAE

¿Autómatas? ¿De qué? ¿De Mealy? ¿De Moore?

Lo siento mucho, pero me temo que en esta ocasión no van a ser estos autómatas de aquí. Estos de aquí son los que nos imparten en las universidades en la ingeniería en informática (ya sea la técnica o la superior. Eso de los grados, ahora mismo, se lo dejo a otros). Desde aquí saludo a los profesores que me las impartieron: ¡Hola!

A lo que iba. Que me voy por los cerros de Úbeda: muchas veces se utiliza la palabra autómata para sustituirlo por robot.¿Y qué tiene que ver un robot con la SGAE? Un robot tal y como lo vemos normalmente, como puede ser los que vemos en las pelis, nada. Pero, si nos metemos en el mundo del Internet, sabemos que existe un fichero que se llama robots.txt. Y aquí sí que vienen algunas cosas interesantes.

¿Alguien se acuerda del caso de la condena a una persona por hacer que la palabra "SGAE" se asociase a la palabra "ladrones"? Creo recordar que esa técnica que se utilizó se llamaba Google Bombing. No estoy muy seguro, pero parece ser que hubo algún tema de por medio para hacer que Google no sacara ningún resultado al respecto. A día de hoy, se puede obtener esta pantalla:

Resultado busqueda "ladrones" en Google: la SGAE es la segunda posición
Resultado busqueda "ladrones" en Google: la SGAE es la segunda posición
Aún así, también podemos realizar la búsqueda desde otro sitio, por ejemplo, Yahoo:

Resultado busqueda "ladrones" en Yahoo: la SGAE es la segunda posición
Resultado busqueda "ladrones" en Yahoo: la SGAE es la segunda posición
Ahora que estamos puestos en antecedentes, al menos, lo poco que puedo explicar, puedo ir al meollo del asunto: ¿no parece raro que aún habiendo resulto el tema, salga la página de la SGAE, y, además, en su URL aparezca la palabra "ladrones"?

No lo voy a negar, la segunda página, la de Yahoo, la he encontrado escribiendo este artículo. Pero la primera. ¡Ah, amigo! La primera ha sido la que ha hecho que quisiera investigar un poco más para escribirlo. 

Llama mucho la antención la descripción que nos dan en Google: "No hay disponible una descripción de este resultado debido al archivo robots.txt de este sitio".

Es decir, que podríamos visitar el fichero robots.txt y encontrarnos con información muy valiosa. De todos es sabido que es un fichero público, del que todo el mundo puede tener acceso, y a su vez, las direcciones que no se quieren indexar en los buscadores, se podrán visitar directamente sin pasar por éstos.

Si a la hora de escribir todas estas parrafadas, visitamos el fichero, nos encontramos con:

Robots.txt SGAE
robots.txt SGAE
Aquí nos encontramos con varias cosas. La primera, que me acaba de llamar la atención: Yahoo se ha pasado por el forro este fichero. Si no, ¿a qué viene mostrar el quinto Disallow?

No se. Según dicho fichero, una búsqueda debería de poderse hacer por parámetros GET, directamente después del interrogante: "?". Aún así, no parece que funcione. Eso sí, si realiza una búsqueda cualquiera, nos la devuelve como 

http://www.sgae.es/?s=CADENA_BUSCADA

¿Podemos sacar más información? Sí. Si navegamos un poco por el sitio (por ejemplo, después de buscar algo), podremos ver que hay un enlace para que los socios puedan acceder a algún sitio que posiblemente pida autenticación (no me he molestado en mirarlo, y no lo voy a hacer). Eso sí, ahí podremos ver que el fichero al que se dirige ese enlace termina en .asp. Si no llega a ser porque las últimas líneas del robots.txt dicen que son jsp, diría que la página está hecha íntegramente en asp.

Y... creía que podría obtener más información. Pero, visto lo visto, tampoco es que sea mucha. 

De todas formas, esto no es nuevo. Como ya he dicho, lo que me ha hecho escribir esto es que se ha indexado una URL que en teoría no debería de poderse ver en las búsquedas. También he de decir que me se las cosas básicas del fichero: User-Agent, Disallow, asterisco (*) como comodín...

Y por ahora, nada más. 

No hay comentarios:

Publicar un comentario