miércoles, 29 de mayo de 2013

Robots en Antena3

Aunque ya he contado alguna vez cosas sobre esto, vamos a ver cómo conseguir descargar alguna de las emisiones de Antena3.

Lo primero de todo, es ir a la página web de Antena3, e ir a la sección de programas. En esa sección, vamos a buscar el programa deseado y nos metemos en la emisión en la que nuestro ser querido estuvo delante de unos cuantos millones de personas.

¿Ya estamos? Perfecto. Ahora, con algún tipo de programa tipo tamper data, intentamos buscar el vídeo, tal y como ya conté en su momento. En este caso, se podrá complicar la cosa, porque carga bastantes cosas y encontrarlo... No es que se deje mucho. Por lo tanto, vamos a intentar optar la segunda opción: con el wireshark hacer un follow tcp stream de los paquetes que deduzcamos que pertenecen al vídeo que se está cargando. Aunque según el conjunto de paquetes no podamos ver del todo la URL, sí que nos permitirá ver algunos datos:

Wireshark: Follow tcp stream del vídeo .mp4
Wireshark: Follow tcp stream del vídeo .mp4
El problema está en que tampoco acabo de ser capaz del todo de localizar cuál es la ruta "raiz" para ese mp_series??/, por lo tanto, acabo visitando la página otra vez. Para la siguiente prueba, me hará falta el firefox y su herramienta firebug. Esta herramienta te permite ver el código fuente de la página, ir viendo poco a poco a qué zona de la página pertenece esa línea de código. Por lo tanto, vas buscando dónde se encuentran las líneas que insertan el vídeo:

Firebug: Embebiendo el vídeo
Firebug: Embebiendo el vídeo

Aquí podemos ver que hay un fichero xml. ¿Y si fuera aquí donde pudiéramos encontrar más datos para descargar el vídeo? El problema está en que hay que intentar ver, una vez más, cuál es la raíz donde hay que poner ese enlace. A lo mejor, en el robots.txt nos pueden dar una pista. Y sí, ahí he encontrado algo que ya se había visto antes en la captura embebiendo un vídeo, y eso es /chapterxml/:

/chapterxml/ en el robots.xml de Antena3
/chapterxml/ en el robots.xml de Antena3
Es un detalle que no se me había ocurrido mirar y que prácticamente me lo estaban diciendo en el pantallazo del firebug. Si visitamos la URL del xml, utilizando /chapterxml/ como raíz, llegamos a ver el contenido, en el que se indican un montón de parámetros: urlVideoFlv,urlVideoMp4urlHttpVideo,urlSubtitlegeoLoc, y, el más importante: la rama archivoMultimedia de la que cuelga archivo, que es el nombre del fichero .mp4. Por lo tanto, concatenando urlHttpVideo con archivo podremos descargar el vídeo.

Todo este lío que he contado, algo que no es nuevo en este blog (pero que permite ver otras formas de descubrir cómo se organizan los reproductores para streaming), es porque en el robots.xml me he encontrado con un contenido muy específico que ya han publicado... Y del que ese enlace ya no te lleva a ese contenido en concreto. Bueno. Al menos, una forma más para encontrar las fuentes de los vídeos que se en en Antena3. Es más, teniendo la URL de los vídeos, los puedes encolar en tu reproductor favorito (por poner un ejemplo, VLC). 

No hay comentarios:

Publicar un comentario