Un problema de volumen, y de herramientas

¿Cómo extraer información de 6 millones de archivos, de 4 millones de imágenes, correos electrónicos, hojas de cálculo, imágenes, archivos de audio y de vídeo, de 14 fuentes distintas de suministro de información?

Esta pregunta se la realizaron los periodistas e investigadores que han sacado a la luz el escándalo de los papeles de Pandora. Y la respuesta pasó por la utilización de Python, entre otras herramientas.

Fuente: Pandora Papers Data

Buscando herramientas de extracción de datos

Cuando tienes 6.4 millones de archivos, entre documentos de texto y ficheros PDF (algunos de ellos con más de 10.000 páginas), con información como declaraciones de impuestos, extractos bancarios, registros de constitución de empresas, o contratos inmobiliarios, provenientes de más de 27.000 empresas y 29.000 beneficiarios finales, un análisis manual de toda esta información no es posible.

Así que buscas herramientas que hagan el trabajo de forma automática.

¿Y si no hay herramientas adecuadas?

Pero, ¿qué pasa si no encuentras en el mercado una herramienta que se ajuste a tus necesidades como empresa o equipo de investigación? La solución pasa por crearte tu propia herramienta, programándola según las necesidades.

¿Y qué necesitamos para crear nuestras propias soluciones tecnológicas? Tener conocimientos de un lenguaje de programación. Y aquí entró en juego Python en este caso.

Python para automatizar la extracción de datos

Como hemos comentado en otras ocasiones, Python es un lenguaje de programación sencillo de aprender, y que nos permite empezar rápidamente a crear programas y soluciones. Por ello es uno de los dos lenguajes de programación preferidos en el mundo científico y tecnológico, junto al lenguaje R.

El equipo de investigación de los papeles de Pandora utilizó Python para automatizar la extracción de datos, y para almacenarlo de una forma que luego pudiesen ser analizados por otras herramientas, y poder extraer conclusiones.

Los lenguajes de programación y Python en el futuro

Una vez más se demuestra que los lenguajes de programación aportan grandes beneficios no solo a las empresas y equipos tecnológicos.

Los Papeles de Pandora son un ejemplo, aunque no el único, en el cual profesionales de otros ámbitos no tecnológicos, como el periodismo de investigación, se benefician del conocimiento de un lenguaje de programación.

El aprendizaje de lenguajes de programación, como Python, nos sitúan en una posición privilegiada a la hora de encontrar trabajo. Cada idioma que conocemos nos aporta valor como profesionales.

Actualmente existen muchas formas de aprender lenguajes de programación de una forma sencilla, y progresiva. Nosotros queremos invitaros a participar en CodedArena™, nuestro videojuego para aprender programación.

Con CodedArena™ no solo se aprende Python 100% real, también se disfruta de un videojuego con una historia detrás que apetece descubrir a cada misión que se completa.
CTO_01

Además, si accedes desde este enlace como usuario, o a este otro como centro educativo o docente, conseguirás una prueba gratuita de 14 días, sin compromiso de permanencia.

¡Es tiempo de empezar a disfrutar de la programación como nunca antes!