Explicación de los principales algoritmos de minería de datos

Puente colgante Antes del ‘big data’ se hablaba de minería de datos (‘data mining’) como precursora (y con intersección no vacía) me resultó interesante Top 10 data mining algorithms in plain English donde justamente describen eso: los algoritmos de minería de datos más importantes descritos de una forma más o menos sencilla.

Puede ser de interés para alguien que quiera tener una idea de las posibilidades, o como recordatorio para los que ya las hayan olvidado. De paso, aprendemos un poco de terminología general.

Es difícil identificar los correos de phishing correctamente

Phishing El phishing es una técnica que utilizan los estafadores para robar información personal: se envía un correo electrónico que parece provenir de alguna entidad en la que confiamos y que nos invita a pinchar en un enlace. En el sitio de destino (que no es el que se supone que debería) se nos solicitan datos que confiadamente proporcionaremos.

Sobre este tema, tengo un par de teorías:

  • Los sitios de redes sociales han destruido cualquier tipo de posibilidad de que sigamos sosteniendo ante los usuarios aquello de que no pinchen en los mensajes de correos. Sistemáticamente recibimos mensajes invitándonos a realizar acciones, y pichar enlaces; como usuarios es lo habitual. Eso hará difícil frenar a los de marquetin de nuestra empresa para tratar de hacer cosas parecidas.
  • Para la mayoría de usuarios no es necesario hacer grandes montajes ni sitios que se parezcan mucho a los legítimos: hemos visto frecuentemente burdas páginas de solicitud de credenciales construidas con formularios de Google Docs (y otros sitios) sin ningún tipo de personalización, lo que parece indicar que muchos usuarios no son nada precavidos (por decirlo suavemente).

En Can you correctly identify phishing emails? nons hablan sobre un experimento de Intel que mostraba diez mensajes de correo y preguntaba a los usuarios cuáles eran legítimos y cuáles no:

An Intel Security quiz presented ten emails and asked respondents to identify which of the emails were phishing attempts designed to steal personal information and which were legitimate.

El resultado es bastante decepcionante porque sólo un 3% de los que respondieron fueron capaces de identificar correctamente todos los mensajes y el 80% de los que respondieron identificaron incorrectamente al menos uno de los correos de phishing como válido.

Habría que añadir que eso no es un problema en sí mismo, porque además de pinchar tenemos que seguir engañados a la hora de proporcionar nuestros datos y allí todavía podemos estar atentos. Aunque es cierto que en algunos casos, el hecho de pinchar en el enlace ya podría tener consecuencias desagradables:

In some cases, just clicking the link provided in the email will automatically download malware onto the user’s device. Once the malware is installed, hackers can easily steal the victim’s information without their knowledge.

Hay que estar atentos.

.es, la web anticuada

Respuesta servidor Una de las formas que tenemos hoy en día de averiguar como es el mundo es preguntando a la web. Se trata de desargar y analizar la información (meta-información) disponible en internet que nos puede dar pistas sobre las organizaciones en distintos ámbitos. De ello hablábamos el otro día en Alguien puede estar tratando de conocerte mejor pero hemos hablado más veces antes: demoscopía.

Hoy vamos a hablar un poquito de los servidores web en los dominios .es. En Análisis de servidores web en dominios “.es” (I) Luis Martín lanzaba un análisis a los servidores web de los dominios .es para determinar qué servidores se estaban utilizando, versiones, sistemas operativos y esas cosas. La conclusión es que el servidor mayoritario es Apache, seguido del IIS. En ambos casos, versiones no muy recientes:

Apaches con más de un año de antigüedad: 109715. Apaches con menos de un año de antigüedad: 37714.

Y también:

8799 dominios usarian IIS actualizados. 105926 usan IIS antiguos y potencialmente vulnerables.

Naturalmente, dada la naturaleza de estos datos esto no significa que todos sean vulnerables (incluso podrían estar proporcionandodatos falsos). Pero muy buena impresión no da.

El análisis continuaba con Análisis de servidores web en dominios “.es” (II), donde se analizan los lenguajes y sistemas de gestión de contenidos utilizados en estas páginas web. Los más populares parecen ser PHP y ASP.NET.

Nuevamente no parece que la actualización sea una de las prioridades de la web española.

Insisto, no hay que tomar como palabra de ley estos datos, pero a mi me dejan un poco preocupado, la verdad:

Hemos de tener en cuenta que este estudio ha sido realizado de manera muy superficial, cuidando hasta el extremo el potencial impacto y siendo lo menos agresivos posible. Toda la información obtenida está “ahí fuera” sin necesidad de “rascar”, disponible para todo el mundo incluidos aquellos sin buenas intenciones. Seguramente un enfoque más profundo (sin necesidad de ser agresivo) proporcionaría mucha más información del estado actual de servicios Joomla!, WordPress, IIS o Apache.

DevOps y seguridad

Libros de seguridad En Building Security Into DevOps: Security Integration Points hay una introducción al tema, que podemos completar con Putting Security Into DevOps.

Se hace un análisis inicial de esta forma de enfrentarse a los proyectos para después pasar a comentar las implicaciones y consecuencias desde el punto de vista de la seguridad (diseño/arquitectura, despliegue, modelo de amenazas, automatización, pruebas …). Y también las herramientas de seguridad como son el análisis estático, dinámico, fuzzing, revisión de código…

Control de versiones desde Python

Pantalla y fichas Aunque el sistema de filtros que introdujimos en Añadiendo filtros de correo a mi sistema con sievelib ha seguido evolucionando con varias características hoy quería traer aquí una que me preocupaba un poco: si vamos añadiendo reglas es bastante probable que en algún momento nos equivoquemos y añadamos alguna errónea. Como además estamos utilizando un sistema que controla los filtros también podría ocurrir que una actualización sobre-escriba las reglas que hayamos creado. La solución adoptada era guardar la historia de los cambios. Pero queríamos ir un poco más allá: ¿tendría sentido gestionar el histórico con un sistema de control de versiones? ¿Sería posible hacerlo?

Buscando encontramos GitPython que nos proporcionaba una interfaz adecuada para lo que estábamos plateando. El código completo en su estado actual se puede ver en addToSieve.py y nos vamos a dedicar a su parte final. Aviso: el resto del código no está muy bien organizado pero funciona razonablemente bien en mi día a día.

Hay que declarar el módulo:

from git import Repo

Al final, cuando ya hemos actualizado las reglas las pasamos al sistema de control de versiones. Instanciamos un repositorio con nuestro directorio de copias de seguridad. repoDir es una cadena de texto que contiene el directorio de trabajo (en mi caso es ~/Documents/config donde guardo varias configuraciones con control de versiones).

	repo = Repo(repoDir)
	index = repo.index

Elegimos el fichero de reglas que acabamos de grabar, lo almacenamos en el fichero que estamos utilizando (en mi caso se llama sogo.sieve, añadimos todos los ficheros del directorio al repositorio y hacemos el commit (con el nombre y la fecha como mensaje):

	
	sieveFile=c.getscript('sogo')
	file=open(repoDir+repoFile,'w')
	file.write(sieveFile)
	file.close()
	index.add(['*'])
	index.commit(name+'sogo')

Finalmente borraremos del servidor algunos filtros almacenados, dejando los últimos cinco nada más. No se hace el push dentro del programa para evitar el tener que teclear otra contraseña y no parece necesario.

Buscando otros proyectos he visto que en history.py hacen algo parecido en un programa de gestión de contraseñas que estoy probando, passpie.