Filtros de Bloom y optimización fallida

Tortuga y roca Los filtros de Bloom son conocidos para comprobar si un elemento está en un conjunto de manera eficiente de manera probabilista; esto es, el filtro puede responder cosas como ‘es posible que el elemento esté en el conjunto’ o ‘no está’. Se trata de obtener resultados cuando el conjunto de datos es tan grande que sería poco práctico utilizar otras técnicas más precisas.

En When Bloom filters don’t bloom nos cuentan sobre su uso en la detección de falseamientos de la IP (IP spoofing) para tomar decisiones sobre ellos en Cloudfare. El autor tenía un buen número de IPs recopiladas y al querer eliminar duplicados pensó que podrían servirle.

Nos cuenta detalles de sus desarrollos y la forma de hacerla más eficiente y como se encontró con un conjunto de datos que, aún así, no cabía en su memoria. Su programa invertía mucho tiempo moviendo datos entre las memorias disponibles.

Finalmente, indica algunas de las lecciones aprendidas:

El acceso a memoria secuencial y cuando se pueden predecir los siguientes accesos es algo que funciona bien en las CPUs modernas.

Modern CPUs are really good at sequential memory access when it’s possible to predict memory fetch patterns

Las estructuras de datos avanzadas son interesantes, pero hay que tener en cuenta el hardware y sus condicionantes (en este caso, las cachés).

Advanced data structures are very interesting, but beware. Modern computers require cache-optimized algorithms. When working with large datasets, not fitting L3, …

También algún comentario sobre el perfilado de programas.

Interesante.

Bloom filter

Equipos distribuidos y desarrollo

Teléfonos En For Distributed Teams, Code Craft is Critical hablaban de los equipos de desarrollo distribuidos (en lo que se han compartido la mayoría, al menos durante una buena parte de los últimos meses).

Nos habla de la disciplina necesaria y los factores que hay que tener en cuenta: pruebas unitarias, integración continua, desarrollo dirigido por pruebas, principios de diseño (simple, diseño modular, refactorización).

Cada uno de estos resuelve algunas cuestiones y creo que puede ser una lectura interesante, aunque no estemos en un equipo distribuido.

Proyecto de OWASP sobre seguridad de APIs

¿Qué haríamos sin enchufes? Otro proyecto intesesante de la OWASP, el OWASP API Security Project. Sería como el top-ten de seguridad, pero pensando en APIs. Un API (Application Programming Interface) es una forma en la que se pueden proporcionar determinados servicios a través de llamadas y peticiones a determinadas funcionalidades que pueden integrarse en nuestros propios programas, en lugar de tener que esperar a que el propietario de la información haga un programa que nos sirva para nuestras necesidades.

Incluye, claro, cuestiones muy similares a las generales en seguridad: autorización de acceso a los objetos incorrecta, autentificación incorrecta del usuario, exceso en la exposición de datos, problemas con escasez de recursos y limitaciones de acceso, problemas de autorización con respecto al nivel de acceso, asignaciones de datos poco controladas, mala configuración de seguridad, problemas de inyección, gestión inadecuada de recursos y falta de registro de actividad y monitorización.

API1:2019 Broken Object Level Authorization

API2:2019 Broken User Authentication

API3:2019 Excessive Data Exposure

API4:2019 Lack of Resources & Rate Limiting

API5:2019 Broken Function Level Authorization

API6:2019 Mass Assignment

API7:2019 Security Misconfiguration

API8:2019 Injection

API9:2019 Improper Assets Management

API10:2019 Insufficient Logging & Monitoring

Interesante.

Sobre el método usado para generar ficheros .zip

¡Oh! ¡Qué bonito!

Casi a título de inventario. Una necesidad frecuente en el mundo de la informática es el empaquetado (reunir varios ficheros/documentos para su distribución, por ejemplo, de manera conjunta) y la compresión (hacer que lo guardado ocupe el menor espacio posible).

En History, Explanation and Implementation nos cuentan el caso del formato zip que no es especialmente bueno ni moderno, pero que se puede entender bien con la voluntad adecuada. Incluye ejemplos de código:

This article explains how the Zip file format and its compression scheme work in great detail: LZ77 compression, Huffman coding, Deflate and all. It tells some of the history, and provides a reasonably efficient example implementation written from scratch in C.

La forma en que trabaja este método de compresión es extraer la información común, codificarla adecuadamente y sustituirla por códigos más breves cuando aparezca.

One way of compressing text is to maintain a list of common words or phrases, and replace occurrences of those words in the text with references to the dictionary. For example, a long word such as “compression” in the original text might be represented more efficiently as #1234, where 1234 refers to the position in the word list. This is known as dictionary-based compression.

Interesante.

Automatización de lo que se ve en el perfil de GitHub

Imagen de la página Programar me relaja y además me gusta hacer pruebas, aunque el tiempo disponible no sea demasiado. También me gustaría incluir en esta bitácora algunas de esas pruebas, por si le sirven a alguien para algo, que es algo que necesita todavía más tiempo. Esta entrada pretende mostrar una de esas pruebas, que permite actualizar automáticamente el perfil de GitHub gracias a algunas características que han incluido recientemente en esa ‘red social’ de desarrolladores.

Lo que cuento se basa en las indicaciones que se pueden encontrar en Building a self-updating profile README for GitHub (sigo el sitio de Simmon Willison desde hace mucho tiempo y fue una sorpresa agradable descubrir la receta y otras inspiraciones) y también en How I Built A Self-Updating README On My Github Profile (en este caso encontrado gracias a una búsqueda de Google y con algunas ideas de diseños más atractivos, al menos para mi).

GitHub ha lanzado recientemte el léeme del perfil (README) que permite utilizar markdown para incluir información personalizada en el perfil del usuario. Basta con crear un repositorio público nuevo con el nombre del propio usuario (en mi caso, github.com/fernand0/fernand0 e incluir un fichero README. GitHub utilizará este fichero para mostrarlo en nuestra página de perfil.

Siendo un repositorio, uno puede preguntarse (al menos Willison lo hizo) si puede automatizar algunas tareas relacionadas con el mismo. Y nos cuenta como esto es posible gracias a una acción de GitHub (GitHub Action) que se define en el fichero build.yml.

No voy a entrar en mucho detalle, pero contiene:

  • Formas de ‘disparar’ acciones (en nuestro caso, cuando se hace un push o basado en el tiempo, con la sintáxis del crontab).
  • Después, permite ejecutarlas (dónde se ejecuta -sistema y entorno de desarrollo, incluyendo instalación de paquetes si es necesario-: en mi caso en una Ubuntu con el lenguaje Python) y algunas cosas más (por ejemplo, definir TOKENS necesarios para realizar determinadas acciones -en nuestro caso, utilizar el Graph QL API de GitHub).
  • Finalmente, utilizar el resultado de esas acciones para generar la información que aparecerá en nuestro perfil (Fundamentalmente hacer un push si ha habido cambios).

Sobre mi actividad en el propio sitio, decidí incluir información relacionada con repositorios (contribuciones -mínimas- a los de otros proyectos y a mis propios repositorios públicos). Sobre otra actividad, pensé en incluir las últimas entradas en mis dos bitácoras más activas (incluye esta) y se muestran en la página.

El código de actualización está en build_readme.py (versión en el momento de escribir esta entrada del código basado en el de Willison, las partes mejor realizadas son mérito suyo, las más feas son mis propios ‘apaños’).

Para mostrar la información de los repositorios, como decía arriba, se utilizan el Graph QL API de GitHub con un token personal (en ‘Settings’ de la cuenta de GitHub podemos buscar la opción de ‘Developer settings’ y allí crear lo que llaman ‘Personal access tokens’. Luego hay que darle los permisos adecuados para este token (en mi caso los de usuario, los de workflow, y los de lectura y escritura en un repo -así a ojo, creo que son los necesarios; si no funciona ya nos dirá cuáles necesitamos-).

Para que el sistema que ejecuta nuestro programa tenga acceso al token podemos usar los ‘settings’ del proyecto (estos son los míos, pero se entiende, espero) y allí ir a la opción de ‘Secrets’ donde podemos dar de alta la información secreta que necesitemos.

En mi caso, la información que se muestra sobre la actividad en GitHub está en la pregunta:

query MyQuery {
  user(login: "fernand0") {
    repositoriesContributedTo(last: 20, orderBy: {field: PUSHED_AT, direction: DESC}) {
      edges {
        node {
          name
          description
          projectsUrl
          pushedAt
        }
      }
    }
    repositories(last: 10, orderBy: {field: UPDATED_AT, direction: ASC}, privacy: PUBLIC) {
      edges {
        node {
          name
          description
          projectsUrl
          owner {
            login
          }
          pushedAt
        }
      }
    }
  }
}

Para construirla GitHub nos proporciona una herramienta muy útil, que es el ‘GitHub GraphQL API’ que simplifica mucho la tarea de probar las preguntas.

Para mostrar la información de las bitácoras, utilizo el paquete ‘feedparser’ que ya usábamos hace algún tiempo en Publicar en Facebook las entradas de este sitio usando Python para extraer la información, formatearla y añadirla al README.

Por otro lado, de Hoffman he mirado los simbolitos sociales (y he descubierto Shields.io que parece un sistema de generación de logos utilizando SVG y otros trucos; he usado algunos que ya tenía Hoffman y he ‘añadido’ otros que no existían, no se qué sucederá) y el formato en una sola columna (Willison tiene una tabla con tres columnas que no se ven muy bien, por ejemplo, en el navegador de un teléfono móvil).

¿Qué pasará a partir de ahora?

Probablemente seguiré jugando con el aspecto para dejar uno que me convenza del todo y, tal vez, añada algún servicio más. Uno evidente es el de Twitter, pero podría ser otra cosa.

Si alguien necesita ayuda con algún paso, puede leer con calma las entradas recomendadas y también preguntar, si lo que necesita no es muy diferente de lo que se puede ver aquí.