Los robots que navegan por la web y nuestra privacidad
En Extracting Personal Information from Large Language Models Like GPT-2 un recordatorio de que todo lo que ponemos en internet puede ser leído por alguien y, en consecuencia, no podemos contar con que no se sabrá.
Se refiere al modelo GPT-2 que trata de generar párrafos de texto coherentes entrenando a una inteligencia artificial con datos obtenidos de internet.
We’ve trained a large-scale unsupervised language model which generates coherent paragraphs of text, …
Cuando se usan esas cantidades de datos es difícil validar todo lo que hay allí y, por lo tanto, a veces se utilizan datos que pueden tener información que algunas personas considerarían delicada.
These extracted examples include (public) personally identifiable information (names, phone numbers, and email addresses), IRC conversations, code, and 128-bit UUIDs. Our attack is possible even though each of the above sequences are included in just one document in the training data.
La privacidad dejó de existir hace algún tiempo y este estudio es una pieza más en la demostración. Podemos pensar en prohibir, censurar,… Pero siempre habrá alguien con capacidad de hacerlo y mostrarlo (como es el caso) o pasar desapercibido porque nadie pueda mirarlo.