Los 10 errores más comúnes sobre «machine learning»
La Agencia Española de Protección de Datos (AEPD) y el Supervisor Europeo de Protección de Datos (SEPD) han publicado un nuevo documento conjunto en el que exponen los 10 errores más comunes relacionados con el machine learning y aportan un análisis de cuál debería ser el enfoque correcto.
En este sentido las funciones del SEPD son las de garantizar que, a la hora de tratar datos personales, las instituciones y organismos de la UE respeten el derecho a la intimidad de los ciudadanos.
El objetivo de este documento es dilucidar los conceptos erróneos más comunes que rodean a los sistemas de machine learning, además de subrayar la importancia de implementar estas tecnologías de acuerdo con los valores de la UE, los principios de protección de datos y el respeto a los derechos de las personas.
Antes de abordar estos aspectos sobre el documento comentado anteriormente es de especial importancia retroceder en el tiempo y es que La UE ha destacado la importancia de la Inteligencia Artificial en la estrategia para la transformación digital de la UE.
El machine learning es una rama específica de la IA, aplicada a la resolución de problemas específicos y limitados, como tareas de clasificación o predicción. A diferencia de otros tipos de IA que intentan emular la experiencia humana (por ejemplo, sistemas expertos); el comportamiento de los sistemas de aprendizaje automático no está definido por un conjunto predeterminado de instrucciones.
Los 10 errores más comunes:
1. Correlación implica causalidad.
En este sentido, los sistemas de machine learning son muy eficientes en la búsqueda de correlaciones, pero carecen de la capacidad analítica para ir más allá de eso y establecer una relación causal.
2. Al desarrollar sistemas de aprendizaje automático, cuanto más datos y mayor sea la variedad mejor.
El entrenamiento de los sistemas de machine learning requiere grandes cantidades de datos, dependiendo de la complejidad de la tarea a resolver. Sin embargo, utilizar más datos de entrenamiento en el desarrollo de modelos de aprendizaje automático no siempre mejorará el rendimiento del sistema.
3. El machine learning necesita datos de entrenamiento completamente libres de errores.
El rendimiento de los modelos de machine learning depende, entre otros factores, de la calidad de los datos de entrenamiento, validación y prueba. Por lo tanto, esos conjuntos de datos deben ser capaces de definir un caso real de forma suficientemente completa y precisa.
4. El desarrollo de sistemas de machine learning requiere grandes repositorios de datos o el intercambio de conjuntos de datos de diferentes fuentes.
La agrupación de datos y el sistema de aprendizaje automático en una infraestructura de computación en la nube controlada por desarrollador del sistema de machine learning es una solución común para evitar restricciones de rendimiento.
5. Los modelos de machine learning mejoran automáticamente con el tiempo.
Un modelo que se implementa y ya no se entrena no “aprenderá” más correlaciones de los datos entrantes, sin importar la cantidad de datos que se le proporcionen.
6. Las decisiones automáticas tomadas por algoritmos de machine learning no pueden ser explicadas.
Pueden ser necesarios diferentes grados de detalle en la explicación del modelo, dependiendo de los individuos y el contexto.
7. La transparencia en machine learning viola la prioridad intelectual y no es entendida por el usuario.
Al procesar datos personales utilizando machine learning, los responsables del tratamiento deben informar adecuadamente a los interesados sobre los posibles impactos en su vida diaria.
8. Los sistemas de machine learning están sujetos a menos sesgos que los propios humanos.
El objetivo de los sistemas de machine learning es reflejar la experiencia y el conocimiento proporcionados por sus creadores.
9. El machine learning puede predecir con precisión el futuro.
Los sistemas de machine learning tienen en cuenta los datos presentes en los conjuntos de datos y los utiliza para extraer proyecciones de posibles resultados futuros.
10. Los interesados son capaces de anticipar las posibles salidas que los sistemas de machine learning puedan dar con sus datos.
Los sistemas de machine learning son excelentes para encontrar correlaciones en los datos. Son capaces de identificar patrones en los datos personales que van más allá de los planteados explícitamente en el desarrollo del modelo, y que podrían ser desconocidos incluso para los individuos afectados (por ejemplo, una predisposición a una enfermedad). Este potencial plantea varias preocupaciones desde el punto de vista de la protección de datos.Las técnicas de machine learning son necesarias para mejorar la precisión de los modelos predictivos. Dependiendo de la naturaleza del problema empresarial que se está atendiendo, existen diferentes enfoques basados en el tipo y volumen de los datos.