Un bufete de abogados de California, Clarkson Law Firm, ha presentado una demanda colectiva contra OpenAI por lo que considera robo de datos personales para entrenar a ChatGPT. El bufete señala en la demanda, que ha presentado ante el tribunal del Distrito Norte de California, que ChatGPT «usa información privada robada, incluyendo información personal identificable, de cientos de millones de usuarios de Internet, incluyendo niños de todas las edades, sin su consentimiento informado, ni su conocimiento«.
Para entrenar a su modelo de lenguaje grande, OpenAI recopiló 300.000 millones de palabras de Internet, en las que se incluyen información personal y publicaciones de redes sociales como Twitter o Reddit. Según Clarkson, OpenAI «lo hizo en secreto, y sin registrarse como broker de datos como tenía que haberlo hecho según la legalidad vigente«.
La demanda también se refiere a las políticas opacas de privacidad para los usuarios de ChatGPT en la actualidad, pero se centra sobre todo en los datos extraídos de la web que no se publicaron con la intención explícita de compartirse con ChatGPT y otros modelos. Además, OpenAI, que ha recibido miles de millones de inversión de Microsoft, y dinero de los suscriptores de ChatGPT Plus, ha obtenido beneficios de estos datos sin compensar a sus autores ni a la fuente donde estaban publicados.
En la demanda se denuncian una quincena de supuestos delitos, que incluyen violación de la privacidad y negligencia en la protección de datos personales. También hurto en grado mayor, por la obtención de cantidades ingentes de datos personales para el entrenamiento de modelos. Hay conjuntos de datos, como los de Common Crawl, Wikipedia y Reddit, que incluyen información personal y que están disponibles públicamente, siempre y cuando las empresas signa los protocolos dispuestos para la compra y uso de estos datos.
Pero al parecer, OpenAI ha utilizado estos datos sin permiso ni consentimiento de los usuarios con ChatGPT. Incluso aunque la información personal de la gente sea pública en redes sociales, blogs y artículos, si los datos se usan fuera de la plataforma en la que se publicaron, se puede considerar que quien lo ha hecho ha violado su privacidad.
En Europa hay una distinción legal entre dominio público y datos para usar libremente gracias a la RGPD, pero en Estados Unidos es algo que todavía se está debatiendo. De ahí esta demanda. Pero no está claro si el sistema legal estadounidense aceptará esta demanda. Para Ryan Clarkson, socio del bufete, es muy importante actuar ahora con las leyes que hay, en vez de esperar a que se aprueben leyes federales al respecto, porque no pueden permitirse «pagar las consecuencias de los resultados negativos con la IA como ya hemos hecho con las redes sociales, o como ya hicimos con la energía nuclear. Como sociedad, el precio que tendríamos que pagar es demasiado alto«.