Nuevos ataques estadísticos de revelación de identidades en redes de comunicaciones anónimas

  1. SILVA TRUJILLO, ALEJANDRA GUADALUPE
Dirigida por:
  1. Javier Portela García-Miguel Director
  2. Luis Javier García Villalba Director

Universidad de defensa: Universidad Complutense de Madrid

Fecha de defensa: 05 de febrero de 2016

Tribunal:
  1. María Victoria López López Presidente/a
  2. Guadalupe Miñana Secretaria
  3. Julio César Hernández Castro Vocal
  4. Lorenzo Javier Martín García Vocal
  5. Ismael Jiménez Calvo Vocal
Departamento:
  1. Estadística y Ciencia de los Datos

Tipo: Tesis

Resumen

Una de las formas más populares y sencillas de proteger el anonimato en las comunicaciones entre usuarios son los sistemas de comunicación anónima de baja latencia basados en redes de mezcladores. Estos sistemas están expuestos a una serie de ataques basados en análisis de tráfico que comprometen la privacidad de las relaciones entre los usuarios participantes en la comunicación, esto es, que determinan, en mayor o menor medida, las identidades de emisores y receptores. Entre los diferentes tipos de ataques destacan los basados en la inundación de la red con información falsa para obtener patrones en la red de mezcladores, los basados en el control del tiempo, los basados en el contenido de los mensajes, y los conocidos como ataques de intersección, que pretenden inferir, a través de razonamientos probabilísticos o de optimización, patrones de relaciones entre usuarios a partir de la información recabada en lotes o durante un período de tiempo por parte del atacante. Los ataques de intersección pronto derivaron en el establecimiento de estimaciones estadísticas de los patrones de comunicación, denominándose Ataques Estadísticos de Revelación de Identidades, y pronto se demostró que eran capaces de comprometer seriamente el anonimato de los sistemas de redes basados en mezcladores. Las hipótesis planteadas en las primeras publicaciones para el desarrollo de estos ataques eran, sin embargo, excesivamente exigentes y poco realistas. En primer lugar, este trabajo propone un marco para aplicar un ataque estadístico de revelación de identidades universal, en el que la información se obtiene por el atacante en lotes y no hay requisitos previos sobre el comportamiento de los usuarios. La propuesta incluye una modelización novedosa en forma de tablas, la generación de tablas factibles a partir de un algoritmo de simulación, y estimaciones de una medida para la ordenación y clasificación final de cada par de usuarios de mayor a menor probabilidad de relación. La experimentación realizada mediante el análisis de sensibilidad frente a diversos factores como el número de usuarios, la tasa de envíos, el número de relaciones o el tipo de información obtenida por el atacante permite concluir la validez de la presente propuesta, al obtener unos excelentes resultados en cuanto a la clasificación de las relaciones. En segundo lugar, el ataque se refina utilizando el algoritmo EM bajo dos tipos de modelización probabilística de la tasa media de mensajes enviados: la distribución de Poisson y una distribución tabulada discreta. En este último caso se obtienen mejoras significativas en la clasificación final y en la estimación del número medio de mensajes por cada par de usuarios. Estos modelos han sido corroborados con datos reales de correo electrónico, facilitados por el Centro de Cálculo de la Universidad Complutense de Madrid, siendo además la primera vez que un tipo de ataque estadístico de revelación se contrasta con datos reales. El planteamiento del ataque presentado en este trabajo se asocia a redes de comunicación con emisores y receptores. Estas redes están presentes en contextos como redes de correo electrónico y redes sociales. Los datos de correo electrónico utilizados para la aplicación y comprobación del comportamiento del ataque mencionado son un tipo particular de redes sociales, para las cuales existen medidas características basadas en los individuos o en la red en sí. Si bien el objetivo inicial de este trabajo era clasificar las relaciones entre usuarios como existentes o no existentes, o estimar el número de mensajes promedio por ronda entre cada par de usuarios, también puede aplicarse para estimar medidas de características propias de las redes sociales relativas a los individuos o a la red en general.