El objetivo de este proyecto es desarrollar de un sistema de monitorización y clasificación de tráfico masivo en Internet, capaz de obtener medidas de uso en tiempo real y predecir las aplicaciones transportadas por cada conexión de datos, con una precisión elevada, y con muy bajo coste computacional gracias a una serie de algoritmos de aprendizaje automático. Dicho sistema presentará como principales características las siguientes:
- Precisión elevada. La clasificación de aplicaciones que realiza el sistema se basa en el uso de algoritmos de aprendizaje automático a partir de información muestreada. El sistema es capaz de adaptarse a las características del tráfico en una fase inicial de entrenamiento, con la posibilidad de realizar posteriormente rentrenamientos evaluando continuamente la precisión.
- Muy bajo coste computacional. Dado que el funcionamiento normal del sistema no requiere de captura ni inspección del contenido de los paquetes (DPI, Deep Packet Inspection).
- Alta escalabilidad. El sistema es capaz de procesar volúmenes de tráfico masivo en enlaces de alta capacidad (>10Gb/s), dado que se alimenta de flujos NetFlow muestreados a una tasa configurable (1/100, 1/1000, ...). Por otro lado el muestreo reduce también la carga computacional necesaria en los enrutadores de tráfico.
- Monitorización en tiempo real. Con capacidad de procesar información de tráfico con frecuencias de hasta 1 minuto, lo que permite aplicaciones de detección de anomalías y situaciones de congestión puntual de la red.
- Monitorización distribuida. El sistema es capaz de procesar información de flujos NetFlow generados en varios puntos de red.
- Bajo impacto sobre la configuración de red. Debido a que la tecnología NetFlow se encuentra ya desplegada y es ampliamente utilizada en redes de operadores y grandes empresas, el impacto sobre la configuración de red es mínimo. Por tratarse de un estándar es además independiente del fabricante de los equipos de red.
- Confidencialidad. El hecho de trabajar con tecnología NetFlow, no usar técnicas de tipo DPI y sí de aprendizaje automático, se traduce en que no sea necesario acceder a los contenidos del tráfico, es decir, no es necesario procesar los "datos de usuario" que circulan por la red. Con esto, el sistema garantiza la confidencialidad de la información, respetando los principios de secreto de correspondencia.
Una vez desarrollado, el sistema se sometido a una prueba de concepto alojándose para ello en un punto de intercambio masivo de tráfico real aportado por el Centre de Supercomputació de Catalunya.
Finalmente se estudiarán las posibilidades de que el sistema pueda ser explotable comercialmente, dado que la información relativa a la clasificación de tráfico en Internet es, debido a su constante crecimiento y evolución, de gran interés para varias tipologías de clientes tales como operadores de telecomunicación, instituciones que gestionan redes académicas, grandes empresas.