¡Esta es una revisión vieja del documento!

Tabla de Contenidos

Filtros Bloom

Filtros Bloom

Son una estructura de datos porbabilística y optimizada. Se usan para encontrar si un objeto pertenece o no a un dataset. Optimiza este tipo de peticiones usando funciones hash en los elementos a procesar. Cuando el resultado de una petición es positivo, entonces el objeto posiblemente pertenezca al dataset en cuestión, de todas formas pueden ocurrir falsos positivos. Cuando el resultado es negativo, entonces el objeto no pertenece al dataset, no hay falsos negativos. Esta pensado para volúmenes de datos a gran escala.

Un filtro bloom puede ser definido como una tabla o array compuesta por m bits. Inicialmente todos los bits están inicializados a 0. Para añadir un elemento $x$ a la tabla, se usan funciones hash $k$ para encontrar su posición en la tabla y se establecen dichos bits a 1. En un filtro bloom clásico no se pueden eliminar items.

Parametrización de los filtros de bloom

La probabilidad de falsos positivos para un elemento que no pertenece al set es:

$ε = (1-(1-\frac{1}{m})^{nk})^k ≈ (1 - e^{-kn/m})^k$

Por lo tanto, el numero de funciones hash óptimo es:

$k = \frac{m}{n}ln2$

Y el tamaño del flitro de bloom puede ser determinado como:

$m = - \frac{n ln ε}{(ln 2)^2}$

$n$ es el número de objetos almacenados dentro del filtro de bloom.

Propiedades de los Filtros de Bloom

Podemos estimar el número de elementos en un filtro de bloom $F$ como:

$|F| ≈ - \frac{m}{l}ln(1-\frac{∑^m_{i=1}F_i}{m})$

La unión de 2 filtros de bloom $A$ y $B$ puede ser computada aplicando una operación OR:

$|A ∪ B| ≈ -\frac{m}{k}ln(1 - \frac{∑^m_{i=1}(A ∪ B)_i}{m})$

La intersección de 2 filtros de bloom $A$ y $B$ puede ser computada aplicando una operación AND:

$|A ∩ B| = |A| + |B| - |A ∪ B|$

Consideraciones sobre los filtros de Bloom

No son una estructura que almacena datos por sí misma, pero puede ser usada como un mecanismo de optimización para mejorar el rendimiento de muchas aplicaciones.
La tasa de falsos positivos debe ser medida y monitorizada. El rendimiento de los filtros de bloom se puede desplomar si hay demasiados elementos insertados.

Funciones Hash

En teoría, se deben seleccionar k funciones hash diferentes para implementar en los filtros de bloom. En la práctica las funciones hash son generadas por un esquema de doble hasing:

$h_i(x) = h_1(x) + i*h_2(x)$

En este caso, dos funciones hash diferentes son requeridas. Tambiñen es común suar una función hash con valores de entrada divididos en dos partes.

continuar en pag 19

Enlaces
Invítame a un Café
RetroGamesHistory
RetroComputerHistory
RetroVisu Canal de YT

Master en Ciberseguridad
[1C] Anbálisis del Malware
[1C] Seguridad de la Información
[1C] Redes Seguras
[1C] Privacidad y Anonimato
[1C] Seguridad de Aplicaciones
[1C] Tecnologías de Registro Distribuido y Blockchain
[2C] Fortificación
[2C] Seguridad en Centros de Datos
[2C] Hacking Ético
[2C] Seguridad de comunicaciones
[2C] Análisis Forense
[2C] Negocio en Ciberseguridad y Emprendimiento
[2C] Ciberseguridad Industrial e IoT
[3C] Gestión de la Seguridad de la Información
[3C] Conceptos y Leyes

Ingeniería Informática
Kotlin
Swift
Desarrollo Aplicaciones Distribuidas I
Desarrollo Aplicaciones Distribuidas II
Ingeniería de Requisitos
Modelado del Software

Servidores
Minercraft
Knoppia
Omegacraft

Chacharreo
Instalar Windows 11 Sin cuenta
Habilitar click con doble toque en pad MacOS
Comandos para Optimización de Máquina Virtual MacOS
Optimización MacOS
Deshabilitar Windows Update
Recuperar Contraseña Olvidada de Windows

Knoppia

Barra lateral

Colecciones

Otros

Tabla de Contenidos

Filtros Bloom

Parametrización de los filtros de bloom

Propiedades de los Filtros de Bloom

Consideraciones sobre los filtros de Bloom

Funciones Hash

Knoppia

Herramientas de usuario

Herramientas del sitio

Barra lateral

Colecciones

Otros

Tabla de Contenidos

Filtros Bloom

Parametrización de los filtros de bloom

Propiedades de los Filtros de Bloom

Consideraciones sobre los filtros de Bloom

Funciones Hash

Herramientas de la página