El método de aprendizaje automático reduce los costos de detección de fraude mediante la generación de etiquetas precisas a partir de conjuntos de datos desequilibrados

Crédito: Tara Winstead de Pexels
El fraude está generalizado en los Estados Unidos y cada vez más impulsado por la tecnología. Por ejemplo, el 93% del fraude de la tarjeta de crédito ahora implica acceso a la cuenta remota, no robo físico. En 2023, las pérdidas de fraude superaron los $ 10 mil millones por primera vez.
El peaje financiero es asombroso: el fraude de tarjetas de crédito cuesta $ 5 mil millones anuales, lo que afecta al 60% de los titulares de tarjetas estadounidenses, mientras que el robo de identidad resultó en $ 16.4 mil millones en pérdidas en 2021. El fraude de Medicare cuesta $ 60 mil millones cada año, y las pérdidas gubernamentales varían de $ 233 mil millones a $ 521 mil millones anuales, con pagos inadecuados por un total de $ 2.7 trastornos de 2003.
El aprendizaje automático juega un papel fundamental en la detección de fraude al identificar patrones y anomalías en tiempo real. Analiza grandes conjuntos de datos para detectar un comportamiento normal y marcar desviaciones significativas, como transacciones inusuales o acceso a la cuenta. Sin embargo, la detección de fraude es un desafío porque los casos de fraude son mucho más raros que los normales, y los datos a menudo son desordenados o no etiquetados.
Para abordar estos desafíos, los investigadores de la Facultad de Ingeniería e Informática de la Florida Atlantic University han desarrollado un método novedoso para generar etiquetas de clase binaria en conjuntos de datos altamente desequilibrados, ofreciendo una solución prometedora para la detección de fraude en industrias como el cuidado de la salud y las finanzas. Este enfoque funciona sin depender de datos etiquetados, una ventaja clave en los sectores donde las preocupaciones de privacidad y el costo del etiquetado son obstáculos significativos.
El equipo probó su método en dos conjuntos de datos a gran escala del mundo real con un desequilibrio de clase severo (menos del 0.2%): transacciones de tarjetas de crédito europeas (más de 280,000 desde septiembre de 2013) y reclamos de la Parte D de Medicare (más de 5 millones de 2013 a 2019), ambas etiquetadas como fraudulentes o genuinas. Estos conjuntos de datos, con casos de fraude superados en número por casos no frauduleros, proporcionan un desafío del mundo real ideal para probar métodos de detección de fraude.
Los resultados del estudio, publicado en el Journal of Big Data, muestran que este nuevo método de etiquetado aborda efectivamente el desafío de etiquetar datos severamente desequilibrados en un marco no supervisado. Además, y a diferencia de los métodos tradicionales, este enfoque evaluó las etiquetas de fraude y no fraude recientemente generadas directamente sin la necesidad de depender de un clasificador supervisado.
“El uso del aprendizaje automático en la detección de fraude trae muchas ventajas”, dijo Taghi Khoshgoffaar, Ph.D., autor principal y profesor de Motorola en el Departamento de Ingeniería Eléctrica e Informática de FAU. “Los algoritmos de aprendizaje automático pueden etiquetar datos mucho más rápido que la anotación humana, mejorando significativamente la eficiencia. Nuestro método representa un avance importante en la detección de fraude, especialmente en conjuntos de datos altamente desequilibrados.
“Reduce la carga de trabajo minimizando los casos que requieren una inspección adicional, lo cual es crucial en sectores como Medicare y fraude con tarjetas de crédito, donde el procesamiento rápido de datos es vital para prevenir pérdidas financieras y mejorar la eficiencia operativa”.
El estudio muestra que el nuevo método superó el algoritmo de bosque de aislamiento ampliamente utilizado, proporcionando una forma más eficiente de identificar el fraude y minimizar la necesidad de una mayor investigación. Esto confirma la capacidad del método para generar etiquetas de clase binarias confiables para la detección de fraude, incluso en conjuntos de datos desafiantes. Ofrece una solución escalable para detectar fraude sin confiar en datos etiquetados costosos y que requieren mucho tiempo, lo que requiere una entrada de experto manual significativo y es intensivo en recursos, especialmente para conjuntos de datos grandes.
“Nuestro método genera etiquetas tanto para fraude como para instancias positivas y sin fraude o negativas, que luego se refinan para minimizar el número de etiquetas de fraude”, dijo Mary Anne Walauskis, primer autor y Ph.D. Candidato en el Departamento de Ingeniería Eléctrica e Informática de FAU. “Al aplicar nuestro método, minimizamos los falsos positivos, o en otras palabras, instancias genuinas marcadas como fraude, lo cual es clave para mejorar la detección de fraude.
“Este enfoque asegura que solo se conservan los casos de fraude más identificados con mayor confianza, mejorando la precisión y reduciendo las alarmas innecesarias, lo que hace que la detección de fraude sea más eficiente”.
El método combina dos estrategias: un conjunto de tres técnicas de aprendizaje no supervisadas que utilizan la biblioteca Scikit-Learn y un enfoque de gradiente de percentil. El objetivo es minimizar los falsos positivos centrándose en los casos de fraude más identificados con mayor confianza. Esto se logra refinando las etiquetas y reduciendo los errores tanto en los métodos no supervisados (EUM) como en el enfoque de gradiente de percentil (PGM).
Las etiquetas refinadas crean un subconjunto de etiquetas seguras que es muy probable que sean precisas. Estas etiquetas se utilizan para crear intervalos de confianza y finalizar el etiquetado, lo que requiere un conocimiento de dominio mínimo para seleccionar el número de instancias positivas.
“Este enfoque innovador tiene una gran promesa para las industrias plagadas de fraude, ofreciendo una forma más accesible y efectiva de identificar actividades fraudulentas y salvaguardar los sistemas financieros y de atención médica”, dijo Stella Batalama, Ph.D., decana de la Facultad de Ingeniería e Informática.
“El impacto del fraude va más allá de las pérdidas financieras, incluidas la angustia emocional, el daño de reputación y la reducción de la confianza en las organizaciones. El fraude de atención médica, en particular, socava la calidad y el costo de la atención, mientras que el robo de identidad puede causar un estrés severo. Abordar el fraude es clave para mitigar su amplio impacto social”.
Mirando hacia el futuro, el equipo de investigación planea mejorar el método automatizando la determinación del número óptimo de instancias positivas, mejorando aún más la eficiencia y la escalabilidad para las aplicaciones a gran escala.
El artículo actual de la revista, “Generación de etiquetas sin supervisión para datos de fraude severamente desequilibrados”, es una versión actualizada del trabajo previo de los investigadores, “Etiquetas seguras: un enfoque novedoso para el nuevo etiquetado de clase y evaluación en datos altamente desequilibrados”.
El documento original fue presentado y publicado en la 36ª Conferencia Internacional de Herramientas de IEEE con Inteligencia Artificial (ICTAI) en noviembre de 2024, donde ganó el premio al Mejor Papel de Estudiante. ICTAI, con una tasa de aceptación de aproximadamente el 25% de más de 400 presentaciones, es una prestigiosa conferencia.
Más información: Mary Anne Walauskis et al, generación de etiquetas sin supervisión para datos de fraude severamente desequilibrados, Journal of Big Data (2025). Doi: 10.1186/s40537-025-01120-x
Proporcionado por la Universidad de Florida Atlantic
Cita: el método de aprendizaje automático reduce los costos de detección de fraude mediante la generación de etiquetas precisas a partir de conjuntos de datos desequilibrados (2025, 15 de abril) Consultado el 15 de abril de 2025 de https://techxplore.com/news/2025-04-machine-method-fraud-generating-accurate.html
Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.