un numero
Scientific Reports volumen 13, número de artículo: 12499 (2023) Citar este artículo
1 altmétrica
Detalles de métricas
La delincuencia minorista organizada (ORC) es un problema importante para los minoristas, las plataformas de mercado y los consumidores. Su prevalencia e influencia han aumentado rápidamente a la par de la expansión del comercio en línea, los dispositivos digitales y las plataformas de comunicación. Hoy en día, es un asunto costoso, que causa estragos en los ingresos generales de las empresas y pone en peligro continuamente la seguridad de la comunidad. Estas consecuencias negativas se dispararán a niveles sin precedentes a medida que más personas y dispositivos se conecten a Internet. Detectar y responder a estos actos terribles lo antes posible es fundamental para proteger a los consumidores y las empresas y, al mismo tiempo, vigilar los patrones y el fraude en aumento. La cuestión de la detección del fraude en general se ha estudiado ampliamente, especialmente en los servicios financieros, pero los estudios centrados en los delitos minoristas organizados son extremadamente raros en la literatura. Para contribuir a la base de conocimientos en esta área, presentamos una estrategia escalable de aprendizaje automático para detectar y aislar listados ORC en una plataforma de mercado destacada por parte de comerciantes que cometen fraude o delitos minoristas organizados. Empleamos un enfoque de aprendizaje supervisado para clasificar las publicaciones como fraudulentas o reales en función de datos anteriores de comportamientos y transacciones de compradores y vendedores en la plataforma. El marco propuesto combina procedimientos de preprocesamiento de datos personalizados, métodos de selección de características y técnicas de resolución de asimetría de clases de última generación para buscar algoritmos de clasificación alineados capaces de discriminar entre listados legítimos y fraudulentos en este contexto. Nuestro mejor modelo de detección obtiene una puntuación de recuperación de 0,97 en el conjunto de reservas y de 0,94 en el conjunto de datos de prueba fuera de la muestra. Logramos estos resultados basándonos en un conjunto selecto de 45 funciones de 58.
Recientemente, ha habido un crecimiento en el uso de plataformas de comunicación y comercio por Internet, intensificado aún más por la pandemia de COVID-19. Más que nunca antes, una parte considerable de la población realiza actividades normales en línea y en casa, incluido el trabajo, la escuela, las compras, las citas médicas y el entretenimiento1. Los delitos cibernéticos y el fraude se han expandido sustancialmente en consonancia con el uso generalizado de dispositivos y plataformas digitales2, continuando el patrón de pérdida de miles de millones de dólares para la economía global3 y poniendo en peligro la seguridad de la comunidad4.
Los delitos cibernéticos y el fraude abarcan una amplia gama de acciones atroces, que incluyen phishing, malware, comercio electrónico fraudulento, estafas románticas, estafas de soporte técnico, extorsión o chantaje y denegación de servicio1. Además, existen casos de robo de tarjetas de crédito, lavado de dinero y plagio. Ambas prácticas tienen un efecto perjudicial tanto para las empresas como para los clientes, planteando importantes peligros económicos, reputacionales y psicológicos para estas entidades.
Combatir el cibercrimen y el fraude es una tarea costosa y que requiere mucho tiempo, ya que los malos actores siempre están evolucionando y aprovechando nuevas oportunidades para explotar las vulnerabilidades de los sistemas existentes de protección y detección de fraude. Los bajos esfuerzos de desarrollo exacerban aún más el problema al limitar el intercambio de ideas en la investigación del fraude. Por ejemplo, no tiene sentido explicar las técnicas de detección o prevención del fraude en el dominio público, ya que esto podría proporcionar a los defraudadores la información necesaria para eludir la detección.
Cuando se trata de abordar el cibercrimen y el fraude, ya sea mediante la prevención o la detección, existen dos metodologías principales documentadas en la literatura. La prevención se refiere a las medidas adoptadas para evitar que se produzcan los actos en primer lugar. Estos incluyen diseños complejos, números de identidad personal, seguridad de Internet para interacciones en línea con plataformas digitales y contraseñas y mecanismos de autenticación para computadoras y dispositivos móviles5. Ninguna de estas soluciones es perfecta; Con frecuencia, se debe hacer un equilibrio entre el costo (para el negocio) y la incomodidad (para el cliente). Por otro lado, la detección implica reconocer los actos fraudulentos tan pronto como se producen5. Cuando la prevención falla, se vuelve material. Por ejemplo, podemos prevenir el fraude con tarjetas de crédito protegiendo nuestras tarjetas de manera insidiosa, pero si nos roban la información de la tarjeta, debemos detectar el fraude lo antes posible5.
Hay dos escuelas de pensamiento contradictorias cuando se trata de desarrollar sistemas de detección y prevención de fraude. El primero son los métodos proestadísticos y computacionales, con investigadores como5,6,7 publicando extensamente en esta área. Esta escuela de pensamiento aplica herramientas estadísticas, incluidos algoritmos de aprendizaje automático, para detectar fraude. Se puede entrenar a los clasificadores para que distingan entre las dos clases utilizando datos etiquetados (fraudulentos y no fraudulentos). En estas circunstancias, los clasificadores reciben datos de perfiles de usuario, como el monto de la transacción, el día de la semana, la categoría del artículo, la edad, el sexo y la geografía. Quienes se oponen a los métodos estadísticos y computacionales sostienen que estas características son fácilmente inventadas por estafadores sofisticados8. Irani, Pu y Webb9,10 creen que una vez que los estafadores descubren que las autoridades han aprendido su jerga, pueden evitar trampas de palabras clave cambiando a nuevas frases. Esta última escuela de pensamiento propone el análisis de redes como un método alternativo para desarrollar funciones de detección de fraude8,11. El concepto aprovecha la conexión entre nodos, a menudo usuarios o elementos, en un conjunto de datos para derivar variables teóricas de grafos o puntuaciones que caracterizan de forma única a los nodos. Las estrategias se basan en la premisa de que los usuarios anormales exhiben patrones de conexión que difieren de los de los usuarios normales8.
En nuestra situación, no nos suscribimos oficialmente a ninguna de estas escuelas de pensamiento. En lugar de eso, sostenemos que el enfoque para la detección del fraude debería regirse por el contexto del problema y estar influenciado aún más por muchas partes interesadas comprometidas con el objetivo de reducir los casos de fraude. Como resultado, es vital construir sistemas que aprendan y se adapten constantemente para mantener a raya a los malos actores. Además, si bien aceptamos que el comportamiento humano y los aspectos sociales y culturales son consideraciones clave al diseñar sistemas de detección y prevención1, sostenemos que deben operar en conjunto con procesos automatizados para frenar la tendencia creciente de los casos de fraude.
La automatización de la detección de fraude mediante enfoques de minería de datos y aprendizaje automático representa una oportunidad única en una generación de reducir significativamente la carga para los humanos y al mismo tiempo adaptarse a un entorno de fraude dinámico. En este documento, enfatizamos la importancia de la automatización en la detección de fraude con un enfoque de aprendizaje automático para introducir una detección de fraude eficiente y escalable en un dominio plagado de procesos manuales y métodos ineficientes como la heurística y los enfoques basados en reglas. Presentamos un marco para el aprendizaje automático basado en un entorno de diseño experimental en el que buscamos el algoritmo de aprendizaje óptimo para discriminar entre eventos fraudulentos y no fraudulentos.
Nuestro tema se contextualiza en el contexto del crimen organizado minorista (ORC). ORC se define como el robo generalizado de bienes de consumo cotidiano en establecimientos físicos, y los bienes robados luego se revenden o se venden a otros minoristas o individuos a través de una variedad de canales. En la era digital, los ladrones minoristas organizados se han vuelto cada vez más inteligentes y protegen sus productos robados utilizando mercados digitales en línea. Pretenden recibir los mismos beneficios que los proveedores legales de las plataformas digitales, como una mayor productividad o eficiencia en el comercio7 de sus productos robados.
Junto con otras formas de fraude, los costos económicos del crimen organizado en el comercio minorista son sustanciales y han aumentado a un ritmo alarmante año tras año. Los minoristas pierden un promedio de $719,548 por cada mil millones de dólares en ventas, según la Encuesta sobre crimen organizado de la Fundación Nacional de Minoristas de 2020. Estas pérdidas son mucho más altas que los $703,320 en 2019 y los $453,940 en 2015. Tres de cada cuatro víctimas de ORC reportan un aumento en ORC en 202012. Los minoristas creen que el aumento de eventos relacionados con ORC es el resultado de modificaciones en las leyes y castigos contra el hurto. La ORC tiene un impacto significativo en las estadísticas de delincuencia y la pérdida de ingresos; erosiona la viabilidad de las empresas minoristas; y se utiliza comúnmente para financiar otras operaciones ilegales13. La literatura sobre ORC es escasa; existen sólo unas pocas publicaciones sobre el tema; por lo tanto, este artículo representa una excelente oportunidad para contribuir a la base de evidencia en este campo. Reid et al.14 en la literatura preventiva examinan formas automatizadas de detectar delitos generales en el comercio minorista utilizando un conjunto de quince variables sociales visuales extraídas de secuencias de vídeo del conjunto de datos Crimes de la Universidad de Florida Central. No pudimos localizar ninguna literatura sobre la detección de ORC.
Nuestra investigación tiene consecuencias tanto para la teoría como para la práctica. Desde el punto de vista teórico, hay dos críticas principales en la literatura que nuestro enfoque aborda: la falta de datos reales disponibles públicamente sobre los cuales realizar experimentos y la escasez de métodos y técnicas publicados y bien investigados6. Además, aceptamos el desafío planteado por investigaciones anteriores, que es que el trabajo futuro debería emplear técnicas de minería de texto (en un artículo posterior). Para comenzar, analizamos un gran conjunto de datos de una importante plataforma del mercado y ponemos los resultados a disposición del público para estimular futuras investigaciones de detección de fraude en el área ORC. En segundo lugar, desarrollamos un sistema de aprendizaje automático para detectar y prevenir ORC de plataforma. En la práctica, esperamos reducir el fraude identificando y eliminando a los malos actores o estafadores. Específicamente, automatizamos la búsqueda de pistas de fraude para ayudar a los equipos de investigación de fraude en sus esfuerzos de investigación. La automatización mejora la eficiencia de la investigación y la detección de fraudes, lo que resulta en menores gastos operativos.
El resto de este documento está organizado de la siguiente manera: la sección "Trabajo relacionado" proporciona una descripción general de la literatura relevante para este tema; La sección "El marco propuesto" proporciona una descripción detallada del marco propuesto, así como de los experimentos realizados en el estudio; La sección “Datos y métodos” ofrece una descripción de nuestros datos y métodos; La sección “Resultados y discusiones” proporciona los resultados y la discusión; y la sección “Conclusión y trabajos de investigación futuros” concluye el artículo y destaca oportunidades para trabajos futuros.
Debido a su adaptabilidad y rentabilidad, las plataformas de comercio electrónico como Yahoo y eBay han ido aumentando a un ritmo rápido15. El fraude en línea en estos sitios ha aumentado a la par de este crecimiento. El Centro de Quejas de Fraude en Internet (IFCC) ha clasificado el fraude en línea en seis categorías: (1) falta de entrega de bienes; (2) tergiversación del producto; (3) triangulación; (4) apuesta de tarifas; (5) ventas de bienes en el mercado negro; y (6) ofertas múltiples y ofertas cómplices. Otros académicos han propuesto varios esquemas de clasificación del fraude en línea. Por ejemplo16, divídalo en tres períodos de tiempo: antes de la subasta, durante la subasta y después de la subasta, mientras17 divídalo en cuatro tipos de actitudes defraudadoras: agresiva, clásica, lujosa y de bajo perfil. Si bien algunas investigaciones indican que la protección de ofertas es el tipo de fraude más común entre estas categorías7, es probable que diferentes categorías afecten de manera desproporcionada a diferentes tipos de plataformas de mercado en línea. En nuestra situación, organizamos nuestros materiales y procedimientos para detectar un determinado tipo de fraude en línea clasificado como (v).
En respuesta a la creciente prevalencia del fraude en línea, los investigadores han desarrollado una variedad de esquemas de detección de fraude7. Aleem y Antwi-Boasiako18 los clasifican en tres categorías: métodos de detección de anomalías por retroalimentación, esquemas de minería de datos y esquemas de gestión de confianza basados en agentes. Los métodos de detección de anomalías en la retroalimentación emplean un sistema de reputación para el vendedor basado en los comentarios de los clientes para calcular las puntuaciones de fraude: los comentarios negativos aumentan la puntuación de fraude en uno y los comentarios positivos la reducen en uno17. Según varios investigadores18,19 esta estrategia suele ser inútil, ya que puede explotarse para producir reputaciones inventadas e infladas. Los esquemas de minería de datos se utilizan ampliamente en la actualidad y constan de dos pasos básicos: (1) desarrollar funciones que extraigan perfiles de usuario e historiales de transacciones a partir de datos etiquetados por expertos o cuentas suspendidas para discriminar entre un comerciante legítimo y un estafador, y (2) desarrollar un modelo de detección de fraude basado en las características desarrolladas19,20. Los investigadores utilizan con frecuencia un algoritmo de clasificación como modelo de detección. En la literatura, se ha demostrado que los algoritmos de clasificación basados en árboles funcionan bien6. Abdallah et al.7 resumen las técnicas de minería de datos más utilizadas en la literatura de la siguiente manera (Tabla 1):
Por último, las soluciones de gestión de confianza basadas en agentes abordan cuestiones de confianza e identificación mediante la interacción de numerosos agentes inteligentes21,35.
Una distribución sesgada (clase desequilibrada) es uno de los problemas más graves que encuentran los sistemas de detección de fraude7. En general, la cuestión del desequilibrio de clases es aquella en la que el tamaño de la muestra de casos fraudulentos es significativamente menor que el tamaño de la muestra de casos normales36. Trabajar con datos sesgados se conoce como “aprendizaje desequilibrado” Chawla et al.37 y los datos en estas circunstancias exhiben una distribución sesgada de clases tanto en escenarios binarios como de múltiples clases. Cuando se entrenan algoritmos tradicionales de aprendizaje automático con datos desequilibrados, la clase minoritaria contribuye menos a la minimización de la función objetivo38, lo que da como resultado un bajo rendimiento del modelo a la hora de predecir instancias de clases minoritarias. En la mayoría de las aplicaciones reales, identificar correctamente los casos minoritarios es más crítico39. Abordar eficazmente este problema es esencial para garantizar una generalización buena y sólida de los algoritmos de aprendizaje automático.
Los investigadores han ideado una variedad de estrategias para resolver las asimetrías de clases, que pueden clasificarse en dos categorías amplias: nivel de datos y métodos algorítmicos7. En el primer método, se utilizan técnicas de equilibrio para reequilibrar los datos antes de entrenar los algoritmos de clasificación. La mayoría de las investigaciones sobre sistemas de detección de fraude emplean estrategias de reequilibrio del nivel de datos, que normalmente implican submuestrear la clase mayoritaria, sobremuestrear la clase minoritaria o una combinación de ambas para lograr una proporción de 1:1 entre las clases. Numerosos sistemas de detección de fraude propuestos han submuestreado en lugar de sobremuestreado. Como forma más simple de sobremuestreo, el sobremuestreo aleatorio no proporciona información adicional a los datos y frecuentemente resulta en un sobreajuste del modelo40. Una alternativa superior para el sobremuestreo es la técnica de sobremuestreo de minorías sintéticas (SMOTE)41. SMOTE sobremuestrea la clase minoritaria generando casos minoritarios sintéticos en las proximidades de la observada. Dal Pazzolo et al.42 examinan los enfoques de reequilibrio SMOTE y EasyEnsemble para identificar el fraude con tarjetas de crédito y descubren que ambos procedimientos contribuyen a la mejora de los resultados de sus modelos. Como su nombre lo indica, los métodos de nivel algorítmico abordan clases minoritarias (fraudulentas) a nivel algorítmico. Incluyen el aprendizaje sensible a los costos, que asigna un costo a la clasificación errónea de las distintas clases basándose en el supuesto de que existe una matriz de costos para los distintos tipos de errores43. Se han propuesto dos enfoques para el aprendizaje sensible a los costos en los sistemas de detección de fraude: (1) umbrales de metacostos, o el empleo de estudiantes que no son sensibles al desequilibrio de clases40, y (2) emplear al estudiante para hacer frente a la asimetría de clases. Los alumnos son intrínsecamente resistentes al problema del desequilibrio de clases, como es el caso del algoritmo de poda incremental repetida para producir reducción de errores (RIPPER)44 o están modificados internamente para resistir el problema, como es el caso del K-vecino más cercano y Admite estudiantes de máquinas vectoriales7.
En general, los métodos a nivel de datos superan a los métodos a nivel de algoritmo7. También son fáciles de implementar y no tienen ningún efecto sobre la sobrecarga informática.
El marco propuesto comprende cuatro experimentos distintos. Cuando se ejecutan, los experimentos conducen a la identificación del mejor modelo de detección para casos de fraude minorista organizado. El diagrama de flujo de datos que se muestra en la Fig. 1 ilustra los pasos clave del marco propuesto.
Datos e información para el sistema de detección de fraude minorista organizado en el mercado.
En este diseño, extraemos características numéricas y preprocesamos los datos. Sin aplicar ninguna técnica de resolución de asimetría, entrenamos siete clasificadores seleccionados en base a una revisión de la literatura (consulte la Tabla 4 para más detalles). Utilizamos un enfoque de búsqueda en cuadrícula con validación cruzada estratificada repetida de k veces para obtener la configuración óptima de hiperparámetros para cada clasificador. La estratificación garantiza que cada pliegue del conjunto de datos tenga la misma proporción de observaciones con una etiqueta determinada.
Usamos los mismos datos utilizados en el experimento 1 en este diseño para crear un conjunto, apilando los siete clasificadores (consulte la Fig. 2 para esta arquitectura). Este enfoque implica combinar predicciones de todos los clasificadores en el mismo conjunto de datos e incluye embolsado y aumento. Hacemos esto para abordar la cuestión de cómo, dados múltiples modelos de aprendizaje automático que son hábiles en un problema pero de diferentes maneras, podemos aprovechar los mejores aspectos de los modelos individuales. Generalmente, la arquitectura de un modelo de apilamiento implica dos o más modelos base, a menudo denominados modelos de nivel 0, y un metamodelo que combina las predicciones de los modelos base, denominado modelo de nivel 1. En nuestro contexto, entrenamos el metamodelo según las predicciones realizadas por los modelos base en el conjunto de datos reservados. Las predicciones, junto con los resultados esperados, proporcionan los pares de entrada y salida del conjunto de datos de entrenamiento utilizados para ajustar el metamodelo. Seguimos un enfoque que utiliza validación cruzada de k veces de los modelos base, donde las predicciones descompuestas se utilizan como base para el conjunto de datos de entrenamiento. A continuación se muestra un diagrama para ilustrar la arquitectura que seguimos:
Enfoque de generalización apilada que utiliza los siete clasificadores como estudiantes débiles.
La resolución de la asimetría de clases es el núcleo de nuestro marco porque los datos de fraude a menudo muestran asimetría de clases entre casos fraudulentos y no fraudulentos. Como tal, buscamos técnicas de reequilibrio de clases apropiadas para nuestro conjunto de datos antes de repetir los pasos de los experimentos 1 y 2 (consulte la Fig. 1). Esencialmente, el resultado de esta parte es la mejor combinación de técnica de reequilibrio de clases y clasificador para nuestro contexto. Describimos nuestro enfoque de resolución de clases con más detalle en la sección "Datos y métodos".
En esta sección, presentamos los datos y los métodos utilizados en nuestros experimentos. Se proporciona una breve descripción de los clasificadores, al igual que los entornos experimentales.
Para detectar la presencia de ORC, utilizamos datos históricos sobre actividad y transacciones de una popular plataforma de mercado en línea a nivel mundial. Trabajamos con una muestra de 3606 vendedores con sede en EE. UU. debido a los límites de etiquetado de datos, y los campos de datos principales incluyen información de listado de productos y atributos del vendedor. Para garantizar una recopilación consistente de listados y vendedores, restringimos nuestros esfuerzos de investigación y modelado a comerciantes de gran volumen (los más vendidos por listados en los últimos noventa días). La composición de la muestra se resume en la Tabla 2.
La recopilación de datos final tiene una combinación de tipos de datos numéricos, de categoría y de texto, y las características del texto consisten principalmente en el título y la descripción del elemento. En este artículo, nos basamos más en las características numéricas y categóricas que en las características del texto. A partir de nuestra exploración de datos, no encontramos que los datos de texto mejoren significativamente el rendimiento de los modelos. Resumimos el conjunto de características final en la Tabla 3.
Como se ilustra en la Fig. 3 anterior, llevamos a cabo una serie de operaciones de preprocesamiento de datos en el conjunto de datos. Implican resolver problemas como listados duplicados, datos faltantes y valores atípicos. El paso de eliminación de duplicados es fundamental porque los listados se pueden volver a publicar en Marketplace; por lo tanto, descartamos listados duplicados según el ID del vendedor, el título del listado, la descripción y el precio. Los valores faltantes se manejan eliminando filas o columnas. Si la fracción de datos que faltan en una columna es inferior al 20 %, las filas en cuestión se eliminan; de lo contrario, se descarta toda la columna. No tenemos ninguna razón para creer que este enfoque disminuya el valor del conjunto de datos. Descartamos valores que están a más de tres desviaciones estándar de la media en columnas como “precio del producto”, donde la probabilidad de efectos atípicos es significativa.
Pasos de preprocesamiento de datos.
Además, utilizamos ingeniería de funciones para crear nuevas funciones predictivas a partir de las existentes.
Nuestros procesos de ingeniería de funciones incluyen codificación única de variables categóricas, generación de columnas ficticias para el tipo de envío y generación de nuevas funciones basadas en el título y las características de descripción del producto, como la cantidad de palabras, el porcentaje de palabras en mayúscula y el porcentaje de puntuación. El paso final de preprocesamiento de datos implica escalar el conjunto de características final para garantizar que todas las características sean comparables en tamaño. En este caso, utilizamos escala estándar. La Tabla 3 muestra una lista de estas características y sus descripciones.
La selección inicial de estas características se basa en conversaciones con expertos de ORC que tienen amplia experiencia en la identificación y mitigación de casos de fraude minorista organizado.
En la literatura sobre detección de fraude, las técnicas de clasificación se utilizan con frecuencia para desarrollar el modelo de detección6. La clasificación es una técnica de aprendizaje supervisado destinada a obtener una función discriminante que categorice muestras45. La Tabla 1 cubre los clasificadores más utilizados identificados en la literatura. Adaptamos estos clasificadores a nuestro contexto como un primer paso en nuestra búsqueda del modelo con mejor rendimiento. Además, presentamos nuevos alumnos para mejorar estas líneas de base. Agregamos específicamente un clasificador de bosque aleatorio equilibrado y un conjunto apilado de todos los clasificadores en nuestro experimento. El clasificador de bosque aleatorio equilibrado está diseñado para hacer frente al problema de las clases desequilibradas que existen en nuestro conjunto de datos. A continuación, presentamos breves descripciones de cada clasificador utilizado:
La regresión logística es similar a la regresión lineal en tareas de clasificación. Encuentra los valores de los coeficientes \(\beta_{{1,{ }}} \beta_{2} , \ldots .,\beta_{n}\) que ponderan cada característica \(X_{1} ,{ }X_{ 2} ,{ } \ldots ,{ }X_{n}\) apropiadamente. Realiza sus predicciones transformando la salida a través de una función logística46. Por lo tanto, la probabilidad de que una cotización se considere fraude ORC (clase 1) frente a legítima (clase 0) puede venir dada por:
dónde
Los pesos se estiman a partir de los datos de entrada utilizando el método de máxima verosimilitud. Si \(P\left( {class = 1} \right) > 0.5\), entonces el listado es fraudulento, y si \(P\left( {class = 1} \right) < 0.5\), el listado es legítimo.
El algoritmo de k vecino más cercano supone que puntos de datos similares están cerca en espacios de n dimensiones. La similitud entre los puntos de datos a menudo se mide por la distancia entre los puntos (generalmente la distancia euclidiana o la distancia de Mahalanobis)47. La clase de un nuevo punto de datos se predice mediante una validación de la probabilidad posterior local de que cada clase exista por la membresía de clase promedio sobre sus k vecinos más cercanos. Los conjuntos de datos de alta cardinalidad podrían plantear desafíos para este algoritmo debido a que se basa en la distancia entre los puntos de datos y sus dimensiones45.
Las máquinas de vectores de soporte (SVM) son modelos de aprendizaje supervisado con algoritmos que analizan datos para su clasificación o análisis de regresión48. El objetivo del algoritmo es encontrar un hiperplano en un espacio de n dimensiones que clasifique claramente los puntos de datos. La elección se basa en el hiperplano que tiene el margen más significativo, que es el hiperplano que presenta la distancia máxima entre puntos de datos en una configuración de clase binaria. Los puntos más cercanos al hiperplano se denominan "vectores de soporte" porque influyen en la posición y orientación del hiperplano. El número de características también influye en la dimensión del hiperplano46.
Este clasificador asume ingenuamente que todas las características de los datos de entrada son independientes entre sí mientras aplica el teorema de Bayes, que describe la probabilidad de un evento, basándose en el conocimiento previo de las condiciones que podrían estar relacionadas con el evento. Más específicamente, supone que todas las características contribuyen de forma independiente a la probabilidad de una clase determinada, lo que suele ser una suposición sólida y poco realista en entornos prácticos. El algoritmo supone que los valores fuera de la diagonal de la matriz de covarianza son cero (independientes). Entonces la distribución conjunta es el producto de densidades univariadas individuales (suponiendo que sean de naturaleza gaussiana)49.
El algoritmo del árbol de decisión es una técnica de aprendizaje supervisado que se puede utilizar para resolver problemas tanto de clasificación como de regresión. Utiliza una representación de árbol para resolver el problema, en la que cada nodo hoja corresponde a una etiqueta de clase y los atributos se representan en el nodo interno del árbol. La rama o subárbol representa una regla de decisión y el nodo superior se denomina nodo de decisión o raíz. CART es el tipo de árbol de decisión más utilizado en el que se aplican árboles de clasificación a una variable categórica objetivo y el árbol se utiliza para identificar la clase de la variable objetivo. Los árboles de regresión, por otro lado, se aplican a una variable objetivo continua y los nodos terminales del árbol contienen los valores de las variables de salida pronosticados50.
El bosque aleatorio es uno de los algoritmos de conjunto basados en la agregación de arranque (técnica de embolsado). Ensemble es una técnica de aprendizaje automático que combina varios algoritmos de aprendizaje base para producir un mejor modelo de rendimiento predictivo, mientras que el ensacado es una técnica que utiliza el algoritmo bootstrap para obtener una muestra aleatoria de un conjunto de datos determinado con reemplazo y entrena a los alumnos base y agregados. sus resultados para proporcionar un modelo de menor varianza. Crea un conjunto de árboles de decisión sobre muestras aleatorias de los datos de entrenamiento y utiliza un mecanismo de votación basado en las predicciones de cada árbol individual para generar un modelo final. Durante el entrenamiento, selecciona divisiones subóptimas para los árboles mediante la aleatoriedad del subconjunto seleccionado del conjunto de entrenamiento. Como resultado, se crean diferentes modelos y sus resultados se combinan a través del mecanismo de votación51
El aumento de gradiente52 construye un modelo aditivo en un enfoque por etapas. Se utiliza un algoritmo especial, probabilidad logística de dos etapas, para resolver un problema de clasificación binaria:
El aumento de gradiente de los árboles de regresión permite la optimización voraz de funciones de pérdida diferencial arbitrarias. En cada iteración de ajuste, el árbol de solución (mínimos cuadrados) es el que minimiza los residuos, también conocido como gradiente negativo de la función de pérdida de desviación binomial o multinomial. El método de aumento de gradiente tiene dos parámetros principales: el número de estimadores y la tasa de aprendizaje. El primero representa el número de etapas de impulso, donde un número grande a menudo da como resultado un mejor rendimiento, mientras que el segundo se refiere a una constante que controla la contribución de cada árbol al modelo. A menudo existe una compensación entre la tasa de aprendizaje y el número de estimadores (n-estimadores), lo que hace que estos dos parámetros sean los más importantes para el algoritmo.
La generalización apilada es un enfoque para minimizar la tasa de error de generalización de uno o más generalizadores. Con un conjunto de aprendizaje determinado, la generalización apilada deduce los sesgos de los generalizadores a partir de los siguientes pasos: crear una partición del conjunto de aprendizaje, entrenar en una parte de la partición y luego observar el comportamiento en la otra parte. Para un modelo apilado con múltiples generalizadores, proporciona una estrategia más sofisticada que la estrategia de validación cruzada en la que el ganador se lo lleva todo para combinar los generalizadores individuales53.
Nuestros datos revelan un “problema de datos desequilibrados”, que es un término que se refiere a una distribución asimétrica de datos entre clases38. La mayoría de los algoritmos de aprendizaje automático no funcionan bien con datos no balanceados, ya que los casos minoritarios contribuyen menos a la minimización de la función objetivo. Para abordar el problema del desequilibrio de clases, adaptamos SMOTE37 y sus variantes a nuestro entorno. Es una técnica para sobremuestreo de la clase minoritaria que implica fabricar ejemplos "sintéticos" en lugar de sobremuestreo con reemplazo. Los ejemplos sintéticos se construyen utilizando distancias euclidianas entre vecinos más cercanos y el proceso implica: (1) calcular la distancia entre el vector de características y sus vecinos más cercanos; (2) multiplicar esta diferencia por un número aleatorio entre 0 y 1 y sumarlo al vector de características. Matemáticamente:
Luego, los datos se equilibran insertando continuamente puntos sintéticos entre muestras minoritarias y puntos de datos vecinos. Esta estrategia efectivamente hace que la región elegida por la clase minoritaria se vuelva más general41. Debido a que SMOTE en su forma original es más apropiado para datos numéricos, utilizamos su variación, SMOTENC, que puede manejar variables categóricas, en nuestros datos. Las categorías de ejemplos recién generados se determinan en esta técnica de variación seleccionando la categoría más frecuente entre los vecinos más cercanos presentes a lo largo de la generación. Un conjunto de datos completamente equilibrado generado únicamente por SMOTENC puede no ser óptimo, particularmente para distribuciones de clases muy sesgadas con muestras de clases minoritarias extremadamente escasas, lo que introduce un problema de mezcla de clases. Además, es necesario limpiar las instancias ruidosas generadas al interpolar entre valores atípicos marginales y valores internos. Para abordar las dificultades antes mencionadas, fusionamos SMOTENC con dos técnicas de submuestreo: enlaces de Tomek (TomekLinks) y vecinos más cercanos editados (ENN) para mejorar su efectividad al tratar con distribuciones de clases que están desequilibradas. Una estrategia más sofisticada incorpora un submuestreo mayoritario en un clasificador, lo que da como resultado un modelo de conjunto. Por ejemplo, el submuestreo aleatorio se integró con el impulso y el embolsado y se aplicó a ambas clases en un método basado en árboles llamado Balanced Random Forest54, que proporciona una muestra de arranque equilibrada para cada árbol del bosque.
Para llevar a cabo el experimento de computación rápida, seleccionamos aleatoriamente 50 mil filas mediante muestreo estratificado de los datos del listado de Marketplace para garantizar una representación imparcial de todos los subgrupos. Dado que nuestros experimentos se centran en construir un modelo de detección de fraude construido a partir de características numéricas y categóricas, nuestro primer paso implica desarrollar un canal de estas características a partir de los datos de los listados y compararlas con los datos demográficos, de comportamiento y los historiales de transacciones de los propietarios de cuentas del mercado. Para los experimentos 1 y 2, a este paso le sigue otro canal que limpia los datos manejando duplicados, valores faltantes y valores atípicos, codifica variables categóricas y escala características continuas. En los experimentos 3 y 4 agregamos otro canal que ejecuta la resolución de asimetría de clases aplicando técnicas de sobremuestreo y/o submuestreo para crear un equilibrio entre las proporciones de las clases minoritarias y mayoritarias. El proceso final ejecuta entrenamiento, optimización de hiperparámetros y evaluación de los clasificadores. Las tablas 4 y 5 a continuación muestran los hiperparámetros utilizados para ajustar cada clasificador y las métricas de evaluación aplicadas para evaluar el rendimiento de cada clasificador, respectivamente.
La Tabla 4 a continuación muestra la lista de clasificadores que utilizamos en nuestros experimentos y los respectivos hiperparámetros que utilizamos para optimizar su rendimiento.
Para cada uno de los siete clasificadores, los datos se dividen en k grupos, (k = 5) en nuestro caso, donde la elección del valor de k se basa en la revisión de la literatura.
Para cada iteración de entrenamiento, se utilizan k-1 grupos de datos para el entrenamiento, mientras que el resto se utiliza para la validación. Se forman los grupos, preservando la composición de las clases para nuestro planteamiento de problemas binarios y cada clasificador es entrenado k veces.
Con k = 5, tenemos una validación cruzada quíntuple. Los datos se dividen en 5 conjuntos (consulte la Fig. 4 a continuación): conjunto 1, conjunto 2, conjunto 3, conjunto 4 y conjunto 5. El algoritmo se entrena cinco veces. En la primera iteración, los conjuntos del 1 al 4 se utilizan como conjunto de entrenamiento, mientras que el conjunto 5 se utiliza como conjunto de validación. En la segunda iteración, los conjuntos 1, 2, 3 y 5 se utilizan como conjunto de entrenamiento y el conjunto 4 se utiliza como conjunto de prueba. Este proceso se repite hasta que todos los conjuntos se hayan utilizado para el entrenamiento y las pruebas. Los datos se mezclan aleatoriamente antes de cada división para minimizar los errores de selección de muestras. La habilidad de cada algoritmo se resume mediante un mecanismo de votación en todas las iteraciones, medido por sus respectivas puntuaciones de validación en el conjunto de validación.
Procedimiento repetido de validación cruzada estratificada de k veces aplicado a cada algoritmo de clasificación.
Luego, el conjunto de reserva se utiliza para probar el rendimiento del clasificador entrenado de una manera que imite el entorno de producción, como se ilustra en la Fig. 4 a continuación:
Finalmente, utilizamos las métricas de evaluación que se describen a continuación para evaluar el desempeño en todos los clasificadores.
La literatura en esta área45 sugiere el uso de las métricas de evaluación enumeradas en la Tabla 5 a continuación, pero prestamos más atención al recuerdo, que optimiza la captura de malos actores y minimiza los falsos negativos (predecir falsamente listados sospechosos como no sospechosos). Las denotaciones tp, tn, fp y fn utilizadas en la columna de fórmulas a continuación tienen su significado habitual en el contexto de clasificación.
Además, trazamos curvas ROC-AUC como otra medida de desempeño. Esto es importante porque algunas medidas, como la precisión, no son confiables en el caso de conjuntos de datos desequilibrados.
Implementamos el procedimiento experimental basado en el lenguaje de programación Python usando Scikit–Learn en combinación con otras bibliotecas comunes de Python como NumPy, Pandas, Matplotlib, Seaborn y SciPy. Para la adquisición y recuperación de datos, utilizamos un lenguaje de consulta estructurado (SQL) para consultar las tablas de Hive donde se almacenaron inicialmente los datos.
Esta sección resume y analiza los hallazgos importantes de nuestros experimentos. Los resultados se basan en una división 80:20 de los datos utilizados para entrenar y validar los clasificadores. Además, evaluamos el rendimiento de los clasificadores utilizando un nuevo conjunto de datos que los clasificadores nunca antes habían visto (conjunto de pruebas fuera de muestra), simulando la realidad de producción. El resto de esta parte presenta y analiza los principales resultados para obtener ideas clave que puedan permitir la aplicación práctica de este marco en problemas del mundo real.
Se utiliza un enfoque de validación cruzada k estratificada repetida para evaluar el rendimiento de cada clasificador para el conjunto de datos desequilibrado. Según nuestras métricas de evaluación, observamos que, aunque el modelo Gaussiano Naive Bayes tiene el mayor recuerdo (0,954) de todos los modelos probados, incluido el modelo de generalización apilada, tiene un rendimiento inferior en la predicción de casos positivos verdaderos y tiene la precisión más baja (0,40). GNB supone que todas las características son independientes entre sí, pero dada la naturaleza de nuestros datos, esta suposición puede no ser cierta y, por lo tanto, los bajos resultados de algunas métricas pueden explicarse por la violación de esta suposición crítica. En general, los modelos de clasificación basados en árboles superan a otros en este contexto, y el modelo de clasificación de bosque aleatorio logra la puntuación F1 más alta de todos los modelos independientes (valor medio de 0,920 antes del ajuste de hiperparámetros), que sube a 0,946 después del ajuste de hiperparámetros. El desempeño del modelo RF es consistente con la literatura7. Si bien estos resultados parecen muy prometedores según la validación dentro de la muestra, la verdadera prueba de cualquier clasificador se realiza mejor con un conjunto de datos fuera de la muestra. Por lo tanto, para simular instancias de predicción en el entorno de producción, absorbemos una nueva muestra de datos (nunca vista en la capacitación) de la plataforma del mercado y hacemos predicciones sobre ella. Presentamos los resultados de las predicciones sobre estos datos fuera de la muestra en la Tabla 6 a continuación. Nuestros hallazgos indican que todos los clasificadores experimentan una degradación del rendimiento, aunque en diversos grados, sobre todo en términos de precisión, recuperación y valores F1. Según la revisión de la literatura, esperamos que se produzca este tipo de degradación del rendimiento debido a la frecuencia con la que cambia el entorno de fraude. Los estafadores evolucionan su comportamiento para evitar ser descubiertos y, por lo tanto, el sistema de detección de fraude pierde su poder para detectar casos fraudulentos con el tiempo. Este hallazgo afirma que el modelo de detección requiere un reentrenamiento regular para detectar casos emergentes de fraude. De acuerdo con los resultados de la evaluación en la muestra, observamos que los algoritmos basados en árboles superan al resto.
Postulamos que corregir las clases desequilibradas en nuestro contexto podría ayudar al aprendizaje y, en última instancia, al rendimiento de nuestros clasificadores. Sobre esta premisa, procedemos a aplicar técnicas selectas de reequilibrio de clases basadas en la literatura y como se describe en la sección "Aumento de datos". En un alto nivel, probamos enfoques algorítmicos y a nivel de datos para equilibrar nuestras clases. A nivel de datos, probamos ROS, SMOTENC, SMOTENC + ENN y SMOTENC + TomekLinks, mientras que a nivel algorítmico probamos los algoritmos EasyEnsemble y Balanced Random Forest. Siguiendo el mismo enfoque de evaluación utilizado en la sección anterior, utilizamos datos tanto dentro como fuera de la muestra para comprobar el rendimiento de cada método.
En general, nuestros resultados muestran que el enfoque a nivel de datos para reequilibrar clases supera al enfoque algorítmico. Este hallazgo es consistente con lo que encontramos en nuestra revisión de la literatura. Entre los métodos a nivel de datos, ROS supera a todos los demás métodos, logrando una mejora del 92,5 % con el conjunto dentro de la muestra y casi el 70 % con el conjunto fuera de la muestra, en todos los algoritmos de clasificación. SMOTENC, SMOTENC + ENN y SMOTENC + TomekLinks logran un rendimiento idéntico: 90 % con datos dentro de la muestra y casi 55 % con datos fuera de la muestra. En términos de combinación de clasificador y técnica de reequilibrio, Random Forest logra el mejor rendimiento general donde registra una mejora positiva en todas las técnicas de reequilibrio en todas las métricas de evaluación del desempeño y con datos tanto dentro como fuera de la muestra. El clasificador SG le sigue de cerca en rendimiento general. Todos los demás clasificadores registran una mejora modesta o no en todos los puntos de comparación. Mostramos detalles específicos del rendimiento en la Fig. 5 a continuación.
Mejora del rendimiento lograda por cada clasificador para una técnica de reequilibrio de clases a nivel de datos determinada (evaluación fuera de muestra).
Como se indica en nuestra declaración del problema y nuestros objetivos, el objetivo en un entorno de fraude está orientado a atrapar a todos los malos actores porque son los que tienen mayor impacto a la hora de dañar la reputación de la plataforma del mercado o generar pérdidas. Con ese fin, nos equivocamos más al optimizar los valores de recuperación en comparación con otras métricas de rendimiento. Teniendo esto en cuenta y comparando las puntuaciones de recuperación logradas mediante el enfoque a nivel de datos con el enfoque algorítmico, el enfoque algorítmico (el algoritmo de bosque aleatorio equilibrado) supera a la mejor combinación de método y clasificador a nivel de datos. Logra una puntuación máxima de recuperación del 97,5 % en datos dentro de la muestra y del 94,9 % en datos fuera de la muestra, frente al 92,8 % y 81,9 %, respectivamente. Mostramos más detalles de la discusión anterior en las Tablas 7 y 8, donde mostramos los clasificadores de mejor rendimiento general (RF y SG) y sus diversas combinaciones con técnicas de reequilibrio de clases a nivel de datos. Hacemos esto para demostrar cómo se comparan con los enfoques algorítmicos.
En general, aprendemos que para lograr un rendimiento de vanguardia en este dominio, se deben realizar consideraciones importantes durante la implementación del marco propuesto. En primer lugar, la elección de las características potenciales debe realizarse cuidadosamente con la ayuda de expertos en dominios titulares. En segundo lugar, los algoritmos de aprendizaje automático consumen datos de entrenamiento en varios formatos, por lo que se deben aplicar técnicas de preprocesamiento adecuadas a los datos antes de enviarlos a los algoritmos. La elección de la técnica de preprocesamiento depende del formato de entrada (por ejemplo, categórico, texto, imagen, etc.). La transformación de características es fundamental en este dominio. Aporta eficiencia al aprendizaje, el modelo converge más rápido, ahorrando muchos costos en recursos informáticos. También crea un formato de admisión uniforme y una base para la comparación entre los clasificadores. En tercer lugar, es necesario abordar el desequilibrio entre clases. El aumento a nivel de datos da como resultado un conjunto de muestras más diverso y es más flexible que el aumento de datos a nivel algorítmico. Por último, el fraude minorista organizado es un tipo de fraude muy dinámico; por lo tanto, una vez que se selecciona y se pone en producción el modelo de mejor rendimiento, se debe volver a capacitar periódicamente para abordar posibles desviaciones. En la sección "Importancia de la característica", brindamos detalles adicionales sobre los desafíos del estudio y cómo los abordamos.
Los modelos de aprendizaje automático a menudo pueden verse como "cajas negras". Tomamos algunas características como entrada y producimos algunas predicciones como salida. Después de entrenar un modelo de aprendizaje automático, a menudo nos preguntamos cómo las diferentes características afectan los resultados de la predicción, cuáles son las características principales que influyen en los resultados de la predicción y si debemos confiar en el buen desempeño observado. Por tanto, la explicabilidad del modelo juega un papel importante en el aprendizaje automático. Existen múltiples técnicas para explicar los modelos. En nuestra investigación, utilizamos el enfoque de valores SHAP, que actualmente se considera una técnica de explicación de modelos de aprendizaje automático de última generación. SHAP significa "Explicaciones de aditivos Shapley". Los valores de Shapley son un enfoque comúnmente utilizado en la teoría de juegos cooperativos. Esencialmente, miden las contribuciones al resultado final de cada jugador por separado dentro de la coalición, preservando al mismo tiempo que la suma de las contribuciones sea igual al resultado final. Cuando utilizamos valores SHAP en la explicación del modelo, podemos medir la contribución de las características de entrada a las predicciones individuales. No cubriremos las fórmulas complejas utilizadas para calcular los valores SHAP, pero se pueden encontrar más detalles en 55. Para obtener los valores SHAP de las características de nuestro clasificador de mejor rendimiento, utilizamos la biblioteca SHAP Python. El uso de valores SHAP nos brinda interpretabilidad global de nuestro modelo; no solo muestran la importancia de la característica, sino que también muestran si la característica tiene un impacto positivo o negativo en las predicciones. Los valores SHAP también brindan interpretabilidad local, lo que nos brinda la oportunidad de ver cómo las características contribuyen a una predicción única. Otros métodos sólo muestran resultados agregados de todo el conjunto de datos.
En esta investigación, nuestros esfuerzos de descubrimiento de funciones comienzan con los expertos en el dominio generando el conjunto inicial de variables, potencialmente influyentes en la detección de instancias fraudulentas. Aplicamos estas características en nuestro entorno experimental para encontrar la mejor combinación de clasificador sintonizado y resolución asimétrica de clase. Una vez seleccionamos el mejor modelo, realizamos sobre él un análisis de ablación para desentrañar el papel que juega cada característica. Recuerde, nuestras características iniciales se agrupan en torno a cuatro grupos amplios, a saber: (1) características relacionadas con el producto, (2) relacionadas con el usuario, (3) relacionadas con la interacción y (4) relacionadas con la entrega del producto. Nuestro análisis encuentra que cada grupo de características contribuye a la lista final de características importantes. En la Fig. 6, mostramos nuestras características, su importancia y su rango de efectos sobre el conjunto de datos.
Un resumen de las características más influyentes en la detección de instancias fraudulentas.
Este gráfico de puntos visualiza la direccionalidad de las características. El eje x muestra el valor SHAP (impacto en la salida del modelo) y el eje y muestra los nombres de las características. Cada punto del gráfico es un valor SHAP para una predicción y característica. El rojo significa un valor más alto de una característica y el azul significa un valor más bajo de una característica. Por ejemplo, del gráfico podemos inferir que un valor más alto de “median_bsg_size” (tamaño medio del comprador-comerciante/vendedor asociado con el usuario) está altamente asociado con una predicción fraudulenta, y un valor más bajo de “edad” del El usuario está altamente asociado con predicciones fraudulentas. Podemos inferir una idea general de la direccionalidad del impacto de las características basándose en la distribución de puntos rojos y azules. Básicamente, podemos ver intuitivamente cómo el modelo utiliza las funciones para hacer predicciones en casos fraudulentos.
Con el gráfico de importancia de características globales en la Fig. 7, mostramos las diez características más importantes que ayudan a nuestro modelo a lograr un rendimiento de vanguardia en la detección de casos fraudulentos. Un valor SHAP positivo significa un impacto positivo en la predicción, lo que lleva al modelo a predecir un caso fraudulento, mientras que un valor SHAP negativo significa un impacto negativo, lo que lleva al modelo a predecir un caso no fraudulento. Las características están ordenadas según su influencia en la predicción del modelo. El eje x muestra el promedio del valor SHAP absoluto de cada característica, donde los valores más altos indican más importancia.
Diez características más importantes que influyen en la detección de casos fraudulentos.
Dada la naturaleza secuencial de nuestros datos, nos preocupaba el riesgo de fuga de datos, que ocurre en el aprendizaje automático cuando los modelos incorporan conocimiento sobre los datos con los que fueron entrenados previamente56. Abordamos el riesgo de fuga de datos detectando características con fugas durante el preprocesamiento de datos mediante el análisis de datos exploratorio y la matriz de puntuación de poder predictivo. Garantizamos la alineación temporal de los listados y las características del vendedor para evitar el uso de datos futuros en la capacitación de los clasificadores. Se utilizaron datos de prueba fuera de la muestra para evaluar el rendimiento del modelo y confirmar la resolución de posibles problemas de fugas.
Las limitaciones de nuestro trabajo de investigación incluyen sesgos conocidos en los datos de los listados del mercado, como una demografía sesgada hacia los individuos jóvenes en los Estados Unidos y problemas de calidad de los datos. Los datos omitidos o capturados incorrectamente plantean desafíos para la limpieza e integración de datos. El trabajo futuro podría centrarse en investigar estos problemas y desarrollar métodos avanzados de imputación de datos.
Adaptar los algoritmos de filtrado a la evolución de la actividad fraudulenta en el mercado del comercio electrónico es un desafío, especialmente para los vendedores de bajo volumen. Agregar predicciones de fraude desde el nivel de listado hasta el nivel de vendedor requiere procesos manuales y reglas personalizadas. Es necesario un reentrenamiento continuo del sistema automatizado de detección de fraude para mantener el rendimiento frente a nuevos comportamientos fraudulentos57. Se debe considerar abordar la deriva de datos o conceptos en implementaciones futuras para abordar los problemas de rendimiento.
Nuestro conjunto de funciones inicial se basa en conversaciones con expertos de la industria sobre fraude minorista organizado, principalmente de la región de América del Norte. Si bien se hicieron esfuerzos para mitigar el sesgo de información regional, es posible que aún existan algunos sesgos debido a variaciones en la composición del texto y la semántica entre regiones. Sin embargo, mitigamos esta limitación mediante el uso de atributos físicos de alto nivel del título y la descripción del listado. Los resultados exploratorios indican que es más probable que los listados con un mayor número de caracteres contengan productos de fraude minorista organizado, lo que coincide con hallazgos de investigaciones anteriores58.
El crimen organizado minorista ha sido un problema persistente de ciberseguridad para plataformas de comercio electrónico como Meta's Marketplace y eBay, entre otras. Con la creciente cantidad de datos disponibles sobre los atributos de los usuarios y los historiales de transacciones, cada vez es más difícil detectar acciones fraudulentas utilizando reglas de filtrado y búsqueda y refinamiento de palabras clave. En nuestra investigación, propusimos un método automatizado de detección de fraudes para detectar posibles fraudes en el ámbito del crimen minorista organizado utilizando un enfoque de aprendizaje automático supervisado. Demostramos que nuestro sistema superó a los sistemas anteriores basados en enfoques de aprendizaje no supervisados y basados en reglas en términos de precisión y eficacia de predicción. Hasta donde sabemos, este enfoque no se ha aplicado en entornos ORC, y cuando se ha aplicado en otros contextos, la mayoría de los casos solo han utilizado pruebas de una sola etapa para el procesamiento de datos y/o el aprendizaje de desequilibrio. En nuestro caso, demostramos cómo optimizar un sistema de modelado de detección de fraude combinando el descubrimiento de características informado por expertos, procesamiento de datos personalizado, aprendizaje desequilibrado, selección de características y modelos, configuración de hiperparámetros personalizada y métricas de evaluación orientadas al negocio para lograr el estado de actuación de arte. En este trabajo, utilizamos principalmente características numéricas y categóricas. El trabajo futuro puede centrarse en el uso de un conjunto de funciones multimodal (combinación de datos numéricos, de texto e imágenes) para entrenar los algoritmos. Estas características adicionales podrían potencialmente lograr un rendimiento mayor o similar sin depender necesariamente en gran medida de los expertos en el dominio ORC.
Los conjuntos de datos generados y/o analizados durante el estudio actual no están disponibles públicamente debido a que contienen información confidencial, pero están disponibles a través del autor correspondiente previa solicitud razonable.
Aprendizaje automático
Crimen minorista organizado
Casos de robo en comercios minoristas
Regresión logística
k-vecino más cercano
Máquinas de vectores soporte
Árbol de clasificación y regresión.
bosque aleatorio
Bayes ingenuos gaussianos
Aumento de gradiente
Bosque aleatorio equilibrado
Generalización apilada
Modelo de detección de fraude
Técnica de sobremuestreo de minorías sintéticas.
Técnica de sobremuestreo minoritario sintético para nominal y continuo.
Validación cruzada
Análisis exploratorio de datos
Verdadero positivo
Verdadero negativo
Falso positivo
Falso negativo
Monteith, S. y col. Aumento del cibercrimen desde la pandemia: preocupaciones para la psiquiatría. Dígito de psiquiatría. Edad https://doi.org/10.1007/s11920-021-01228-w/Published (2021).
Artículo de Google Scholar
Kodate, S., Chiba, R., Kimura, S. y Masuda, N. Detección de transacciones problemáticas en una red de comercio electrónico de consumidor a consumidor. Aplica. Neto. Ciencia. https://doi.org/10.1007/s41109-020-00330-x (2020).
Artículo de Google Scholar
Hasham, S. y Mikkelsen, D. Delitos financieros y fraude en la era de la ciberseguridad. https://www.mckinsey.com/~/media/McKinsey/Business%20Functions/Risk/Our%20Insights/Financial%20crime%20and%20fraud%20in%20the%20age%20of%20cybersecurity/Financial-crime-and- fraude-en-la-era-de-la-ciberseguridad.pdf (2019).
Samani, R. y Davis, G. Informe sobre amenazas móviles de McAfee. https://www.mcafee.com/enterprise/en-us/assets/reports/rp-mobile-threat-report-2019.pdf (2019)
Bolton, RJ y Hand, DJ Detección estadística de fraude: una revisión. Estadística. Ciencia. 17(3), 235–255. https://doi.org/10.1214/ss/1042727940 (2002).
Artículo MathSciNet MATEMÁTICAS Google Scholar
Phua, C., Lee, V., Smith, K. y Gayler, R. Un estudio completo de la investigación de detección de fraude basada en minería de datos. doi: https://doi.org/10.1016/j.chb.2012.01.002 (2010)
Abdallah, A., Maarof, MA y Zainal, A. Sistemas de detección de fraude: una encuesta. J. Red. Informática. Aplica. 68, 90-113. https://doi.org/10.1016/jnca.2016.04.007 (2016).
Artículo de Google Scholar
Akoglu, L., Tong, H. y Koutra, D. Detección y descripción de anomalías basadas en gráficos: una encuesta. Datos mín. Conocimiento. Descubrimiento. 29(3), 626–688. https://doi.org/10.1007/s10618-014-0365-y (2015).
Artículo MathSciNet Google Scholar
Irani, D., Webb, S. y Pu, C. Estudio de clasificación estática de perfiles de spam social en MySpace. En Actas de la Conferencia Internacional AAAI sobre Web y Redes Sociales, vol. 4, núm. 1, págs. 82–89. https://ojs.aaai.org/index.php/ICWSM/article/view/14017 (2010)
Bhowmick, A. y Hazarika, SM (2016) Aprendizaje automático para el filtrado de spam de correo electrónico: revisión, técnicas y tendencias. [cs], http://arxiv.org/abs/1606.01042
Savage, D., Zhang, X., Yu, X., Chou, P. & Wang, Q. Detección de anomalías en redes sociales en línea. Soc. Neto. 39, 62–70. https://doi.org/10.1016/j.socnet.2014.05.002 (2014).
Artículo de Google Scholar
NRF. Estado del comercio minorista y del consumidor (NRF, 2021).
Google Académico
Puh, M. y Brkić, L. Detección de fraude con tarjetas de crédito mediante algoritmos de aprendizaje automático seleccionados. En 2019, 42.a Convención Internacional sobre Tecnologías de la Información y las Comunicaciones, Electrónica y Microelectrónica, MIPRO 2019 - Actas, págs. 1250–1255, https://doi.org/10.23919/MIPRO.2019.8757212 (2022)
Reid, S., Vance, P., Coleman, S., Kerr, D. y O'Neill, S. Señales visuales para la predicción de hurtos. Patrones 2021. 37–42 (2021)
Prasad, A., Iverson, L. & Liaw, A. Técnicas más nuevas de clasificación y árboles de regresión: ensacado y bosques aleatorios para predicción ecológica. Ecosistemas 2, 181–199 (2006).
Artículo de Google Scholar
Dong, W., Liao, S. y Liang, L. Detección de fraude en estados financieros mediante minería de texto: una perspectiva de la teoría de la lingüística funcional sistémica. En Conferencia de Asia Pacífico sobre Sistemas de Información, PACIS 2016 - Actas, (2016)
Chang, J.-S. y Chang, W.-H. Análisis de estrategias de comportamiento fraudulento en subastas online para la detección de defraudadores latentes. Electrón. Comer. Res. Aplica. 13(2), 79–97. https://doi.org/10.1016/j.elerap.2013.10.004 (2014).
Artículo de Google Scholar
Aleem, A. & Antwi-Boasiako, A. Fraude en subastas en Internet: la naturaleza cambiante de la criminalidad en las subastas en línea y el marco de mitigación para abordar la amenaza. En t. J. Ley de Justicia Penal 39(3), 140–160. https://doi.org/10.1016/j.ijlcj.2011.05.003 (2011).
Artículo de Google Scholar
Chau, DH, Pandit, S. & Faloutsos, C. Detección de personalidades fraudulentas en redes de subastadores en línea. En Lecture Notes in Computer Science (eds Fürnkranz, J. et al.) 103–114 (Springer, 2006). https://doi.org/10.1007/11871637_14.
Capítulo Google Scholar
Chang, W.-H. y Chang, J.-S. Un novedoso marco de modelado por fases de dos etapas para la detección temprana de fraude en subastas en línea. Experto. Sistema. Aplica. 38(9), 11244–11260. https://doi.org/10.1016/j.eswa.2011.02.172 (2011).
Artículo de Google Scholar
Dong, F., Shatz, SM y Xu, H. Lucha contra el fraude en subastas en línea: pistas, técnicas y desafíos. Computadora. Ciencia. Apocalipsis 3(4), 245–258. https://doi.org/10.1016/j.cosrev.2009.09.001 (2009).
Artículo MATEMÁTICAS Google Scholar
Maranzato, R., Pereira, A., do Lago, AP y Neubert, M. Detección de fraude en sistemas de reputación en mercados electrónicos mediante regresión logística. En Actas del Simposio ACM sobre Computación Aplicada, 1454-1459, doi: https://doi.org/10.1145/1774088.1774400 (2010)
Chau DH y Faloutsos C. Detección de fraude en subastas electrónicas. Consultado el 20 de abril de 2023. https://www.researchgate.net/publication/249906880 (2005)
Ku, Y., Chen, Y. y Chiu, C. Un enfoque de minería de datos propuesto para la detección de fraude en subastas en Internet. En Lecture Notes in Computer Science (incluida la subserie Lecture Notes in Artificial Intelligence y Lecture Notes in Bioinformatics), vol. 4430 LNCS, págs. 238–243, https://doi.org/10.1007/978-3-540-71549-8_22/COVER (2007)
Almendra, V. Encontrar la aguja: una clasificación basada en el riesgo de listados de productos en sitios de subastas en línea para la predicción de fraude por falta de entrega. Experto. Sistema. Aplica. 40(12), 4805–4811. https://doi.org/10.1016/J.ESWA.2013.02.027 (2013).
Artículo de Google Scholar
Tsang, S., Koh, YS, Dobbie, G. & Alam, S. Detección de fraudes de chelines en subastas en línea mediante el aprendizaje supervisado. Experto. Sistema. Aplica. 41(6), 3027–3040. https://doi.org/10.1016/J.ESWA.2013.10.033 (2014).
Artículo de Google Scholar
Du, G. y col. Hacia el aprendizaje del desequilibrio de clases basado en gráficos para el reingreso hospitalario. Experto. Sistema. Aplica. https://doi.org/10.1016/j.eswa.2021.114791 (2021).
Artículo de Google Scholar
Ochaeta, K. Detección de fraude en subastas por Internet: un enfoque de minería de datos (2008)
Dong, W., Liao, SS, Fang, B., Cheng, X., Chen, Z. y Fan, W. La detección de estados financieros fraudulentos: un modelo de lenguaje integrado. (2014)
Goel, S., Gangolly, J., Faerman, SR y Uzuner, O. ¿Pueden los predictores lingüísticos detectar declaraciones financieras fraudulentas? J. Emerg. Tecnología. Cuenta. 7(1), 25–46. https://doi.org/10.2308/JETA.2010.7.1.25 (2010).
Artículo de Google Scholar
. Almendra, V. y Enǎchescu, D. Un proceso de aprendizaje supervisado para detectar casos de fraude en sitios de subastas en línea. En actas: 13.º Simposio internacional sobre algoritmos numéricos y simbólicos para la informática científica, SYNASC 2011, 168–174. https://doi.org/10.1109/SYNASC.2011.15 (2011)
Shah, H., Undercoffer, J. y Joshi, A. Agrupación difusa para la detección de intrusiones. IEEE Internacional. Conf. Sistema difuso. 2, 1274-1278. https://doi.org/10.1109/FUZZ.2003.1206614 (2003).
Artículo de Google Scholar
Bapna, R., Goes, P., Gupta, A. & Jin, Y. Heterogeneidad de usuarios y su impacto en el diseño del mercado de subastas electrónicas: una exploración empírica. MIS Q. 28(1), 21–43. https://doi.org/10.2307/25148623 (2004).
Artículo de Google Scholar
Hou, J. & Rego, C. Una clasificación de postores en línea en una subasta de valor privada: evidencia de eBay. En t. J. Electrón. Mercado. Minorista. 1(4), 322–338. https://doi.org/10.1504/IJEMR.2007.014847 (2007).
Artículo de Google Scholar
Ba, S., Whinston, AB & Zhang, H. Generar confianza en los mercados de subastas en línea a través de un mecanismo de incentivo económico. Decide. Apoyo. Sistema. 35(3), 273–286. https://doi.org/10.1016/S0167-9236(02)00074-X (2003).
Artículo de Google Scholar
Adewumi, AO y Akinyelu, AA Una encuesta sobre técnicas de detección de fraude con tarjetas de crédito basadas en el aprendizaje automático y inspiradas en la naturaleza. En t. J. Sistema. Asegurar. Ing. Gestionar. 8(2), 937–953. https://doi.org/10.1007/s13198-016-0551-y (2017).
Artículo de Google Scholar
Chawla, NV, Bowyer, KW, Hall, LO y Kegelmeyer, WP SMOTE: Técnica de sobremuestreo de minoría sintética. J. Arte. En t. Res. 16, 321–357. https://doi.org/10.1613/jair.953 (2002).
Artículo MATEMÁTICAS Google Scholar
Douzas, G. & Bacao, F. SMOTE geométrico, un reemplazo directo mejorado geométricamente para SMOTE. inf. Ciencia. 501, 118-135 (2019).
Artículo de Google Scholar
Xiao, C., Freeman, DM y Hwa, T. Detección de grupos de cuentas falsas en redes sociales en línea. En AISec 2015: Actas del octavo taller de ACM sobre inteligencia artificial y seguridad, ubicado junto con CCS 2015, 91–102. https://doi.org/10.1145/2808769.2808779 (2015)
Brennan, P. y Hofmann, M. Un estudio completo de los métodos para superar el problema del desequilibrio de clases en la detección de fraude. (2012)
Chawla, NV, Japkowicz, N. y Kotcz, A. Editorial: número especial sobre el aprendizaje a partir de conjuntos de datos desequilibrados. (2004)
Dal Pozzolo, A., Boracchi, G., Caelen, O., Alippi, C. y Bontempi, G. Detección de fraude con tarjetas de crédito: un modelo realista y una estrategia de aprendizaje novedosa. Traducción IEEE. Neural. Neto. Aprender sistema. 29(8), 3784–3797. https://doi.org/10.1109/TNNLS.2017.2736643 (2018).
Artículo de Google Scholar
Zadrozny, B., Langford, J. y Abe, N. Aprendizaje sensible a los costos mediante ponderación de ejemplos proporcional al costo. En Tercera Conferencia Internacional IEEE sobre Minería de Datos, 435–442. doi: https://doi.org/10.1109/ICDM.2003.1250950 (2003)
Salvador, S., Chan, P. y Brodie, J. Estados de aprendizaje y reglas para la detección de anomalías en series temporales. (2004)
Gualberto, ES, De Sousa, RT, De Vieira, TPB, Da Costa, JPCL & Duque, CG Desde ingeniería de características y modelos de temas hasta tasas de predicción mejoradas en la detección de phishing. Acceso IEEE 8, 76368–76385. https://doi.org/10.1109/ACCESS.2020.2989126 (2020).
Artículo de Google Scholar
Alpaydin, E. Introducción al aprendizaje automático 4ª ed. (Prensa del MIT, 2020).
MATEMÁTICAS Google Scholar
Rosner, F., Hinneburg, A., Röder, M., Nettling, M. y Both, A. Evaluación de medidas de coherencia temática. http://arxiv.org/abs/1403.6397 (2014)
Cortes, C. & Vapnik, V. Redes de vectores de soporte. Mach. Aprenda 20(3), 273–297. https://doi.org/10.1007/BF00994018 (1995).
Artículo MATEMÁTICAS Google Scholar
Bishop, CM Reconocimiento de patrones y aprendizaje automático. https://link.springer.com/book/9780387310732 (2006)
Breiman, L., Friedman, JH, Olshen, RA & Stone, CJ Árboles de clasificación y regresión (Routledge, 2017).
Libro MATEMÁTICAS Google Scholar
Breiman, L. Bosques aleatorios. Mach. Aprenda 45(1), 5–32. https://doi.org/10.1023/A:1010933404324 (2001).
Artículo MATEMÁTICAS Google Scholar
Friedman, JH Aproximación de la función codiciosa: una máquina de refuerzo de gradiente. Ana. Estadística. 29(5), 1189-1232 (2001).
Artículo MathSciNet MATEMÁTICAS Google Scholar
Wolpert, DH Generalización apilada. Red neuronal. 5(2), 241–259. https://doi.org/10.1016/S0893-6080(05)80023-1 (1992).
Artículo de Google Scholar
Agusta, ZP y Adiwijaya. Bosque aleatorio equilibrado modificado para mejorar la predicción de datos desequilibrados. En t. J. Adv. Intel. inf. 5(1), 58–65 (2019).
Google Académico
Lundberg, SM y Lee, SI, Un enfoque unificado para interpretar predicciones de modelos. Consultado el 8 de junio de 2023. https://github.com/slundberg/shap
Hannun, A., Guo, C. y van der Maaten, L., Medición de la fuga de datos en modelos de aprendizaje automático con información de Fisher. http://arxiv.org/abs/2102.11673
Lu, J. y col. Aprendizaje bajo la deriva de conceptos: una revisión. Traducción IEEE. Conocimiento. Ing. de datos. 31(12), 2346–2363. https://doi.org/10.1109/TKDE.2018.2876857 (2020).
Artículo de Google Scholar
Kumar, S. y Shah, N. Información falsa en la web y las redes sociales: una encuesta. (2018)
Descargar referencias
Escuela de Gestión de la Información NOVA (NOVA IMS), Universidade Nova de Lisboa, Campus Campolide, 1070-312, Lisboa, Portugal
Abed Mutemi & Fernando Bacao
También puedes buscar este autor en PubMed Google Scholar.
También puedes buscar este autor en PubMed Google Scholar.
Los autores contribuyeron igualmente a este trabajo.
Correspondencia a Abed Mutemi.
Los autores declaran no tener conflictos de intereses.
Springer Nature se mantiene neutral con respecto a reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.
Acceso Abierto Este artículo está bajo una Licencia Internacional Creative Commons Attribution 4.0, que permite el uso, compartir, adaptación, distribución y reproducción en cualquier medio o formato, siempre y cuando se dé el crédito apropiado al autor(es) original(es) y a la fuente. proporcione un enlace a la licencia Creative Commons e indique si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la normativa legal o excede el uso permitido, deberá obtener permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.
Reimpresiones y permisos
Mutemi, A., Bacao, F. Un diseño de aprendizaje automático basado en números para detectar fraude minorista organizado en mercados digitales. Informe científico 13, 12499 (2023). https://doi.org/10.1038/s41598-023-38304-5
Descargar cita
Recibido: 31 de julio de 2022
Aceptado: 06 de julio de 2023
Publicado: 02 de agosto de 2023
DOI: https://doi.org/10.1038/s41598-023-38304-5
Cualquier persona con la que compartas el siguiente enlace podrá leer este contenido:
Lo sentimos, actualmente no hay un enlace para compartir disponible para este artículo.
Proporcionado por la iniciativa de intercambio de contenidos Springer Nature SharedIt
Al enviar un comentario, acepta cumplir con nuestros Términos y pautas de la comunidad. Si encuentra algo abusivo o que no cumple con nuestros términos o pautas, márquelo como inapropiado.