Máquina de factorización atencional con revisión.
HogarHogar > Blog > Máquina de factorización atencional con revisión.

Máquina de factorización atencional con revisión.

Jul 09, 2023

Scientific Reports volumen 13, número de artículo: 13454 (2023) Citar este artículo

278 Accesos

1 altmétrica

Detalles de métricas

En los sistemas de recomendación, las reseñas de los usuarios sobre los artículos contienen información semántica rica, que puede expresar las preferencias de los usuarios y las características de los artículos. Sin embargo, los métodos de recomendación existentes basados ​​en revisiones utilizan el modelo de vector de palabras estático o no pueden extraer de manera efectiva características de secuencia larga en las revisiones, lo que resulta en una capacidad limitada de expresión de características del usuario. Además, se ignora el impacto de las interacciones de funciones diferentes o inútiles entre usuarios y elementos en el rendimiento de las recomendaciones. Por lo tanto, proponemos una máquina de factorización de atención con interacción usuario-elemento basada en revisión para recomendación (AFMRUI), que primero aprovecha RoBERTa para obtener la característica de incrustación de cada revisión de usuario/elemento, y combina unidades recurrentes cerradas bidireccionales con red de atención para resaltar más información útil tanto en reseñas de usuarios como de artículos. Luego adoptamos AFM para aprender las interacciones entre las características del usuario y el elemento para distinguir la importancia de las diferentes interacciones entre las características del usuario y el elemento y obtener una predicción de calificación más precisa, a fin de promover la recomendación. Finalmente, realizamos una evaluación del desempeño en cinco conjuntos de datos del mundo real. Los resultados experimentales en cinco conjuntos de datos demostraron que el AFMRUI propuesto superó a los métodos de última generación basados ​​en revisiones con respecto a dos métricas de evaluación comúnmente utilizadas.

Con el rápido desarrollo de la industria de Internet y la tecnología de big data, los sistemas de recomendación están desempeñando un papel cada vez más importante en las redes sociales1, la educación académica2, el comercio electrónico3, etc. Hoy en día, los sistemas de recomendación se han convertido en una parte indispensable de la vida diaria, como las compras en línea4, la recomendación del siguiente punto de interés5, la recomendación de música6 y el envío de vídeos7. Según los datos históricos de comportamiento de los usuarios, los sistemas de recomendación pueden predecir las calificaciones de los artículos por parte de los usuarios y realizar recomendaciones personalizadas, para ayudar a los usuarios a descubrir rápidamente los artículos que les interesan y mejorar su satisfacción. Por lo tanto, para brindar mejores servicios de recomendación personalizados, cómo predecir con precisión las calificaciones de los usuarios sobre los elementos para impulsar la recomendación se convierte en un problema desafiante.

Para resolver el problema anterior, los investigadores han propuesto una variedad de métodos de predicción de calificación de elementos, entre los cuales el método de predicción de calificación8 basado en el filtrado colaborativo (CF) es uno de los métodos más utilizados. La mayoría de los métodos CF se basan en la factorización matricial9,10, aprendiendo características latentes de los usuarios y elementos de modelos matriciales para su recomendación. Teniendo en cuenta que las calificaciones de los usuarios para los elementos reflejan sus comportamientos de interacción y características explícitas, Zhang et al.11 obtuvieron las características de los usuarios y los elementos a partir de la información de calificación del usuario-elemento basada en una factorización matricial profunda. Sin embargo, con el rápido crecimiento del número de usuarios y elementos, surgen cada vez más problemas como la escasez de datos de calificación. Desafortunadamente, la información extraída de los datos de calificación es limitada, lo que restringe en consecuencia el desempeño de la recomendación.

En comparación con los datos de calificación, la información de las reseñas contiene una semántica rica, que no solo puede reflejar la satisfacción de los usuarios con la calidad y función del artículo, sino que también expresa indirectamente las preferencias y características del artículo12. Por lo tanto, la predicción de calificación de elementos basada en revisiones ha atraído una gran atención por parte de investigadores, como ConvMF13, DeepCoNN14, D-Attn15, NARRE16 y DAML17, etc. Estos métodos pueden aliviar el problema de escasez causado por los datos de calificación a través de información de revisión y así obtener calificaciones de predicción relativamente precisas para la recomendación. Sin embargo, existen dos limitaciones importantes:

La capacidad de expresión de las características del usuario/elemento es insuficiente. En la investigación anterior, D-Attn15, DAML17, etc., aprovechan vectores de palabras codificados estáticamente como word2vec o Glove, lo que da como resultado una representación escasa de características, semántica insuficiente y polisemia, lo que afecta la capacidad del modelo para extraer características del usuario y del elemento. Además, modelos como ConvMF13, DeepCoNN14 y NARRE16 utilizan redes neuronales convolucionales (CNN) para extraer usuarios y características de elementos de las revisiones, que no pueden extraer de manera efectiva características de texto de secuencia larga en las revisiones y, por lo tanto, no pueden expresar con precisión las características de los usuarios o elementos, lo que limita la rendimiento del modelo.

Se ignora la influencia de las interacciones de funciones entre usuarios y elementos en el rendimiento de la recomendación. Por ejemplo, modelos como DeepCoNN14, D-Attn15, NARRE16, DAML17, etc., obtienen calificaciones de predicción por producto escalar o máquina de factorización después de unir las características de los usuarios y los elementos. Estos métodos de modelado de interacción de características ignoran los diferentes efectos de las diferentes interacciones de características en los resultados de las recomendaciones. Además, las interacciones de funciones inútiles introducirán ruido, lo que reducirá el rendimiento de la recomendación.

Para abordar los problemas anteriores, este artículo propuso una máquina de factorización de atención con interacción usuario-elemento basada en revisiones para recomendación. Específicamente, para capturar mejor las características del usuario y las características del elemento basadas en reseñas, primero obtenemos la característica de incrustación de cada reseña a través del modelo previamente entrenado RoBERTa, que alivia el problema de que los vectores de palabras estáticos no pueden adaptarse a la polisemia; luego combinamos la unidad recurrente de puerta bidireccional (BiGRU) y la red de atención para resaltar información importante en las revisiones y obtener la incorporación de reseñas de usuarios y de artículos; Además, las revisiones obtenidas que incorporan el usuario y el elemento se concatenan y se ingresan en la máquina de factorización de atención (AFM) para realizar una predicción de calificación con mayor precisión, a fin de hacer recomendaciones. Las principales contribuciones de este trabajo se pueden resumir de la siguiente manera:

Construimos un marco mejorado para la representación de características de usuario/elemento, que aprovecha RoBERTa para obtener la característica de incrustación de cada revisión de usuario/elemento para aliviar el problema de la polisemia, y utiliza BiGRU y la red de atención para medir la contribución de la característica de incrustación de cada revisión. para obtener una mejor capacidad de expresión de las características del usuario/elemento;

Usamos AFM para aprender las interacciones entre características del usuario y el elemento y para distinguir la importancia de diferentes interacciones entre características, lo que puede aliviar aún más el efecto del ruido que pueden introducir las interacciones entre características inútiles;

Realizamos experimentos integrales en cinco conjuntos de datos del mundo real, que demuestran que nuestro modelo AFMRUI propuesto supera a los modelos de última generación.

El resto de este documento está organizado de la siguiente manera. En “Trabajo relacionado”, proporcionamos una descripción general del trabajo relacionado. La sección "El enfoque propuesto" elabora nuestro modelo AFMRUI propuesto. A continuación, evaluamos la efectividad de nuestro modelo y analizamos los resultados experimentales en "Experimentos". Finalmente, “Conclusiones” presenta las conclusiones y esboza direcciones para el trabajo futuro.

En las tareas de recomendación basadas en revisiones, los métodos de representación de incrustación de palabras generalmente se utilizan para expresar las características de incrustación de reseñas de usuarios o elementos. Los modelos, como ConvMF13, DeepCoNN14, D-Attn15, NARRE16 y DAML17, etc., utilizan Glove18 y Word2Vec19 que pertenecen a modelos de vectores de palabras estáticos. Sin embargo, las características de incorporación de reseñas de usuarios/elementos obtenidas no pueden cambiar con la semántica contextual, y se producirá el problema de la polisemia. Como resultado, se utilizan vectores de palabras dinámicos para resolver el problema. Por ejemplo, Google propuso la representación de codificador bidireccional de Transformers (BERT)20, un modelo dinámico de vectores de palabras previamente entrenado, para lograr excelentes resultados en 11 tareas de procesamiento del lenguaje natural. En investigaciones recientes, SIFN21 y U-BERT22 utilizan BERT para obtener la representación incrustada de reseñas, que tienen una gran mejora en el rendimiento en la predicción de calificaciones en comparación con los métodos que utilizan modelos de vectores de palabras estáticos.

Basado en BERT, se introdujo un modelo mejorado RoBERTa23, que no solo hereda las ventajas de BERT, sino que también simplifica la siguiente tarea de predicción de oraciones en BERT. RoBERTa se vuelve a entrenar utilizando nuevos hiperparámetros y un gran conjunto de datos nuevo, lo que permite que el modelo esté más completamente entrenado y tenga una mejora significativa en el rendimiento. Con este fin, adoptamos RoBERTa en nuestro modelo para mitigar el problema de la polisemia en las reseñas de usuarios/artículos codificando la representación incrustada a nivel de palabra obtenida de cada reseña.

Con el aumento de la información interactiva generada por los usuarios en diversos campos, se introduce en el sistema de recomendación diversa información interactiva relacionada con los usuarios y los elementos, por ejemplo, reseñas, para mejorar el rendimiento. A continuación, describiremos dos métodos de recomendación basados ​​en revisiones.

Los enfoques de modelado de temas fueron los primeros en aplicar revisiones a sistemas de recomendación, obteniendo principalmente la distribución de temas latentes en las revisiones mediante asignación de Dirichlet latente (LDA) o factorización matricial no negativa, y demostraron la utilidad de las revisiones. Por ejemplo, Xu et al.24 propusieron un modelo de CF basado en un modelo temático, que obtuvo principalmente características basadas en revisiones a través de un modelo extendido basado en LDA. Huang et al.25 obtuvieron de manera similar características potenciales de los usuarios en el conjunto de datos de reseñas de restaurantes de Yelp mediante el algoritmo LDA, que puede ayudar a los operadores de restaurantes a comprender las preferencias de los clientes. Dado que el modelo de tema basado en LDA no puede conservar la información del orden de las palabras, se ignora la información de contexto en las revisiones.

Apuntando a los problemas del algoritmo LDA, Bao et al.26 propusieron un modelo TopicMF, que utilizaba los factores latentes de los usuarios y los elementos obtenidos mediante factorización matricial para correlacionarlos, a fin de mejorar la precisión de la predicción de calificaciones. Ganu et al.27 aprendieron las características de preferencia de cada usuario a partir de la información de las reseñas y utilizaron un método CF basado en el modelo de factores latentes (LFM) para predecir las calificaciones. Sin embargo, el modelo LFM solo puede aprender aquellas características lineales y de bajo nivel, lo que no favorece el aprendizaje interactivo entre características de capas de fusión.

Los métodos mencionados anteriormente utilizan el modelo de tema basado en bolsa de palabras para el procesamiento de revisiones, que no puede preservar bien la información del orden de las palabras, por lo que la información del contexto local contenida en las revisiones se ignorará y solo se podrá extraer información semántica superficial. Sin embargo, la rica información semántica de las reseñas de usuarios/artículos no se puede capturar con precisión. Durante nuestra investigación, utilizamos RoBERTa y BiGRU para modelar reseñas de usuarios y reseñas de artículos, a fin de obtener de manera efectiva reseñas de usuarios y artículos incorporando características con semántica rica.

En los últimos años, CNN se ha utilizado ampliamente en tareas de recomendación basada en revisiones. Por ejemplo, Kim et al.13 introdujeron por primera vez CNN en el sistema de recomendación y propusieron el modelo ConvMF. Sin embargo, el modelo ConvMF solo utiliza reseñas de artículos y calificaciones de usuarios durante la capacitación, ignorando la información de las reseñas de los usuarios. Para este problema, Zheng et al.12 introdujeron un marco de red paralelo profundo, DeepCoNN, que alivió los problemas en ConvMF mediante el uso de dos redes CNN paralelas para modelar documentos de revisión de usuarios y documentos de revisión de elementos, respectivamente. Teniendo en cuenta que diferentes palabras tienen diferente importancia para modelar usuarios y elementos, Seo et al.15 introdujeron CNN con doble atención local y global para aprender a incorporar reseñas de cada usuario y cada elemento, a fin de realizar predicciones de calificación. Chen et al.16 introdujeron un modelo de regresión atencional neuronal con explicaciones a nivel de revisión, que utilizaba un mecanismo de atención a nivel de revisión para asignar diferentes pesos a cada revisión, haciendo que la recomendación fuera interpretable. Los métodos anteriores utilizan CNN para codificar reseñas, pero los métodos basados ​​en CNN no logran extraer de manera efectiva características de reseñas con diferentes longitudes.

Para abordar el problema anterior, Tay et al.28 aprendieron representaciones de características de usuarios y elementos mediante el uso de punteros a nivel de palabra y de revisión basados ​​en la información de la revisión, para obtener información importante en las revisiones para mejorar los resultados de la predicción. Chen et al.29 modelaron las preferencias dinámicas de los usuarios, así como los atributos de los elementos, mediante unidades recurrentes cerradas (GRU) y CNN a nivel de oración, y mejoraron la interpretabilidad del modelo propuesto.

Según el análisis anterior, los métodos de recomendación de aprendizaje profundo basados ​​en revisiones tienen un rendimiento superior en comparación con los métodos de recomendación de modelado basados ​​en temas. Entonces, en nuestro modelo, aprovechamos BiGRU e incorporamos una red de atención para medir la importancia de cada reseña, a fin de mejorar las representaciones de las características del usuario/elemento.

Para las interacciones de características entre usuarios y elementos, algunas investigaciones utilizan métodos tradicionales de interacción de características, como el producto escalar30, completamente conectado31, máquinas de factorización (FM)32, etc. Las FM son métodos de aprendizaje supervisado que aumentan los modelos de regresión lineal incorporando interacciones de características. Por ejemplo, las redes de coatención multipuntero28 muestran que FM obtiene mejores resultados que otros modelos de interacción por su buena capacidad de interacción. Sin embargo, los métodos tradicionales modelan todas las interacciones de características y no distinguen la importancia de las diferentes interacciones de características. Por lo tanto, Zhang et al.33 propusieron un modelo combinado de FM y red neuronal profunda basado en el modelo de red neuronal de máquina de factorización, que generó combinaciones de características de orden superior y fortaleció la capacidad de aprendizaje de características del modelo.

Sin embargo, para diferentes muestras, los pesos de las diferentes interacciones de características también deberían ser diferentes. En otras palabras, para aquellas interacciones de características sin importancia, debería reducir su peso. Mientras que para aquellas interacciones de características de alta importancia, debería aumentar su peso. Con este fin, Xiao et al.34 mejoraron el FM reconociendo la importancia de las diferentes interacciones de características e introdujeron un AFM, que puede aprender la importancia de las interacciones de características a través del mecanismo de atención, para aliviar el problema del rendimiento reducido de las representaciones de características causado por esas interacciones de funciones inútiles.

Inspirado en la referencia 34, nuestro modelo AFMRUI adopta AFM para aprender las interacciones de características de usuarios y elementos, y obtener mejores representaciones de características al distinguir la importancia de diferentes interacciones de características y aliviar el efecto del ruido que puede ser introducido por interacciones de características inútiles.

En esta sección, primero presentamos la definición del problema de nuestra tarea de recomendación y enumeramos las notaciones clave utilizadas en nuestro trabajo en la Tabla 1, y luego elaboramos el marco modelo de AFMRUI.

Supongamos que el conjunto de datos D contiene M usuarios y N elementos, así como abundantes reseñas y las calificaciones correspondientes. Cada muestra en el conjunto de datos D se define como cuatrillizo ID de usuario-ID de artículo-calificación de revisión (u, i, r, y(x)), lo que significa que el usuario u hace una revisión r y otorga la calificación correspondiente y(x) en el elemento i. Para todas las muestras del conjunto de datos D, podemos obtener el conjunto de revisión de cada usuario y el conjunto de revisión de cada elemento recuperando el ID de usuario y el ID de elemento. En este trabajo, nos centramos en predecir la calificación de un usuario sobre un elemento en función de los conjuntos de reseñas correspondientes obtenidos de usuario y elemento. Definimos la tarea de recomendación basada en revisión de la siguiente manera:

Definición (tarea de recomendación basada en revisión). Dado un conjunto de reseñas D\(_u\) del usuario u y un conjunto de reseñas D\(_i\) de un elemento i, la tarea de la recomendación basada en reseñas es predecir la calificación del usuario u \(\hat{y}(x )\) sobre el punto i y luego hace una recomendación.

La arquitectura del modelo AFMRUI propuesto se muestra en la Fig. 1. El modelo AFMRUI se compone de dos redes paralelas con estructuras similares, a saber, la red de revisión de usuarios RN\(_u\) y la red de revisión de elementos RN\(_i\). El conjunto de revisión D\(_u\) de un usuario u y el conjunto de revisión D\(_i\) de un elemento i se entregan a RN\(_u\) y RN\(_i\) respectivamente como entradas, y se predice la calificación correspondiente. en el elemento i se produce como resultado, a fin de hacer una recomendación. Como puede verse en la Fig. 1, el modelo AFMRUI consta de cuatro capas. Cada capa se describe de la siguiente manera:

Ilustración del modelo AFMRUI.

Capa de incrustación de revisión, que se utiliza principalmente para obtener la característica de incrustación de cada revisión de los conjuntos D\(_\textit{u}\) y D\(_i\) de RoBERTa;

Capa de codificación de secuencia, que aprovecha principalmente BiGRU para codificar la característica de incrustación de cada revisión producida por la capa de incrustación de revisión, y extrae completamente las dependencias internas entre las características de incrustación de revisión, para obtener las características ocultas correspondientes;

Capa de atención, que se utiliza para obtener reseñas incrustadas de un usuario o un artículo midiendo de forma adaptativa el peso de la característica oculta de cada reseña, de modo que el modelo pueda centrarse en reseñas más útiles y mejorar la capacidad de expresión de características de los usuarios y artículos;

Capa de predicción de calificación, que primero concatena las revisiones incrustadas del usuario u y el elemento i obtenidas de la capa de atención, y aprovecha aún más AFM para aprender las interacciones entre las características del usuario y el elemento para predecir la calificación del usuario u en el elemento i, y luego hace una recomendación.

Dado que RN\(_u\) y RN\(_i\) solo difieren en sus entradas, a continuación tomamos la red RN\(_u\) como ejemplo para ilustrar el proceso en detalle. Tenga en cuenta que el proceso descrito en las siguientes subsecciones “Revisar capa de incrustación”, “Capa de codificación de secuencia” y “Capa de atención” también se aplica a la red RN\(_i\).

La capa de incrustación de reseñas se utiliza para obtener la función de incrustación de cada reseña del conjunto de reseñas de usuario D\(_u\) de RoBERTa. De acuerdo con los requisitos de RoBERTa, las reseñas originales de D\(_u\) deben preprocesarse para lograr las funciones de incorporación de reseñas correspondientes.

Específicamente, primero eliminamos los caracteres especiales, como símbolos matemáticos y signos de puntuación, en cada reseña de D\(_u\), y establecemos las reseñas obtenidas en una longitud máxima unificada. Luego, combinamos cada revisión procesada en una lista para obtener la lista de revisión de usuario correspondiente RL\(_u\). Además, configuramos la lista de reseñas obtenida de cada usuario en el conjunto de datos en una longitud fija n, donde n representa el número máximo de reseñas ingresadas por los usuarios en RoBERTa. Si la longitud de RL\(_u\) excede n, se realiza la operación de truncamiento para obtener las primeras n revisiones en RL\(_u\). De lo contrario, utilizamos vectores cero para la operación de llenado después del mapeo de RoBERTa para obtener la longitud n especificada. Luego, insertamos caracteres especiales y al principio y al final de cada revisión respectivamente después de un procesamiento de longitud fija para obtener la lista de revisión RD\(_u\) del usuario u, denotada como \(\{ {d_{d_{d}) {u_1}}},{d_{{u_2}}},\ldots,{d_{{u_n}}}\}\).

Posteriormente, cada revisión en la lista RD\(_u\) debe expresarse en forma de representación incrustada a nivel de palabra, que se compone de incrustaciones de tokens, incrustaciones de segmentos e incrustaciones de posiciones. Tome la reseña “Me encanta este álbum. Es un álbum muy divertido e inspirador”. por el usuario A2B2J5VS139VLM en el elemento B004L49K20 en el conjunto de datos de música digital como ejemplo. La Figura 2 muestra cómo obtener la representación incrustada a nivel de palabra de la reseña.

Como se muestra en la Fig. 2, la revisión original se preprocesa como entrada de la representación incrustada a nivel de palabra. Luego extraemos incrustaciones de tokens, incrustaciones de segmentos e incrustaciones de posiciones de la revisión preprocesada respectivamente, y luego las agregamos para obtener la representación de incrustación a nivel de palabra de la revisión. Para el quinto token en la revisión del usuario preprocesada \({d_{{u_i}}}\), su representación de incrustación a nivel de palabra se denota como:

donde E\(_{token(f)}\) es la incrustación del token correspondiente al f-ésimo token en \({d_{{u_i}}}\), que se obtiene mapeando el token como un token de 768 dimensiones. incrustación; E\(_{seg(f)}\) representa la incrustación del segmento correspondiente al f-ésimo token en \({d_{{u_i}}}\). Dado que cada revisión preprocesada puede considerarse como una oración, el segmento incrustado de cada palabra en \({d_{{u_i}}}\) es el mismo. Como se muestra en las "incrustaciones de segmentos" en la Fig. 2, la incrustación de segmentos de cada token de la revisión en el ejemplo es E\(_A\); E\(_{pos(f)}\) es la incrustación de posición, que representa el resultado de codificar la posición de cada palabra en \({d_{{u_i}}}\).

Ilustración de cómo obtener la representación incrustada a nivel de palabra de una reseña.

Con base en el procesamiento anterior, podemos obtener \({\mathrm{{r}}_{{u_i}}}\), la representación incrustada a nivel de palabra de \({d_{{u_i}}}\) del lista RD\(_u\), que se representa como:

Al realizar la misma operación para cada revisión preprocesada de RD\(_u\), obtenemos la representación de incrustación a nivel de palabra correspondiente de cada revisión, representada como \(\{ {\mathrm{{r}}_{{u_1}} },{\mathrm{{r}}_{{u_2}}},\ldots ,{\mathrm{{r}}_{{u_n}}}\}\), donde n representa el número máximo especificado de usuarios revisiones.

Considerar que el mecanismo de atención de múltiples cabezas en RoBERTa puede capturar efectivamente la información semántica entre los tokens en una revisión, lo que puede mitigar el problema de la polisemia en las revisiones de usuarios/elementos. Por lo tanto, aprovechamos RoBERTa para codificar semánticamente la representación incrustada a nivel de palabra obtenida de cada reseña. Específicamente, dada la representación de incrustación de revisión a nivel de palabra \({\mathrm{{r}}_{{u_i}}}\) como entrada de RoBERTa, podemos obtener la característica de incrustación de revisión correspondiente \({\mathrm{{ O}}_{{u_i}}}\), denotado como:

donde \({\mathrm{{O}}_{{u_i}}}\) es una característica semántica c-dimensional fija.

Luego, las características de incorporación de reseñas de la salida RD\(_u\) de RoBERTa se pueden representar mediante una lista de características de incorporación de reseñas \({{\textbf{O}}_u} \in {\mathbb {R}^{n \times c}}\), denotado como \({{\{ }}{{\text {O}}_{{u_1}}},{{\text {O}}_{{u_2}}},\ldots ,{{\text {O}}_{{u_n}}}\}\).

La capa de codificación de secuencia se utiliza para obtener las características ocultas correspondientes de cada revisión. Para capturar las relaciones entre las características de incorporación de reseñas del usuario u, utilizamos BiGRU, que ha demostrado ser exitoso en aplicaciones prácticas35\(^,\)36, para codificar la característica de incorporación de cada reseña de la lista \({{\textbf {UNED}\). De esta manera, la característica incorporada de cada revisión se puede modelar desde direcciones hacia adelante y hacia atrás, y extrae completamente las dependencias internas entre las características incorporadas de la revisión, para obtener las características ocultas correspondientes.

Específicamente, tomamos la lista \({{\{ }}{{\text {O}}_{{u_1}}},{{\text {O}}_{{u_2}}},\ldots ,{ {\text {O}}_{{u_n}}}\}\) como entrada de BiGRU para obtener la característica oculta hacia adelante y la característica oculta hacia atrás correspondientes, representadas como:

donde \(\overrightarrow{{\mathrm{{h}}_{{u_i}}}}\) representa la característica oculta hacia adelante correspondiente a \({\mathrm{{O}}_{{u_i}}}\) , \(\overrightarrow{GRU}\) representa el procesamiento directo desde \({\mathrm{{O}}_{{u_1}}}\) a \({\mathrm{{O}}_{{u_n}} }\), \(\overrightarrow{{\mathrm{{h}}_{{u_{i - 1}}}}}\) representa la característica oculta hacia adelante correspondiente a \({\mathrm{{O}}_ {{u_ {i - 1}}}}\); correspondientemente, \(\overleftarrow{{\mathrm{{h}}_{{u_i}}}}\) representa la característica oculta hacia atrás correspondiente a \({\mathrm{{O}}_{{u_i}}}\ ), \(\overleftarrow{GRU}\) representa el procesamiento hacia atrás desde \({\mathrm{{O}}_{{u_n}}}\) a \({\mathrm{{O}}_{{u_1} }}\), \(\overleftarrow{{\mathrm{{h}}_{{u_{i + 1}}}}}\) representa la característica oculta hacia atrás correspondiente a \({\mathrm{{O}} _{{u_{i + 1}}}}\).

Luego concatenamos \(\overrightarrow{{\mathrm{{h}}_{{u_i}}}}\) con \(\overleftarrow{{\mathrm{{h}}_{{u_i}}}}\) de cada reseña para obtener la característica oculta correspondiente \({{\text {h}}_{{u_i}}} \in {\mathbb {R}^{2l}}\), donde l representa la dimensión oculta de cada GRU. \({{\text {h}}_{{u_i}}}\) se denota como:

De manera similar, podemos obtener la característica oculta completa \({{\textbf{H}}_u} \in {\mathbb {R}^{n \times 2l}}\) correspondiente a la lista \({{\textbf{O }}_u}\) a través de la capa de codificación de secuencia, denotada como:

Teniendo en cuenta que las reseñas realizadas por los usuarios sobre diferentes elementos reflejan diferentes preferencias de los usuarios, introducimos un mecanismo de atención37\(^,\)38 para medir de forma adaptativa los pesos para revisar características ocultas y agregar esas reseñas informativas más útiles para formar una inserción de reseñas de usuarios.

Específicamente, la red de atención toma toda la característica oculta \({{\textbf{H}}_u}\) como entrada y produce un vector correspondiente de pesos de atención, \({\alpha _u}\in {\mathbb {R }^{1\times n}}\), representado como:

donde \({{\text {w}}_1} \in {\mathbb {R}^{1 \times {t_1}}}\) representa un vector de parámetros, \({{\textbf{W}}_1 } \in {\mathbb {R}^{{t_1} \times 2l}}\) es la matriz de peso, \({t_1}\) representa el número de unidad oculto en la red de atención. \({\text {soft}}\max ( \cdot )\) se utiliza para normalizar el vector de pesos de atención. Cada dimensión en \({\alpha _u}\) denota el grado de preferencia del usuario reflejado en cada reseña.

Luego, calculamos las sumas ponderadas multiplicando el vector de ponderaciones de atención \({\alpha _u}\) y la característica oculta completa \({{\textbf{H}}_u}\), para obtener el vector de revisión del usuario \({{\ texto {d}}_u} \in {\mathbb {R}^{1 \times 2l}}\), denotado como:

A continuación, \({{\text {d}}_u}\) se utiliza como entrada de la capa completamente conectada para obtener la incrustación de la revisión del usuario u \({{\text {R}}_u} \in {\mathbb { R}^k}\), donde k representa la dimensión latente. \({{\text {R}}_u}\) se representa como:

donde \({{\textbf{W}}_2} \in {\mathbb {R}^{k \times 2l}}\) es la matriz de peso de la capa completamente conectada, y \({{\text {b }}_1} \in {\mathbb {R}^k}\) es un término de sesgo.

De manera similar, para la red RN\(_i\), podemos obtener la revisión del elemento i incrustada \({{\text {R}}_i}\) del conjunto de revisión de elementos correspondiente D\(_i\).

En la capa de predicción de calificación, nuestro objetivo es predecir la calificación del usuario u \(\hat{y}(x)\) del elemento i en función de la inclusión de la reseña del usuario \({{\text {R}}_u}\) y la revisión del elemento incrustando \({{\text {R}}_i}\). De hecho, la calificación prevista por el usuario para un elemento es en realidad un tipo de interacción entre las funciones del usuario y el elemento. Sin embargo, la mayoría de los enfoques existentes, como el producto escalar, no pueden aprender de manera efectiva las interacciones entre las características del usuario y el elemento y no logran distinguir la importancia de las diferentes interacciones entre las características. Mientras que AFM puede obtener una predicción de calificación más precisa al distinguir la importancia de diferentes interacciones de características y aliviar la influencia del ruido que pueden introducir esas interacciones de características inútiles. Por lo tanto, adoptamos AFM para aprender las interacciones entre las características del usuario y el elemento y obtener \(\hat{y}(x)\).

Específicamente, concatenamos \({{\text {R}}_u} \in {\mathbb {R}^k}\) con \({{\text {R}}_i} \in {\mathbb {R} ^k}\) en un vector conjunto \({\text {x}} = ({x_1},{x_2},\ldots ,{x_{2k}})\). Dado \({\text {x}} \in {\mathbb {R}^{2k}}\) como entrada de AFM, genera la calificación predicha \(\hat{y}(x)\) y garantiza que cada interacción usuario-elemento en el vector conjunto refleja una importancia diferente. \(\hat{y}(x)\) se representa como:

donde \({w_0}\) denota el término de sesgo global, \({w_i}\) es el peso del término principal, \({\text {|x|}}\) representa el número de característica del vector conjunto \({\texto {x}}\). \({\text {p}} \in {\mathbb {R}^d}\) representa el vector de ponderaciones para la capa de predicción de calificación. \({{\text {v}}_i} \in {\mathbb {R}^d}\) es un vector de incrustación correspondiente a una determinada dimensión \({x_i}\). De manera similar, \({{\text {v}}_j} \in {\mathbb {R}^d}\) es un vector de incrustación correspondiente a una determinada dimensión \({x_j}\), y d es el tamaño de vector de incrustación. \({b_u}\) representa el término de sesgo del usuario y \({b_i}\) representa el término de sesgo del artículo. \(\otimes\) representa el producto por elementos de los vectores integrados, \({\alpha _{ij}}\) representa el peso de atención, que se calcula mediante:

donde \({\alpha _{ij}^{'}}\) representa la puntuación de atención de la interacción de características de \({x_i}\) y \({x_j}\left( {i,j \in \left | {\text {x}} \right| ,j > i} \right)\), que se calcula mediante:

donde \({\text {h}} \in {\mathbb {R}^t}\) representa el vector de pesos desde la capa completamente conectada a la capa de salida softmax, t representa el tamaño de la capa oculta de la red de atención en AFM. \({\textbf{W}} \in {\mathbb {R}^{t \times d}}\), \({\text {b}} \in {\mathbb {R}^t}\) representan la matriz de ponderación, el término de sesgo, respectivamente.

Sobre la base de las operaciones anteriores, se puede realizar la recomendación de elementos de acuerdo con las calificaciones previstas obtenidas.

La función de pérdida al cuadrado se usa ampliamente en la tarea de predicción de calificación del sistema de recomendación, por lo que adoptamos esta función de pérdida, definida como:

donde S representa las muestras de entrenamiento, \(\hat{y}(z)\) representa la calificación prevista de una muestra z, e y(z) representa la calificación real de la muestra z.

En esta sección, realizamos experimentos para evaluar la efectividad de nuestro modelo AFMRUI propuesto en cinco conjuntos de datos del mundo real. Primero presentamos la configuración experimental, incluidos conjuntos de datos y preprocesamiento, métricas de evaluación, métodos de referencia y configuración experimental. Posteriormente realizamos comparaciones de rendimiento y también demostramos los estudios de ablación correspondientes. Además, analizamos los efectos de diferentes parámetros en el rendimiento de AFMRUI y discutimos los impactos de diferentes métodos de representación de incrustación y diferentes métodos de interacción de características en el rendimiento del modelo.

Evaluamos el modelo AFMRUI en cinco conjuntos de datos del mundo real con diferentes escalas e industrias. Entre ellos, cuatro conjuntos de datos de Amazon, incluidos Digital Music, Baby, Office Products y Beauty, contienen reseñas reales de Amazon desde mayo de 1996 hasta julio de 2014, y un conjunto de datos de Yelp para el Yelp Challenge. Cada muestra en cada conjunto de datos incluye ID de usuario, ID de artículo, reseña, calificaciones, etc. Además, los usuarios de cada conjunto de datos han publicado al menos cinco reseñas sobre los elementos correspondientes. La Tabla 2 muestra las estadísticas de cinco conjuntos de datos.

Para garantizar que el modelo esté bien entrenado, es necesario preprocesar las muestras de cinco conjuntos de datos. Según el formato de muestra descrito en "Definición del problema", utilizamos principalmente los valores de cuatro campos mencionados anteriormente en muestras de cada conjunto de datos. Luego, utilizamos una herramienta Pandas para preprocesar las muestras originales de cada conjunto de datos y extraer cuatro atributos, incluido el ID de usuario, el ID del artículo, las reseñas de los usuarios sobre el artículo y la calificación del usuario sobre el artículo (1 a 5 puntos). Como resultado, cada muestra se unifica como un cuatrillizo de ID de usuario, ID de elemento, calificación de revisión mediante preprocesamiento para facilitar el modelo de entrada para el entrenamiento.

Aprovechamos el error cuadrático medio (MSE) y el error absoluto medio (MAE) para evaluar el rendimiento de diferentes métodos. Las dos métricas se utilizan para medir la precisión de la predicción de calificaciones calculando la diferencia entre las calificaciones previstas y reales. Los valores más bajos de MSE y MAE indican una mayor precisión de la predicción del modelo. Las fórmulas para calcular MSE y MAE son:

donde T representa las muestras de prueba, |T| representa el número de muestras en el conjunto de prueba, \(\hat{y}(a)\) denota la calificación prevista de una muestra de prueba a, y(a) es la calificación real de la muestra a del conjunto de datos de prueba correspondiente.

Para demostrar la efectividad de nuestro modelo AFMRUI, seleccionamos un modelo de recomendación tradicional basado en factorización matricial y nueve modelos basados ​​en redes neuronales. Los métodos de referencia representativos seleccionados se describen a continuación.

Factorización matricial (MF)39: Este método es un algoritmo de regresión, que solo toma datos de calificación como entrada y obtiene características del usuario y del artículo mediante factorización matricial.

Redes neuronales cooperativas profundas (DeepCoNN)14: este modelo utiliza dos capas convolucionales paralelas para procesar documentos de revisión para usuarios y elementos, respectivamente, y utiliza FM para realizar predicciones de calificación, lo que muestra que la información de revisión puede aliviar el problema de escasez de los datos de calificación.

Red basada en atención dual (D-Attn)15: este modelo obtiene representaciones de características de usuarios y elementos basadas en revisiones combinando el aprendizaje local y global, y finalmente predice calificaciones mediante el uso del producto escalar.

Redes neuronales transformacionales (TransNets)40: este modelo agrega una capa de transformación a DeepCoNN, que transforma principalmente las representaciones latentes de las reseñas en características de usuarios y elementos, y utiliza FM para predecir calificaciones.

Modelo de regresión atencional neuronal con explicaciones a nivel de revisión (NARRE)16: este modelo aprende las características del usuario y del elemento mediante CNN y el mecanismo de atención, y utiliza LFM para la predicción de calificaciones.

Redes de coatención de múltiples punteros (MPCN)28: este modelo utiliza una red de puntero para conocer las características de los usuarios y elementos a partir de reseñas y utiliza FM para la predicción de calificaciones.

Aprendizaje mutuo de atención dual (DAML)17: este modelo utiliza la atención local y mutua de CNN para aprender conjuntamente las características del usuario y del artículo a partir de las reseñas, y se introduce una máquina de factorización neuronal para predecir las calificaciones.

Modelo de incrustación colaborativa neuronal (NCEM)41: este modelo utiliza una capa de atención a nivel de aspecto para medir el grado de correlación de las revisiones hacia diferentes aspectos, y se introduce una máquina de factorización neuronal multicapa para predecir calificaciones.

Marco de recomendación entre dominios a través de la red de transferencia de aspectos (CATN)42: el modelo aprende las características a nivel de aspecto de cada usuario y elemento de las revisiones correspondientes a través del mecanismo de atención, luego se realiza una comparación semántica entre dichas características a nivel de aspecto para predecir las calificaciones.

Sistema de recomendación de pirámide de coincidencias (MPRS)43: este modelo utiliza una arquitectura CNN alimentada por la matriz de coincidencias de reseñas correspondientes para un par de usuario-artículo, y se introduce una capa de regresión para predecir las calificaciones.

En nuestros experimentos, el código se escribió en Python 3.8 y se utilizó TensorFlow 1.15.5 como marco. Todos los experimentos se realizaron en un servidor Linux con CPU Intel(R) Xeon(R) Gold 6330 y GPU RTX 3090 de 24 GB. Dividimos aleatoriamente cada conjunto de datos utilizado en los experimentos en conjunto de entrenamiento, conjunto de validación y conjunto de prueba según la proporción de 8:1:1. Además, seleccionamos parámetros en el conjunto de validación y realizamos una evaluación en el conjunto de prueba. La configuración de otros parámetros se describe a continuación:

Para el método MF39, las dimensiones latentes de usuarios y elementos se establecen uniformemente en 50.

Para DeepCoNN14, D-Attn15, TransNets40, NARRE16, MPCN28, DAML17, NCEM41, CATN42 y MPRS43, configuramos los parámetros para los métodos según las estrategias de configuración en el documento correspondiente. Más específicamente, la tasa de aprendizaje es 0,002, el abandono se establece en \(\{\)0,1, 0,3, 0,5, 0,7, 0,9\(\}\) y el tamaño del lote se establece en \(\{\)32, 64, 128, 256, 512\(\}\) para encontrar los mejores parámetros. La dimensión de incrustación de ID se establece en 32 en los modelos NARRE y DAML; en los modelos D-Attn, NARRE, DAML, NCEM y CATN, la dimensión del vector de puntuación de atención se establece en 100; en los modelos DeepCoNN, TransNets, NARRE, CATN y MPRS, CNN se utiliza para procesar revisiones, donde el tamaño de cada núcleo de convolución se establece en 3 y el número de núcleos de convolución se establece en 50; el modelo de vector de palabras adoptado es Glove y la dimensión de incrustación es 100; En NCEM, la versión de BERT es "BERT-base". Tenga en cuenta que si se utiliza FM en cualquier modelo, la dimensión latente se establece en 32.

Para nuestro modelo AFMRUI propuesto, probamos cuidadosamente el tamaño del lote de \(\{\)32, 64, 128, 256, 512\(\}\) y buscamos el valor óptimo de la tasa de aprendizaje de \(\{\)0.0001 , 0,0005, 0,001, 0,005\(\}\) para cada conjunto de datos. Para evitar el sobreajuste, cambiamos el abandono de \(\{\)0.1, 0.3, 0.5, 0.7, 0.9\(\}\). Luego, el tamaño del lote se establece en 512, la tasa de aprendizaje se establece en 0,001, la deserción se establece en 0,3 y Adam se utiliza como optimizador. La longitud máxima unificada de las revisiones se establece en 100. La versión de RoBERTa es "RoBERTa-base", donde posteriormente agregamos una capa completamente conectada para comprimir la dimensión de característica semántica c. El número de unidad oculta \({t_1}\) se establece en 50 en la capa de atención. El tamaño d del vector de incrustación se establece en 6 en la capa de predicción de calificación. Los demás parámetros se determinan optimizando MSE y MAE en un conjunto de validación de cada conjunto de datos.

En esta subsección, comparamos el rendimiento de once métodos en cinco conjuntos de datos. La Tabla 3 muestra los resultados, con los de mejor desempeño resaltados en negrita. De la Tabla 3, podemos hacer las siguientes observaciones.

Primero, nuestro modelo propuesto, AFMRUI, supera a otros modelos en términos de MSE y MAE en cinco conjuntos de datos. En particular, en comparación con el mejor método de referencia (MPRS), AFMRUI mejora el rendimiento en el conjunto de datos de música digital en aproximadamente un 3,7\(\%\) para MSE y un 2,1\(\%\) para MAE. De manera similar, se observan grandes mejoras en el rendimiento en los otros cuatro conjuntos de datos. Estos resultados demuestran la superioridad de nuestro modelo.

En segundo lugar, los métodos que utilizan información de reseñas generalmente funcionan mejor que aquellos que solo consideran los datos de calificación. Está claro que DeepCoNN, D-Attn, TransNets, NARRE, MPCN, DAML, NCEM, CATN, MPRS y AFMRUI funcionan mejor que MF en términos de MSE y MAE en cinco conjuntos de datos. Las mejoras de rendimiento de estos métodos pueden deberse al aprovechamiento de las redes neuronales para la predicción de calificaciones mediante el uso de información de revisión, que puede capturar de manera efectiva las características del usuario/elemento a partir de la información de revisión y reducir el efecto de la escasez de datos debido al uso exclusivo de datos de calificación. Por lo tanto, estos métodos que utilizan información de revisión obtienen una mejora pura en comparación con MF.

En tercer lugar, nuestro modelo AFMRUI propuesto funciona mejor que nueve modelos de referencia que aprovechan la información de revisión de cinco conjuntos de datos. La razón es que, en nuestro modelo, RoBERTa puede capturar el contexto global y mitigar el problema de la polisemia en las reseñas de usuarios/artículos, en las que se garantiza la comprensión precisa de la información de la reseña. Además, nuestro modelo utiliza AFM, en lugar de producto escalar y FM, para aprender diferentes interacciones de características y distinguir aún más la importancia de diferentes interacciones de características, lo que también puede aliviar el efecto del ruido que puede ser introducido por interacciones de características inútiles, de modo que AFMRUI logra un mejor rendimiento en cinco conjuntos de datos.

Además, para cada uno de estos once métodos, también proporcionamos un orden de magnitud de los parámetros aproximados del modelo para comparar, como se muestra en la segunda columna de la Tabla 3, donde M representa millones. Los resultados de la comparación de la Tabla 3 muestran que diez métodos basados ​​en aprendizaje profundo tienen más parámetros en comparación con MF, principalmente debido al hecho de que los modelos de aprendizaje profundo generalmente contienen una red neuronal multicapa y cada capa contiene una gran cantidad de parámetros. Si bien NCEM y AFMRUI tienen muchos más parámetros de modelo en comparación con los otros ocho métodos basados ​​en aprendizaje profundo, principalmente porque ambos métodos utilizan modelos previamente entrenados para codificar revisiones, y los modelos previamente entrenados necesitan aprender mucho conocimiento y leyes lingüísticas para tener Mayor capacidad de expresión y generalización. En comparación con NCEM, AFMRUI tiene más parámetros de modelo, principalmente porque nuestro modelo aprovecha el modelo previamente entrenado RoBERTa, al que se le han realizado mejoras en la estructura del modelo y los algoritmos de optimización sobre la base de BERT utilizado en NCEM, por lo que requiere más parámetros que NCEM.

En esta subsección, realizamos experimentos de ablación para analizar los efectos de diferentes componentes para modelar el rendimiento.

Para validar los beneficios aportados por cada componente, construimos las siguientes variantes de AFMRUI basadas en el modelo básico, AFMRUI-base, que utiliza el modelo de vector de palabras estático Glove para representar características de inserción de revisión de usuario/artículo y predice la calificación del usuario sobre un artículo. por FM.

AFMRUI-Ro: este modelo utiliza RoBERTa en lugar de Glove para obtener funciones de incorporación de reseñas de usuarios/elementos sobre la base de AFMRUI-base. Este modelo variante sirve para verificar que RoBERTa es mejor que Glove a la hora de extraer funciones de incorporación de reseñas.

AFMRUI-Bi: en este modelo, BiGRU se agrega sobre la base de AFMRUI-Ro para codificar cada revisión de usuario/elemento incorporando características salidas de RoBERTa. Este modelo variante tiene como objetivo verificar la eficacia de BiGRU.

AFMRUI-Att: este modelo agrega una red de atención sobre la base de Review-Bi, y esta variante del modelo tiene como objetivo verificar la efectividad de la red de atención para medir la contribución de cada revisión a la representación de características del usuario/elemento.

En la Tabla 4 se muestran los modelos con diferentes componentes. Tomamos dos métricas para demostrar la efectividad de los modelos de la Tabla 4 en cinco conjuntos de datos. Los resultados se muestran en la Tabla 5.

Como se puede ver en la Tabla 5, el rendimiento del modelo de AFMRUI-Ro ha mejorado en comparación con el modelo básico, lo que indica que el uso de RoBERTa para obtener características de incorporación de revisión de usuario/elemento relacionadas con el contexto, lo que puede aliviar el problema de la polisemia y mejorar de manera efectiva. la representación de características. En comparación con AFMRUI-Ro, AFMRUI-Bi funciona mejor principalmente porque BiGRU es más adecuado para tratar problemas de secuencia y puede explotar plenamente las dependencias internas entre revisiones. Si bien el rendimiento de AFMRUI-Bi es peor que el de AFMRUI-Att, porque la red de atención introducida puede medir de forma adaptativa la importancia de cada revisión para la representación de características del usuario/elemento, lo que permite que el modelo se centre en revisiones más útiles.

Por el contrario, el rendimiento de nuestro modelo AFMRUI propuesto es mejor que el de los otros cuatro modelos variantes, lo que muestra que AFM puede aprender mejor las interacciones entre las características de los usuarios y los elementos para obtener una calificación de predicción más precisa, y también demuestra que la integración de estos componentes puede ayudar a mejores características de revisión del modelo de usuarios y elementos, para mejorar el rendimiento del modelo.

En esta sección, analizamos los efectos de diferentes parámetros del modelo en el rendimiento de AFMRUI. Aquí, nos centramos en cinco parámetros críticos, a saber, el número máximo de reseñas de usuarios n y reseñas de elementos m, la dimensión de característica semántica c, la dimensión oculta de GRU ly la dimensión latente k. A continuación, analizamos los efectos de cinco parámetros en dos métricas.

El modelo AFMRUI propuesto realiza predicciones de calificación basadas en reseñas de usuarios y reseñas de artículos. Por lo tanto, el número máximo de reseñas de usuarios n y reseñas de artículos m afecta directamente las representaciones de características de los usuarios y artículos, afectando así el rendimiento del modelo. Teniendo en cuenta que diferentes conjuntos de datos tienen diferentes números de reseñas para diferentes usuarios y diferentes artículos, hacemos estadísticas sobre el número de reseñas de usuarios y reseñas de artículos de cinco conjuntos de datos para determinar el rango para el número máximo de reseñas, como se muestra en la Tabla 6.

Tomemos como ejemplo el conjunto de datos de música digital (la segunda fila de la Tabla 6), 4449 usuarios tienen hasta 13 reseñas, lo que representa el 80,29\(\%\) del número total de usuarios, y 2892 elementos tienen hasta 20 reseñas, lo que representa para el 81,05\(\%\) del número total de artículos. De acuerdo con los resultados estadísticos, considerando que se introducirá ruido si el número de reseñas es demasiado grande y que se extraerá información menos efectiva si el número de reseñas es demasiado pequeño, establecemos el rango para el número máximo de reseñas de usuarios en \ (\{\)8, 9, 10, 11, 12, 13\(\}\), y el rango para el número máximo de revisiones de artículos es \(\{\)15, 16, 17, 18, 19, 20 \(\}\). De manera similar, establecemos los rangos para el número máximo de revisiones de los otros cuatro conjuntos de datos y mantenemos otros hiperparámetros sin cambios. La Figura 3 muestra los resultados de cinco conjuntos de datos. Dado que los resultados en MAE son similares a los de MSE, tomamos MSE como ejemplo para analizar los efectos de los parámetros en el rendimiento del modelo.

Como se muestra en la Fig. 3a, para el conjunto de datos de música digital, con el aumento de n y m, MSE disminuye primero y luego aumenta. Esto se debe a que cuando el número de reseñas es demasiado grande, se puede introducir ruido que afecte las representaciones de funciones de los usuarios y los elementos. Si bien la cantidad de reseñas es demasiado pequeña para expresar con precisión las representaciones de características de los usuarios y los artículos. Por lo tanto, establecemos el número máximo de reseñas de usuarios n en 10 y establecemos el número máximo de reseñas de elementos m en 20 que pueden obtener el mejor rendimiento en el conjunto de datos de música digital. De manera similar, el número máximo de reseñas de usuarios y reseñas de artículos se establece en n = 10, m = 23 en el conjunto de datos de Baby, respectivamente; para el conjunto de datos de productos de oficina, n = 8 y m = 10; para el conjunto de datos de belleza, n = 10 y m = 15; para Yelp, n = 10 y m = 15. Según el análisis anterior, seleccionamos valores como el número máximo correspondiente de reseñas de usuarios y reseñas de artículos en cinco conjuntos de datos.

Efecto del número máximo de reseñas de usuarios y reseñas de artículos en el rendimiento del modelo.

Para investigar qué tan sensible es AFMRUI a la dimensión de característica semántica c, fijamos la dimensión de la salida de característica de incrustación de revisión de RoBERTa a 768, y obtuvimos además las características de incrustación de revisión correspondientes con diferente dimensión de característica semántica c a través de una compresión de capa completamente conectada. Demostramos los efectos de c en cinco conjuntos de datos en la Fig. 4. Como se muestra en la Fig. 4, para cinco conjuntos de datos, con el aumento de c, el rendimiento del modelo mejora gradualmente. Cuando c es 256, el rendimiento del modelo alcanza el mejor nivel y luego comienza a disminuir. Además, el coste computacional también está aumentando. Por lo tanto, establecemos la dimensión de característica semántica c en 256 que puede obtener el mejor rendimiento en cinco conjuntos de datos.

Efecto de la dimensión de característica semántica c sobre el rendimiento del modelo.

Efecto de la dimensión oculta l de GRU en el rendimiento del modelo.

Efecto de la dimensión latente k sobre el rendimiento del modelo.

Para ilustrar el efecto de la dimensión oculta l de GRU, establecemos valores de l como 50, 100, 150, 200, 250, 300 mientras mantenemos otros hiperparámetros sin cambios. La Figura 5 muestra los resultados de cinco conjuntos de datos. Las curvas muestran la tendencia de caer primero y luego subir en cinco conjuntos de datos. Esto tal vez se deba a que cuando la dimensión oculta de GRU es demasiado pequeña, no puede explotar completamente las dependencias internas entre las funciones de incorporación de reseñas. Mientras que cuando la dimensión oculta de GRU es demasiado grande, el modelo se ajustará demasiado. Por lo tanto, de manera similar a la selección de la dimensión semántica c, configuramos la dimensión oculta de GRU en 200, que puede obtener el mejor rendimiento en cinco conjuntos de datos.

En esta subsección, investigamos el impacto de la dimensión latente k en el rendimiento del modelo manteniendo otros parámetros sin cambios. Los resultados se presentan en la Fig. 6. Observamos que a medida que k aumenta, MSE y MAE primero disminuyen para los conjuntos de datos de música digital, bebés, belleza y Yelp, alcanzan el mejor valor cuando k es 32 y aumentan a partir de entonces. Para el conjunto de datos de productos de oficina, MSE y MAE alcanzan el mejor nivel cuando k es 64. Esto se debe a que un valor pequeño de k puede hacer que el modelo no pueda capturar toda la información potencial de las reseñas de usuarios y artículos, mientras que un valor grande de k puede causar sobreajuste y aumentar la complejidad del modelo. Por lo tanto, configuramos k en 64 en el conjunto de datos de Productos de Office y 32 en los otros cuatro conjuntos de datos.

En esta sección, analizamos el impacto de diferentes métodos de representación integrados en el rendimiento del modelo. Aquí, seleccionamos un algoritmo clásico DeepCoNN14 y el mejor método de referencia MPRS43 con diferentes representaciones de incrustación. Como se muestra en la Tabla 7, analizamos principalmente nueve métodos de comparación.

Los resultados experimentales informados en la Tabla 7 muestran que nuestro modelo propuesto, AFMRUI, supera a sus variantes, AFMRUI-Glove y AFMRUI-BERT-base, en términos de MSE y MAE en los cinco conjuntos de datos. Específicamente, en el conjunto de datos de Yelp, AFMRUI mejora el rendimiento aproximadamente un 3,8 % en MSE y un 3,5 % en MAE en comparación con AFMRUI-Glove; y las mejoras relativas de rendimiento son del 1,5% en MSE y del 1,1% en MAE en comparación con AFMRUI-BERT-base. Los otros cuatro conjuntos de datos muestran ganancias de rendimiento igualmente altas. Estos resultados demuestran esencialmente la competitividad del modelo propuesto que utiliza RoBERTa para obtener características de incorporación de reseñas de usuarios/elementos relacionadas con el contexto, que pueden aliviar el problema de la polisemia y mejorar efectivamente la representación de características.

Además, también comparamos DeepCoNN14, MPRS43 y sus modelos variantes. Los resultados experimentales muestran que DeepCoNN-BERT-base y DeepCoNN-RoBERTa-base superan a DeepCoNN-Glove, MPRS-BERT-base y MPRS-RoBERTa-base superan a MPRS-Glove, principalmente porque el modelo tradicional de vector de palabras no puede confiar en el modelo anterior. Información de revisión y después en el conjunto de revisión para representaciones eficientes de usuarios y elementos. Sin embargo, BERT-base y RoBERTa-base pueden aliviar este problema. Mientras que DeepCoNN-RoBERTa-base supera a DeepCoNN-BERT-base, MPRS-RoBERTa-base supera a MPRS-BERT-base, principalmente porque RoBERTa-base no solo hereda las ventajas de BERT-base, sino que también utiliza nuevos hiperparámetros y un nuevo gran conjunto de datos. para volver a capacitarse. No solo alivia el problema de los múltiples significados de las palabras en las reseñas, sino que también modela mejor la información global y las representaciones semánticas de las reseñas de usuarios y artículos, lo que da como resultado puntuaciones predictivas más precisas y un mejor rendimiento del modelo.

En esta sección, analizamos el impacto de diferentes métodos de interacción de características en el rendimiento del modelo. Discutimos principalmente los siguientes tres métodos.

AFMRUI-dp: el método realiza una operación de producto escalable en la incorporación de reseñas de usuarios y de artículos para predecir la calificación.

AFMRUI-FM: este enfoque codifica un vector formado mediante la concatenación de incorporaciones de revisión de elementos y usuarios a través de FM.

AFMRUI: nuestro método propuesto utiliza AFM para conocer las interacciones de funciones de los usuarios y los elementos para realizar predicciones de calificación.

La Tabla 8 muestra los resultados de cinco conjuntos de datos. Como se puede ver en la Tabla 8, AFMRUI-dp experimenta la mayor disminución de rendimiento en comparación con AFMRUI-FM y AFMRUI en cinco conjuntos de datos, mientras que AFMRUI tiene el mejor rendimiento. Esto se debe a que la operación del producto escalar utilizada por AFMRUI-dp no puede explorar completamente la compleja estructura interna del vector conjunto de incrustación de reseñas de usuarios y de incrustaciones de reseñas de elementos. Si bien la ventaja de FM sobre la operación de producto escalable es que puede capturar interacciones de características entre dos dimensiones cualesquiera en el vector conjunto de incrustación de reseñas de usuarios y de incrustaciones de reseñas de elementos. Por tanto, el rendimiento de AFMRUI-FM es mejor que el de AFMRUI-dp.

En comparación con AFMRUI-FM, nuestro modelo AFMRUI es más efectivo porque AFM en nuestro modelo agrega un mecanismo de atención sobre la base de FM y puede distinguir aún más la importancia de diferentes interacciones de características, lo que puede aliviar el efecto del ruido posiblemente introducido por características inútiles. interacciones, para obtener una calificación de predicción más precisa y luego mejorar el rendimiento del modelo.

Puntuaciones de atención de interacciones de funciones con diferentes tipos.

Sobre la base del análisis anterior, para explorar más a fondo la contribución de diferentes interacciones de funciones en nuestro modelo AFMRUI de manera más intuitiva, utilizamos el conjunto de datos de música digital como ejemplo para demostrar las contribuciones de diferentes interacciones de funciones. Dado que nuestro modelo AFMRUI logra los mejores resultados en el conjunto de datos de música digital cuando el número de dimensiones latentes k es 32, las dimensiones tanto de la incrustación de reseñas de usuarios \({\text {R}_u}\) como de la incrustación de reseñas de elementos \({\ El texto {R}_i}\) se establece en 32, y la dimensión del vector x unido a partir de ellos es 64, es decir, \(\mathrm{{x}} =({\mathrm{{R}}_u}, {\mathrm{{R}}_i}) =\) (\({x_{1}}\)-\({x_{32}}\), \({x_{33}}-{x_{64) }}\)). Donde \({x_1}-{x_{32}}\) se define como el objeto de interacción del usuario U y \({x_{33}}-{x_{64}}\) se define como el objeto de interacción del elemento I, por lo que hay Hay tres tipos de interacciones de características en el vector x, como se muestra en la Tabla 9. Una interacción de características usuario-elemento (por ejemplo, \(x_1\) \(x_{33}\)) se puede formar tomando una dimensión aleatoria de U y I. Repetidamente, seleccionamos 10 interacciones de características diferentes entre usuario y elemento con el tipo de interacción de características U – I. De manera similar, obtenemos 10 interacciones de características diferentes con los otros dos tipos, respectivamente. Las puntuaciones de atención de estas interacciones de características se muestran en la Fig. 7.

Como se muestra en la Fig. 7, cuanto más claro es el color, menor es la puntuación de atención y menos contribuye al rendimiento del modelo, y viceversa. Específicamente, el tipo de interacción de características U – I, que ha sido adoptado por modelos como DeepCoNN14 y TransNets40, logró buenos resultados, lo que indica que las interacciones de características entre el usuario y el elemento son beneficiosas para la calidad de la predicción de calificaciones. Sin embargo, según la Fig. 7, se puede ver que las puntuaciones de atención para las interacciones de características U-I son estables entre 0,2 y 0,5, lo que indica que no todas las interacciones entre características usuario-elemento tienen impactos positivos en la predicción de calificación. Mientras que los otros tipos de U–U y I–I tienen puntuaciones de atención más altas, principalmente en el rango de 0,5 a 0,9, lo que indica que, aunque son los mismos objetos de interacción, las interacciones entre ellos son más importantes y pueden tener impactos positivos en la atención. el rendimiento del modelo, lo que da como resultado una predicción más precisa de la calificación del usuario de un elemento y, por lo tanto, proporciona una mejor recomendación.

En resumen, se puede ver que diferentes interacciones de características tienen diferentes puntuaciones de atención y diferentes impactos en el rendimiento del modelo. Si bien el AFM adoptado en nuestro modelo puede distinguir la importancia de diferentes interacciones de características a través de las puntuaciones de atención obtenidas, aliviando así el impacto de las interacciones de características inútiles en el rendimiento del modelo.

En los últimos años, la recomendación basada en revisiones es uno de los temas de investigación más candentes en los sistemas de recomendación. En este artículo, propusimos un modelo AFMRUI para recomendación. Específicamente, AFMRUI aprovecha RoBERTa para mitigar el problema de la polisemia en las reseñas de usuarios/elementos, y aprende la incorporación de reseñas de usuarios y artículos a través de BiGRU y la red de atención, para modelar mejor la incorporación de reseñas de usuarios y de artículos. Luego utiliza AFM para aprender las interacciones entre las características del usuario y el elemento, lo que puede obtener una calificación de predicción más precisa al distinguir la importancia de las diferentes interacciones entre las características. Amplios experimentos en cinco conjuntos de datos disponibles públicamente han demostrado que el modelo AFMRUI propuesto supera a los métodos más modernos con respecto a dos métricas.

En este documento, simplemente aprovechamos la información de revisión para extraer usuarios y características de los elementos. Recientemente, estudios han demostrado que el gráfico de interacción usuario-elemento44,45 tiene información adicional útil para promover la recomendación. Por lo tanto, en trabajos futuros, combinaremos la información de revisión con el gráfico de interacción usuario-elemento para capturar características más precisas de los usuarios y elementos, a fin de proporcionar un mejor rendimiento del modelo.

Los datos utilizados para respaldar los hallazgos de este estudio están disponibles en http://jmcauley.ucsd.edu/data/amazon/ y https://www.yelp.com/dataset.

El código fuente del modelo propuesto está disponible públicamente para descargar en Github: https://github.com/Jindidi/AFMRUI.git.

Mandal, S. y Maiti, A. Filtrado colaborativo profundo con interacción usuario-elemento basada en la puntuación del promotor social: una nueva perspectiva en la recomendación. Aplica. Intel. 51, 7855–7880. https://doi.org/10.1007/s10489-020-02162-9 (2021).

Artículo de Google Scholar

Wang, N. Sistema de recomendación de educación ideológica y política basado en AHP y algoritmo de filtrado colaborativo mejorado. Ciencia. Programa 2021, 2648352:1-2648352:9. https://doi.org/10.1155/2021/2648352 (2021).

Artículo de Google Scholar

Zhu, Z., Wang, S., Wang, F. & Tu, Z. Redes de recomendación de productos homogéneos en una plataforma de comercio electrónico: efectos de medición y competencia. Sistema experto. Aplica. 201, 117128. https://doi.org/10.1016/j.eswa.2022.117128 (2022).

Artículo de Google Scholar

Baczkiewicz, A., Kizielewicz, B., Shekhovtsov, A., Watróbski, J. & Salabun, W. Aspectos metódicos del sistema de recomendación de comercio electrónico basado en MCDM. J. Theor. Aplica. Electrón. Res. Comercio. 16, 2192–2229. https://doi.org/10.3390/jtaer16060122 (2021).

Artículo de Google Scholar

Li, Z., Huang, X., Liu, C. y Yang, W. Red de autoatención consciente de la correlación de intervalos desiguales espacio-temporales para la próxima recomendación de PDI. ISPRS Int. J. Geo Inf. 11, 543. https://doi.org/10.3390/ijgi11110543 (2022).

Artículo de Google Scholar

Tahmasbi, H., Jalali, M. & Shakeri, H. Modelado de la dinámica de preferencias del usuario con factorización de tensor acoplado para recomendación de redes sociales. J. Inteligencia ambiental. Humaniz. Computadora. 12, 9693–9712. https://doi.org/10.1007/s12652-020-02714-4 (2021).

Artículo de Google Scholar

Covington, P., Adams, J. y Sargin, E. Redes neuronales profundas para recomendaciones de Youtube. En Actas de la décima conferencia ACM sobre sistemas de recomendación, Boston, MA, EE. UU., 15 al 19 de septiembre (Sen, S., Geyer, W., Freyne, J. & Castells, P. eds.), 191-198. https://doi.org/10.1145/2959100.2959190 (ACM, 2016).

Li, D., Wang, C., Li, L. y Zheng, Z. Algoritmo de filtrado colaborativo con información social y ventanas de tiempo dinámicas. Aplica. Intel. 52, 5261–5272. https://doi.org/10.1007/s10489-021-02519-8 (2022).

Artículo de Google Scholar

Hu, G. y col. Filtrado colaborativo con temas y factores sociales latentes incorporando retroalimentación implícita. Transmisión ACM. Conocimiento. Descubrimiento. Datos 12, 23:1-23:30. https://doi.org/10.1145/3127873 (2018).

Artículo de Google Scholar

Yin, Y., Chen, L., Xu, Y. & Wan, J. Recomendación de servicios con reconocimiento de ubicación con factorización matricial probabilística mejorada. Acceso IEEE 6, 62815–62825. https://doi.org/10.1109/ACCESS.2018.2877137 (2018).

Artículo de Google Scholar

Zhang, Z., Liu, Y., Xu, G. & Luo, GX Recomendación utilizando el método de ajuste fino basado en dmf. J. Intel. inf. Sistema. 47, 233–246. https://doi.org/10.1007/s10844-016-0407-6 (2016).

Artículo de Google Scholar

Shang, T., Li, X., Shi, X. y Wang, Q. Modelado conjunto de preferencias dinámicas de usuarios y elementos utilizando revisiones para recomendaciones secuenciales. En Avances en el descubrimiento de conocimientos y la minería de datos: 25.a Conferencia Pacífico-Asia, PAKDD 2021, evento virtual, 11 al 14 de mayo de 2021, Actas, Parte II, vol. 12713 de Lecture Notes in Computer Science (Karlapalem, K. et al. eds.), 524–536. https://doi.org/10.1007/978-3-030-75765-6_42 (Springer, 2021).

Kim, DH, Park, C., Oh, J., Lee, S. y Yu, H. Factorización de matrices convolucionales para recomendaciones basadas en el contexto de documentos. En Actas de la décima conferencia ACM sobre sistemas de recomendación, Boston, MA, EE. UU., 15 al 19 de septiembre (Sen, S., Geyer, W., Freyne, J. & Castells, P. eds.), 233–240. https://doi.org/10.1145/2959100.2959165 (ACM, 2016).

Zheng, L., Noroozi, V. y Yu, PS Modelado profundo conjunto de usuarios y elementos utilizando reseñas como recomendación. En Actas de la Décima Conferencia Internacional ACM sobre Búsqueda Web y Minería de Datos, WSDM 2017, Cambridge, Reino Unido, 6 al 10 de febrero (de Rijke, M., Shokouhi, M., Tomkins, A. & Zhang, M. eds. ), 425–434. https://doi.org/10.1145/3018661.3018665 (ACM, 2017).

Seo, S., Huang, J., Yang, H. y Liu, Y. Redes neuronales convolucionales interpretables con doble atención local y global para la predicción de calificaciones de revisión. En Actas de la Undécima Conferencia ACM sobre Sistemas de Recomendación, RecSys 2017, Como, Italia, 27 al 31 de agosto (Cremonesi, P., Ricci, F., Berkovsky, S. & Tuzhilin, A. eds.), 297–305. https://doi.org/10.1145/3109859.3109890 (ACM, 2017).

Chen, C., Zhang, M., Liu, Y. & Ma, S. Regresión de la calificación de la atención neuronal con explicaciones a nivel de revisión. En Actas de la Conferencia Mundial sobre la World Wide Web de 2018, WWW 2018, Lyon, Francia, 23 al 27 de abril (Champin, P., Gandon, F., Lalmas, M. & Ipeirotis, PG eds.), 1583– 1592. https://doi.org/10.1145/3178876.3186070 (ACM, 2018).

Liu, D., Li, J., Du, B., Chang, J. y Gao, R. DAML: Aprendizaje mutuo de doble atención entre calificaciones y reseñas para la recomendación de artículos. En Actas de la 25ª Conferencia Internacional ACM SIGKDD sobre Descubrimiento de Conocimiento y Minería de Datos, KDD 2019, Anchorage, AK, EE. UU., 4 al 8 de agosto (Teredesai, A. et al. eds.), 344–352. https://doi.org/10.1145/3292500.3330906 (ACM, 2019).

Pennington, J., Socher, R. & Manning, CD Glove: Vectores globales para representación de palabras. En Actas de la Conferencia de 2014 sobre métodos empíricos en el procesamiento del lenguaje natural, EMNLP 2014, 25-29 de octubre de 2014, Doha, Qatar, una reunión de SIGDAT, un grupo de interés especial de la ACL (Moschitti, A., Pang, B. & Daelemans, W. eds.), 1532–1543.https://doi.org/10.3115/v1/d14-1162 (ACL, 2014).

Mikolov, T., Chen, K., Corrado, G. y Dean, J. Estimación eficiente de representaciones de palabras en el espacio vectorial. En 1.ª Conferencia Internacional sobre Representaciones del Aprendizaje, ICLR 2013, Scottsdale, Arizona, EE. UU., 2 al 4 de mayo de 2013, Workshop Track Proceedings (Bengio, Y. & LeCun, Y. eds.) (2013).

Devlin, J., Chang, M., Lee, K. y Toutanova, K. BERT: Entrenamiento previo de transformadores bidireccionales profundos para la comprensión del lenguaje. (2018). arXiv:1810.04805 [CoRR].

Zhang, K. y col. SIFN: una red de fusión interactiva basada en opiniones para recomendaciones de artículos basadas en reseñas. En CIKM '21: 30.ª Conferencia Internacional ACM sobre Gestión de la Información y el Conocimiento, evento virtual, Queensland, Australia, del 1 al 5 de noviembre (Demartini, G., Zuccon, G., Culpepper, JS, Huang, Z. & Tong, H .eds.), 3627–3631. https://doi.org/10.1145/3459637.3482181 (ACM, 2021).

Qiu, Z., Wu, X., Gao, J. & Fan, W. U-bert: Representaciones de usuario previas al entrenamiento para una mejor recomendación. En Actas de la Conferencia AAAI sobre Inteligencia Artificial 35, 4320–4327 (2021).

Liu, Y. et al. Roberta: un enfoque de preentrenamiento BERT sólidamente optimizado. (2019). arXiv:1907.11692 [CoRR].

Xu, J., Zheng, X. & Ding, W. Recomendación personalizada basada en reseñas y calificaciones que alivian el problema de escasez del filtrado colaborativo. En la Novena Conferencia Internacional IEEE sobre Ingeniería de Negocios Electrónicos, ICEBE 2012, Hangzhou, China, 9 al 11 y 9 al 16 de septiembre. https://doi.org/10.1109/ICEBE.2012.12 (IEEE Computer Society, 2012).

Huang, J., Rogers, S. y Joo, E. Mejorar los restaurantes extrayendo subtemas de las reseñas de Yelp. iConference 2014 (Exposición de redes sociales) (2014).

Bao, Y., Fang, H. & Zhang, J. Topicmf: Explotación simultánea de calificaciones y reseñas para recomendaciones. En Actas de la Vigésima Octava Conferencia AAAI sobre Inteligencia Artificial, 27 al 31 de julio de 2014, Ciudad de Quebec, Québec, Canadá (Brodley, CE & Stone, P. eds.), 2–8 (AAAI Press, 2014).

Ganu, G., Kakodkar, Y. y Marian, A. Mejora de la calidad de las predicciones utilizando información textual en reseñas de usuarios en línea. inf. Sistema. 38, 1-15. https://doi.org/10.1016/j.is.2012.03.001 (2013).

Artículo de Google Scholar

Tay, Y., Luu, AT y Hui, SC Redes de coatención multipuntero para recomendación. En Actas de la 24ª Conferencia Internacional ACM SIGKDD sobre Descubrimiento de Conocimiento y Minería de Datos, KDD 2018, Londres, Reino Unido, 19 al 23 de agosto (Guo, Y. & Farooq, F. eds.), 2309–2318. https://doi.org/10.1145/3219819.3220086 (ACM, 2018).

Chen, X., Zhang, Y. & Qin, Z. Recomendación dinámica explicable basada en modelos neuronales atentos. En la Trigésima Tercera Conferencia AAAI sobre Inteligencia Artificial, AAAI 2019, La Trigésima Primera Conferencia sobre Aplicaciones Innovadoras de Inteligencia Artificial, IAAI 2019, El Noveno Simposio AAAI sobre Avances Educativos en Inteligencia Artificial, EAAI 2019, Honolulu, Hawaii, EE. UU., 27 de enero –1 de febrero, 53–60. https://doi.org/10.1609/aaai.v33i01.330153 (Prensa AAAI, 2019).

Chin, JY, Zhao, K., Joty, SR y Cong, G. ANR: recomendador neuronal basado en aspectos. En Actas de la 27ª Conferencia Internacional ACM sobre Gestión de la Información y el Conocimiento, CIKM 2018, Turín, Italia, 22 al 26 de octubre (Cuzzocrea, A. et al. eds.), 147–156. https://doi.org/10.1145/3269206.3271810 (ACM, 2018).

Él, X. et al. Filtrado colaborativo neuronal. En Actas de la 26.ª Conferencia Internacional sobre la World Wide Web, WWW 2017, Perth, Australia, 3 al 7 de abril (Barrett, R., Cummings, R., Agichtein, E. & Gabrilovich, E. eds.), 173–182 . https://doi.org/10.1145/3038912.3052569 (ACM, 2017).

Rendle, S. Máquinas de factorización. En ICDM 2010, Décima Conferencia Internacional IEEE sobre Minería de Datos, Sydney, Australia, 14-17 de diciembre (Webb, GI, Liu, B., Zhang, C., Gunopulos, D. & Wu, X., eds.), 995–1000. https://doi.org/10.1109/ICDM.2010.127 (IEEE Computer Society, 2010).

Zhang, W., Du, T. y Wang, J. Aprendizaje profundo sobre datos categóricos de múltiples campos: un estudio de caso sobre la predicción de la respuesta del usuario. En Advances in Information Retrieval - 38th European Conference on IR Research, ECIR 2016, Padua, Italia, 20 al 23 de marzo de 2016. Actas, vol. 9626 de Lecture Notes in Computer Science (Ferro, N. et al. eds.), 45–57. https://doi.org/10.1007/978-3-319-30671-1_4 (Springer, 2016).

Xiao, J. y col. Máquinas de factorización atencional: aprendizaje del peso de las interacciones de características a través de redes de atención. En Actas de la Vigésima Sexta Conferencia Internacional Conjunta sobre Inteligencia Artificial, IJCAI 2017, Melbourne, Australia, 19 al 25 de agosto (Sierra, C. ed.), 3119–3125. https://doi.org/10.24963/ijcai.2017/435 (ijcai.org, 2017).

Cao, B., Li, C., Song, Y. & Fan, X. Tecnología de detección de intrusiones en la red basada en redes neuronales convolucionales y bigru. Computadora. Intel. Neurociencias. 20, 22 (2022).

Google Académico

Teng, F. y col. Un método basado en gru para predecir la intención de objetivos aéreos. Computadora. Intel. Neurosci 2021, 6082242:1-6082242:13. https://doi.org/10.1155/2021/6082242 (2021).

Artículo de Google Scholar

Al-Sabahi, K., Zhang, Z. y Nadher, M. Un modelo autoatento estructurado jerárquico para el resumen de documentos extractivos (HSSAS). Acceso IEEE 6, 24205–24212. https://doi.org/10.1109/ACCESS.2018.2829199 (2018).

Artículo de Google Scholar

Lin, Z. y col. Una incrustación de oración estructurada y autoatenta. En Quinta Conferencia Internacional sobre Representaciones del Aprendizaje, ICLR 2017, Toulon, Francia, 24 al 26 de abril de 2017, Actas de la Conferencia (OpenReview.net, 2017).

Koren, Y., Bell, RM y Volinsky, C. Técnicas de factorización matricial para sistemas de recomendación. Computadora 42, 30–37. https://doi.org/10.1109/MC.2009.263 (2009).

Artículo de Google Scholar

Catherine, R. & Cohen, WW Transnets: Aprender a transformar para recomendar. En Actas de la Undécima Conferencia ACM sobre Sistemas de Recomendación, RecSys 2017, Como, Italia, 27 al 31 de agosto (Cremonesi, P., Ricci, F., Berkovsky, S. & Tuzhilin, A., eds.), 288–296 . https://doi.org/10.1145/3109859.3109878 (ACM, 2017).

Feng, X. y Zeng, Y. Incrustación colaborativa neuronal a partir de revisiones para recomendación. Acceso IEEE 7, 103263–103274. https://doi.org/10.1109/ACCESS.2019.2931357 (2019).

Artículo de Google Scholar

Zhao, C., Li, C., Xiao, R., Deng, H. & Sun, A. CATN: Recomendación entre dominios para usuarios de arranque en frío a través de una red de transferencia de aspectos. En Actas de la 43.ª conferencia internacional ACM SIGIR sobre investigación y desarrollo en recuperación de información, SIGIR 2020, evento virtual, China, 25 al 30 de julio (Huang, JX et al., eds.), 229–238. https://doi.org/10.1145/3397271.3401169 (ACM, 2020).

Dezfouli, PAB, Momtazi, S. & Dehghan, M. Interacción de texto de revisión neuronal profunda para sistemas de recomendación. Aplica. Computación suave. 100, 106985. https://doi.org/10.1016/j.asoc.2020.106985 (2021).

Artículo de Google Scholar

Él, X. et al. Lightgcn: simplificación y potencia de la red de convolución de gráficos para recomendación. En Actas de la 43.ª conferencia internacional ACM SIGIR sobre investigación y desarrollo en recuperación de información, SIGIR 2020, evento virtual, China, 25 al 30 de julio (Huang, JX et al., eds.), 639–648. https://doi.org/10.1145/3397271.3401063 (ACM, 2020).

Gao, Q. & Ma, P. Red neuronal gráfica y sistema de recomendación y predicción del comportamiento del usuario basado en el contexto. Computadora. Intel. Neurociencias. 8812370:1–8812370:14, 2020. https://doi.org/10.1155/2020/8812370 (2020).

Artículo de Google Scholar

Descargar referencias

El trabajo descrito en este artículo cuenta con el apoyo parcial de la Fundación Nacional de Ciencias Naturales de China (No. 61402150, 61806074), el Plan de proyectos clave de investigación científica de colegios y universidades en la provincia de Henan (No. 23A520016) y el Proyecto de investigación de ciencia y tecnología en Provincia de Henan (Nº 232102211029).

Facultad de Ingeniería Informática y de la Información, Universidad de Henan, Kaifeng, 475004, Henan, China

Zheng Li, Di Jin y Ke Yuan

Laboratorio de ingeniería de procesamiento de información espacial de Henan, Universidad de Henan, Kaifeng, 475004, Henan, China

Zheng Li

Laboratorio clave de análisis y procesamiento de Big Data de Henan, Universidad de Henan, Kaifeng, 475004, Henan, China

Zheng Li

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

ZL: redacción, revisión y edición, supervisión, adquisición de financiación; DJ: metodología, software, redacción-borrador original, redacción-revisión y edición; KY: redacción-revisión y edición. Todos los autores han leído y aceptado la versión final del manuscrito.

Correspondencia a Ke Yuan.

Los autores declaran no tener conflictos de intereses.

Springer Nature se mantiene neutral con respecto a reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Acceso Abierto Este artículo está bajo una Licencia Internacional Creative Commons Attribution 4.0, que permite el uso, compartir, adaptación, distribución y reproducción en cualquier medio o formato, siempre y cuando se dé el crédito apropiado al autor(es) original(es) y a la fuente. proporcione un enlace a la licencia Creative Commons e indique si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la normativa legal o excede el uso permitido, deberá obtener permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Li, Z., Jin, D. y Yuan, K. Máquina de factorización atencional con interacción usuario-elemento basada en revisiones para recomendación. Representante científico 13, 13454 (2023). https://doi.org/10.1038/s41598-023-40633-4

Descargar cita

Recibido: 02 de marzo de 2023

Aceptado: 14 de agosto de 2023

Publicado: 18 de agosto de 2023

DOI: https://doi.org/10.1038/s41598-023-40633-4

Cualquier persona con la que compartas el siguiente enlace podrá leer este contenido:

Lo sentimos, actualmente no hay un enlace para compartir disponible para este artículo.

Proporcionado por la iniciativa de intercambio de contenidos Springer Nature SharedIt

Al enviar un comentario, acepta cumplir con nuestros Términos y pautas de la comunidad. Si encuentra algo abusivo o que no cumple con nuestros términos o pautas, márquelo como inapropiado.