Análisis integral de la PNL. Hola chicos, bienvenidos a este técnico...
अंश
Seguir
--
Escuchar
Compartir
Hola chicos, bienvenidos a este blog técnico.
Entonces, la forma completa de PNL es el procesamiento del lenguaje natural.
Un poco de desarrollo de contexto sobre su pasado.
“El campo del procesamiento del lenguaje natural comenzó en la década de 1940, después de la Segunda Guerra Mundial. En ese momento, la gente reconoció la importancia de la traducción de un idioma a otro y esperaba crear una máquina que pudiera realizar este tipo de traducción automáticamente. Sin embargo, la tarea obviamente no fue tan fácil como la gente imaginó al principio”.
“En la década de 1980, hubo un cambio hacia la PNL estadística, que utiliza algoritmos de aprendizaje automático para aprender las relaciones estadísticas entre palabras y frases. Los sistemas estadísticos de PNL son más robustos y escalables que los sistemas basados en reglas, y se han utilizado para lograr resultados significativos en una variedad de tareas de PNL, como la traducción automática, el reconocimiento de voz y el resumen de textos”.
¿Por qué realmente necesitamos la PNL?
El procesamiento del lenguaje natural (PNL) ayuda a las computadoras a comunicarse con los humanos en su propio idioma y escalar otras tareas relacionadas con el lenguaje. Sin embargo, el habla humana es mucho más compleja de lo que la mayoría de la gente cree. Existen reglas, como la ortografía y la gramática, pero la forma en que interpretamos el habla y el texto está mucho menos definida. Por ejemplo, ¿cómo se sabe cuando una persona está siendo sarcástica? En el lenguaje humano, las palabras pueden decir una cosa, pero el contexto y el tono pueden hacer que esas palabras signifiquen otra cosa. A los seres humanos les lleva media vida aprender los sutiles matices del lenguaje. Entonces, la PNL es un salvavidas y lo maneja muy bien. La PNL permite a las computadoras comprender el lenguaje natural como lo hacen los humanos. Utiliza IA para tomar información del mundo real y procesarla de una manera que sea lo suficientemente sensible como para que la computadora la entienda.
Cosas técnicas detrás de la PNL
Implica cuatro pasos principales para el preprocesamiento de datos.
Tokenización: En este paso, el texto se divide en unidades más pequeñas para trabajar; por ejemplo, la oración se puede convertir en palabras.
Eliminación de palabras de parada:Las palabras más irrelevantes se eliminan del texto comoa, para y.
Lematización y derivación: Aquí es cuando las palabras se reducen a sus formas raíces para procesarlas. Por ejemplo, Cuidar devolvería Cuidado y trabajar devolvería Trabajo.
Etiquetado de parte del discurso:Aquí es cuando las palabras se marcan según la parte del discurso que pertenecen, como sustantivos, verbos y adjetivos.
Procesamiento natural del lenguaje : Ésta es la capacidad de los programas informáticos para comprender el lenguaje humano tal como es hablado y escrito. Es un componente de la IA.
Superficialmente, se trata de los pasos de preprocesamiento de datos. Ahora pasemos a la parte del algoritmo.
Utiliza principalmente dos algoritmos.
Sistema basado en reglas: Sigue reglas específicas basadas en el idioma.
Enfoque de aprendizaje automático : En este enfoque se utilizan métodos controlados estáticamente. Realizan tareas basadas en entrenamiento al igual que algunos algoritmos tradicionales de aprendizaje automático.
Ahora entendámoslo a través de un código para comprenderlo mejor.
Entonces, el objetivo del proyecto era resumir párrafos largos en un texto más pequeño y relevante.
Las bibliotecas tan importantes aquí son NLTK, text blob, spacy, sklearn y seaborn.
NLTK Fullform es un conjunto de herramientas de lenguaje natural que incorpora todas las reglas gramaticales generales para que la máquina comprenda. el contexto humano
Extraje el corpus usando el método de web scraping y luego limpié el texto usando algunas técnicas tradicionales.
Extraje el primer artículo neutral de Wikipedia y luego algunos artículos sobre los beneficios de los vehículos eléctricos. Extraje el artículo sobre las desventajas del vehículo eléctrico.
Estas son algunas de las formas en que limpié los datos.
Nombré el corpus de tres artículos como combine_corpus y eliminé espacios y algunos datos irrelevantes.
Luego importé el nltk. tokenizar para eliminar las palabras vacías
Luego importé la biblioteca spacy ya que proporciona el resultado en forma de objeto, mientras que se prefiere nltk para los valores de cadena.
Luego, con la ayuda de la biblioteca spacy y el bucle for, básicamente conté la frecuencia de las palabras y la agregué a la matriz de frecuencia de palabras.
A efectos de resumen, hemos tokenizado la frase de los documentos.
Y luego calculó la puntuación de la oración de acuerdo con la frecuencia de la oración a través de las palabras.
Hemos seleccionado el 30% superior de la oración en cuanto a frecuencia.
Nube de palabras I extraída de los artículos.
Ahora pasemos a los casos de uso de la PNL en la vida real.
Análisis del discurso: Tecnología que aprovecha la inteligencia artificial y el procesamiento del lenguaje natural (NLP) para procesar y analizar conversaciones de clientes a partir de datos de audio en vivo o grabados.17-nov-2021
chatbot : Estos chatbots impulsados por IA utilizan una rama de la IA llamada procesamiento del lenguaje natural (NLP) para brindar una mejor experiencia de usuario. A menudo denominados agentes virtuales o asistentes virtuales inteligentes.
Extracción de resumen: Utiliza técnicas avanzadas de PNL para la generación del lenguaje para comprender el contexto y generar el resumen.
Enlace para el mismo proyecto:
github.com
Procesamiento natural del lenguaje¿Por qué realmente necesitamos la PNL?Cosas técnicas detrás de la PNLTokenizaciónEliminación de palabras de parada:Lematización y derivación:Etiquetado de parte del discurso:Procesamiento natural del lenguajeSistema basado en reglasEnfoque de aprendizaje automáticoAnálisis del discursochatbotExtracción de resumen