Skip to content

Introducción de D-Lab al PLN en Python. Aprenda a preprocesar datos de texto, aplicar métodos de bolsa de palabras, interactuar con incrustaciones de palabras y más con Python.

License

Notifications You must be signed in to change notification settings

anmerinoto/Python-NLP-Fundamentals

 
 

Repository files navigation

Taller de fundamentos de PNL de D-Lab Python

Datahub Binder License: CC BY 4.0

Este repositorio contiene los materiales para D-Lab Python NLP Fundamentals taller.

Prerequisitos

  • Recomendamos asistir a Fundamentos de Python, Organización de datos de Python y
  • Fundamentos de Python Machine Learning antes de este taller.

Consulte el [Catálogo de talleres] (https://dlab-berkeley.github.io/dlab-workshops/) de D-Lab para explorar todos los talleres, ver lo que se está ejecutando ahora y revisar los requisitos previos.

Objetivos del taller

Este taller de 3 partes preparará a los participantes para avanzar con la investigación utilizando el procesamiento del lenguaje natural (NL), con un enfoque especial en las aplicaciones de las ciencias sociales. Exploramos enfoques fundamentales para aplicar métodos computacionales al texto en Python. Cubrimos algunos de los principales paquetes utilizados en NLP, incluidos scikit-learn, NLTK, spaCy y Gensim.

  1. Parte 1: Preprocesamiento. ¿Cómo estandarizamos y limpiamos el texto? ¿Documentos? Los datos de texto son ruidosos y, a menudo, necesitamos desarrollar una canalización en Con el fin de estandarizar los datos para facilitar mejor el modelado computacional. Aprenderá operaciones de preprocesamiento comunes y específicas de la tarea, familiarizarse con los paquetes de NLP de uso común y de lo que son capaces. También aprenderá sobre tokenizadores, y cómo han cambiado desde el advenimiento de los grandes modelos de lenguaje.
  2. Parte 2: Bolsa de palabras. Para realizar cualquier análisis computacional de datos de texto, necesitamos idear enfoques para convertir el texto en un representación numérica. Aprenderá cómo convertir datos de texto en una matriz de frecuencia y cómo TF-IDF complementa la representación de la bolsa de palabras. También aprenderá sobre la configuración de parámetros de un vectorizador y aplicará la clasificación de opiniones a los datos de texto vectorizados.
  3. Parte 3: Incrustaciones de palabras. Las incrustaciones de palabras sustentan casi todos los modelos de lenguaje modernos. En este taller, aprenderás las diferencias entre una representación de bolsa de palabras e incrustaciones de palabras. Se le presentará el cálculo de la similitud del coseno entre palabras y aprenderá cómo Las incrustaciones de palabras pueden sufrir sesgos.

Los materiales para esta serie de talleres están diseñados para complementarse unos con otros. La Parte 2 asume familiaridad con el contenido de la Parte 1, y la Parte 3 requiere de manera similar la comprensión de las dos partes anteriores.

Instrucciones de instalación

Anaconda es un útil software de gestión de paquetes que permite ejecutar Python y cuadernos Jupyter fácilmente. Instalar Anaconda es la forma más fácil de hacer Seguro que tienes todo el software necesario para ejecutar los materiales para este taller. Si desea ejecutar Python en su propia computadora, complete lo siguiente Pasos previos al taller:

  1. Descargue e instale Anaconda (Python 3.9 distribución). Haga clic en el icono Botón "Descargar".

  2. Descargue el [taller] Análisis de texto de Python materiales](https://github.com/dlab-berkeley/Python-Text-Analysis):

  • Haga clic en el botón verde "Código" en la parte superior derecha del repositorio información.
  • Haga clic en "Descargar Zip".
  • Extraiga este archivo a una carpeta en su computadora donde pueda fácilmente acceder a él (recomendamos Escritorio).
  1. Opcional: si estás familiarizado con 'git', puedes clonarlo repositorio abriendo una terminal e ingresando el comando 'git clone git@github.com:dlab-berkeley/Python-Text-Analysis.git'.

¿Python no funciona en su computadora portátil?

Si no tiene Anaconda instalada y los materiales cargados en su taller para cuando comience, recomendamos encarecidamente usar el centro de datos de D-Lab para Ejecute los materiales para estas lecciones. Para acceder al DataHub, haga clic en el botón siguiente botón:

Datahub

El DataHub descarga este repositorio, junto con los paquetes necesarios, y le permite ejecutar los materiales en un cuaderno de Jupyter que se almacena en UC Los servidores de Berkeley. No es necesaria ninguna instalación por su parte, solo necesita un navegador de Internet y una identificación de CalNet para iniciar sesión. Al usar DataHub, puede Guarde su trabajo y vuelva a él en cualquier momento. Cuando quieras volver a tu trabajo guardado, simplemente vaya directamente a [DataHub] (https://datahub.berkeley.edu), firme y haga clic en la carpeta 'Python-Text-Analysis'.

Si no tiene una identificación de Berkeley CalNet, aún puede ejecutar estas lecciones en el cloud, haciendo clic en este botón:

Binder

Binder funciona de manera similar al D-Lab DataHub, pero en un conjunto diferente de Servidores. Sin embargo, al usar Binder, no puede guardar su trabajo.

Ejecutar el código

Ahora que tiene todo el software y los materiales necesarios, debe ejecutar el código.

  1. Abra la aplicación Anaconda Navigator. Deberías ver el logotipo de la serpiente verde en tu pantalla. Tenga en cuenta que esto puede tardar unos minutos en cargar el archivo primera vez.

  2. Haga clic en el botón "Iniciar" debajo de "JupyterLab" y navegue por su archivo sistema en el panel izquierdo a la carpeta 'Python-Text-Analysis' Descargado arriba. Tenga en cuenta que, si descarga los materiales de GitHub, el el nombre de la carpeta puede ser 'Python-Text-Analysis-main'.

  3. Vaya a la carpeta 'lecciones' y busque el cuaderno correspondiente a la taller al que asiste.

  4. Presione Mayús + Entrar (o Ctrl + Entrar) para ejecutar una celda.

  5. Deberá instalar paquetes adicionales según el taller que están asistiendo. Los comandos de instalación se realizan en los cuadernos, ya que Continúe con cada parte del taller.

Tenga en cuenta que todos los pasos anteriores se pueden ejecutar desde la terminal, si está familiarizado con cómo interactuar con Anaconda de esa manera. Sin embargo, el uso de Anaconda Navigator es la forma más fácil de comenzar si es tu primera vez trabajando con Anaconda.

Recursos adicionales

Acerca del D-Lab de UC Berkeley

D-Lab trabaja con profesores, personal de investigación y estudiantes de Berkeley para avanzar Investigación intensiva en ciencias sociales y humanidades con uso intensivo de datos. Nuestro objetivo en D-Lab es proporcionar capacitación práctica, apoyo del personal, recursos y espacio para permitirle use R para sus propias aplicaciones de investigación. Nuestros servicios se adaptan a todos los niveles de habilidad y no se necesitan antecedentes en programación, estadística o informática. Ofrecemos estos servicios en forma de talleres, consultoría personalizada y grupos de trabajo que cubren una variedad de temas de investigación, herramientas digitales y lenguajes de programación.

Visite la página de inicio de D-Lab para obtener más información sobre nosotros. Puede ver nuestro calendario para próximos eventos, aprenda cómo utilizar nuestros consultoría y datos servicios, y echa un vistazo a los próximos talleres. Suscríbete a nuestro newsletter para mantenerse al día fecha en eventos, servicios y oportunidades de D-Lab.

Otros talleres de D-Lab Python

D-Lab ofrece una variedad de talleres de Python, dirigidos a diferentes niveles de pericia.

Talleres introductorios

Talleres intermedios y avanzados

Colaboradores

Estos materiales han evolucionado a lo largo de varios años. Se desarrollaron por primera vez por Laura Nelson y Teddy Roland, con contribuciones y revisiones realizadas por Ben Gebre-Medhin, Geoff Bacon y Caroline Le Pennec-Caldichoury y Pratik Sachdeva. Fueron renovados por Mingyu Yuan en el verano de 2024.

About

Introducción de D-Lab al PLN en Python. Aprenda a preprocesar datos de texto, aplicar métodos de bolsa de palabras, interactuar con incrustaciones de palabras y más con Python.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Jupyter Notebook 92.8%
  • PowerShell 3.5%
  • Python 2.0%
  • Roff 1.5%
  • Batchfile 0.2%