Whisper AI - Transcripción de audio a texto

Según sus creadores, Whisper es un sistema de reconocimiento automático del habla (ASR) entrenado a partir de 680.000 horas de datos multilingües supervisados recogidos de la web, teniendo en cuenta los acentos, el ruido de fondo y el lenguaje técnico de los registros sonoros. Además, permite la transcripción en varios idiomas, así como el libre acceso a los modelos y el código para que sirvan de base a la creación de aplicaciones útiles y a nuevas investigaciones sobre el procesamiento robusto del habla. (OpenAI, 2022)

Tutorial paso a paso

1. Abrir un Google Colab (Google Drive)

Ir a Google Drive – Nuevo – Más – Google Colaboratory. Si no aparece, dar click en Conectar más aplicaciones, buscarla e instalarla.

2. Conectar el Google Colab a la memoria de Drive

Para que el código de Whisper corra en Google Colab, es importante conectar la interfaz con el alojamiento de los datos, que será Google Drive. Para esto, en la parte superior derecha, darán click al botón que dice conectar. Les deben aparecer las palabras «RAM» y «Disco» junto con dos visualizaciones rectangulares y un check verde.

3. Empezar a escribir el código: Cargar WhisperAI

Debajo de su barra superior van a encontrar dos opciones «+ código» y «+ texto». Con la herramienta de texto pueden incluir oraciones que les indiquen las etapas de su procesamiento. Vamos a hacer la primera y le darán el texto «Cargar WhisperAI». Justo después de ese texto, van a crear una línea de código con «+ código». En ella, copiarán la siguiente línea:

! pip install git+https://github.com/openai/whisper.git

Una vez inserten esa línea de código, activarán el botón de play que se encuentra en el lado izquierdo de esta. Deben esperar a que corra y les aparezca un check verde al lado. Esto lo que hará es cargar todos los datos de WhisperAI para el reconocimiento de las palabras.

Una vez hagan esto, debemos correr un segundo código, que es la actualización del sistema. Pegarán el siguiente código y harán lo mismo:

! sudo apt update && sudo apt install ffmpeg

3. Escribir el código: Cargar el modelo de IA

Ya tenemos la base de datos de Whisper, ahora debemos cargar el modelo de Inteligencia Artificial que procesará nuestro archivo. Para eso escribiremos un nuevo texto (+ texto) que diga «Ejecutar el modelo»

Después de este texto, escribiremos una nueva línea de código (+ código):

4. Definir el modelo

En este espacio es donde definiremos dos elementos: qué modelo vamos a usar y qué archivo de audio queremos que sea transcrito.

Whisper cuenta con tres modelos: «small», «medium» y «large». ¿Cuál usar? Depende. Los modelos se deciden según la cantidad de tiempo que tengamos y la pulidez o exactitud que deseamos. Así, si necesitamos procesar un audio rápidamente, así salga con un par de errores, utilizaremos «small»; mientras que si necesitamos una transcripción lo más fiel posible al audio, aunque se demore más, usaremos «large». En este caso, utilizaremos small, como ya está en la línea de código.

import whisper

model = whisper.load_model("small")
result = model.transcribe("")

5. Cargar mi archivo de audio

Para cargar mi archivo de audio en el modelo de IA es importante, primero, importarlo a mi Google Colab. 

En la parte lateral izquierda encontrarán un menú de íconos. Darán click en la carpeta de Archivos y se abrirá una ventana. Desde su computador, arrastrarán su archivo de audio, el cual se cargará en esa ventana y aparecerá abajo de «sample_data». Es posible que aparezca una ventana emergente, le darán aceptar y cargará su archivo.

En su última línea de código hasta el momento, deberán decirle al modelo de dónde agarrar su archivo. Para esto, darán click derecho sobre el archivo de la ventana lateral y seleccionarán «Copiar ruta de acceso».

 

La ruta de acceso que acaban de copiar la deben pegar en model.transcribe(«»), justo entre las comillas. Debe ser parecida a esta, pero con el nombre de su archivo: 

import whisper

model = whisper.load_model("small")
result = model.transcribe("/content/EB_paronacional.mp3")

De nuevo, cargarán el botón de play hasta que salga el check verde. Esto tardará según la extensión de su archivo. En un modelo small, para una grabación de 40 minutos, la IA tardo 28 minutos en transcribirlo.

6. Transcribir

Ya tienen todo listo para transcribir. Ahora, solo falta decirle a Python que exporte la grabación. Para eso insertarán la última línea de código:

Cargarán el botón de play y les aparecerá la transcripción.