¿Qué es lo que no te gusta de Descript?
Después de tres años de quejas repetidas y solicitudes de mejora, el motor de IA de Descript todavía "se descontrola" con los mismos tipos de frases. Esto no es único de Descript. Lo he visto con otros productos también, y todos tienen una respuesta similar, que el modelo LLM siempre está "aprendiendo" o "tratando de aprender" para mejorar el resultado, y no hay forma de controlar los problemas específicos de los que me he quejado y "enseñar" al motor de IA a escribir exactamente lo que escucha. Pero no me lo creo. Otras respuestas han sugerido repetidamente que el audio menos claro es el culpable, lo cual *nunca* ha sido el caso.
Lo que aumenta mi angustia sobre este comportamiento es que no ocurre el 100% del tiempo, pero al menos el 50% del tiempo, y estos problemas particulares son patrones que no se pueden superar con macros u otra automatización de limpieza editorial porque no sabes cuáles son incorrectos hasta que escuchas el audio. Ralentiza enormemente el proceso de revisión al audio tener que corregir estos problemas que no son "errores de escucha" sino decisiones descontroladas de la IA.
En ningún orden particular de importancia:
"DE" CON FECHAS:
Hablado: "1 de enero de 2021" o "1 de enero de 2021"
A veces transcrito: "1 de enero, 2021" o "1 de enero, 2021"
ORDINALES AÑADIDOS O ELIMINADOS:
Hablado: "1 de enero de 2021"
A veces transcrito: "1 de enero, 2021"
Hablado: "1 de enero de 201"
A veces transcrito: "1 de enero de 2021"
CONTRACCIONES:
Hablado: "No he recibido una respuesta."
A veces transcrito: "No he recibido una respuesta."
Hablado: "No he recibido una respuesta."
A veces transcrito: "No he recibido una respuesta."
Recientemente he descubierto otro motor de IA que transcribió estos tipos de frases con un 100% de precisión, usando el mismo audio que había pasado por Descript con un 50% o más de tasa de error. Así que ciertamente ES posible ajustar el motor de IA para transcribir exactamente lo que se dice y no lo que cree que es mejor.
Otro problema que tengo es la utilidad limitada de la función de Glosario de Transcripción. No permite el uso de números, para empezar. En mi trabajo, recibo muchas de las mismas palabras o frases que incluyen números, como la Regla 404(b), que Descript transcribe como 4 0 4 B o 4 0 4 b. También parece arbitrario en cómo interpreta y aplica palabras y frases en el glosario, aplicándolas algunas veces e ignorándolas otras veces cuando está claro que debería haberlo hecho. Por ejemplo, si sé que el audio incluirá muchas referencias a "Joann", y lo agrego al glosario, podría obtener 15 instancias de "Joann" junto con varias instancias de "Jo Ann" y "Jo Anne".
La gran ventaja que me mantiene atado a Descript es la capacidad de eliminar palabras duplicadas. Nunca elimina todas, pero elimina suficientes para reducir en gran medida el tiempo necesario para eliminarlas durante la revisión. Esto no es algo que se pueda automatizar fácilmente, así que continúo dando más peso a esta característica de lo que probablemente debería. En el caso del otro motor de IA que también uso, la ventaja en ese es la función de horas de carga ilimitadas por mes, lo cual es significativo (el modelo de suscripción de Descript está limitado a 30 horas por mes). Pero estoy continuamente en busca de un motor de IA que cumpla con todos los requisitos de precisión de transcripción, facilidad de uso, costo general y eliminación de palabras repetidas. Reseña recopilada por y alojada en G2.com.