Was gefällt Ihnen nicht? Descript?
Nach drei Jahren wiederholter Beschwerden und Anfragen nach Verbesserungen geht Descripts KI-Engine immer noch mit denselben Arten von Phrasen "auf Abwege". Dies ist nicht einzigartig für Descript. Ich habe es auch bei anderen Produkten gesehen, und sie alle haben eine ähnliche Antwort, dass das LLM-Modell immer "lernt" oder "versucht zu lernen", um das Ergebnis zu verbessern, und es keine Möglichkeit gibt, die spezifischen Probleme, über die ich mich beschwert habe, zu kontrollieren und der KI-Engine beizubringen, genau das zu tippen, was sie hört. Aber ich kaufe es nicht. Andere Antworten haben wiederholt angedeutet, dass weniger klare Audioqualität schuld sei, was *nie* der Fall war.
Was zu meinem Unmut über dieses Verhalten beiträgt, ist, dass es nicht 100% der Zeit passiert, aber mindestens 50% der Zeit, und diese besonderen Probleme sind Muster, die nicht mit Makros oder anderen redaktionellen Bereinigungsautomatisierungen überwunden werden können, weil man nicht weiß, welche falsch sind, bis man das Audio hört. Es verlangsamt den Korrekturprozess zum Audio erheblich, diese Probleme zu korrigieren, die keine "Hörfehler" sind, sondern eigenmächtige KI-Entscheidungen.
In keiner bestimmten Reihenfolge der Wichtigkeit:
"OF" MIT DATEN:
Gesprochen: "1. Januar 2021" oder "1. Januar 2021"
Manchmal transkribiert: "1. Januar, 2021" oder "1. Januar, 2021"
ORDINALZAHLEN HINZUGEFÜGT ODER ENTFERNT:
Gesprochen: "1. Januar, 2021"
Manchmal transkribiert: "1. Januar 2021"
Gesprochen: "1. Januar 201"
Manchmal transkribiert: "1. Januar, 2021"
KONTRAKTIONEN:
Gesprochen: "Ich habe keine Antwort gehört."
Manchmal transkribiert: "Ich habe nicht gehört, eine Antwort."
Gesprochen: "Ich habe nicht gehört, eine Antwort."
Manchmal transkribiert: "Ich habe keine Antwort gehört."
Ich habe kürzlich eine andere KI-Engine entdeckt, die diese Arten von Phrasen mit 100% Genauigkeit transkribiert hat, mit demselben Audio, das durch Descript mit einer Fehlerquote von 50% oder mehr gelaufen war. Es ist also sicherlich möglich, die KI-Engine so anzupassen, dass sie genau das transkribiert, was gesprochen wird, und nicht das, was sie für besser hält.
Ein weiteres Problem, das ich habe, ist die begrenzte Nützlichkeit der Transkriptions-Glossar-Funktion. Sie erlaubt es nicht, Zahlen zu verwenden, um anzufangen. In meiner Arbeit bekomme ich viele der gleichen Wörter oder Phrasen, die Zahlen enthalten, wie Regel 404(b), die Descripts als 4 0 4 B oder 4 0 4 b transkribiert. Es scheint auch willkürlich zu sein, wie es Wörter und Phrasen im Glossar interpretiert und anwendet, sie manchmal anwendet und sie andere Male ignoriert, wenn klar ist, dass es das hätte tun sollen. Zum Beispiel, wenn ich weiß, dass das Audio viele Verweise auf "Joann" enthalten wird, und ich das dem Glossar hinzufüge, könnte ich 15 Instanzen von "Joann" zusammen mit mehreren Instanzen von "Jo Ann" und "Jo Anne" bekommen.
Der große Anreiz, der mich an Descript bindet, ist die Fähigkeit, doppelte Wörter zu entfernen. Es entfernt nie alle, aber es entfernt genug, um die Zeit, die benötigt wird, um sie während der Korrektur zu entfernen, erheblich zu reduzieren. Dies ist nicht etwas, das leicht automatisiert werden kann, also gebe ich diesem Feature weiterhin mehr Gewicht, als ich wahrscheinlich sollte. Im Fall der anderen KI-Engine, die ich auch benutze, ist der Anreiz dort das unbegrenzte Upload-Stunden-pro-Monat-Feature, was signifikant ist (Descripts Abonnementmodell ist auf 30 Stunden pro Monat begrenzt). Aber ich bin ständig auf der Suche nach einer KI-Engine, die alle Kriterien für Transkriptionsgenauigkeit, Benutzerfreundlichkeit, Gesamtkosten und das Entfernen von Wiederholungswörtern erfüllt. Bewertung gesammelt von und auf G2.com gehostet.