גלה תאימות על ידי סימן גלגל המזלות
כלי התמלול האוטומטי הטובים ביותר לעיתונאים
טכנולוגיה וכלים

סירי רק בת שש. אלכסה רק בת שלוש. אם אנחנו יכולים לשאול מהטלפונים שלנו את מזג האוויר באלבקרקי ולכפות על גליל פלסטיק בחדרי המגורים שלנו לקרוא את הוושינגטון פוסט בקול רם, למה אנחנו עדיין מתמללים ראיונות ביד?
ובכן, מסתבר שאנחנו לא באמת חייבים. כלי תמלול אוטומטיים נמצאים בשוק כבר זמן מה, והם סוף סוף משתפרים. זה לוקח עכשיו רק כמה דקות, וכמה דולרים, להעלות אודיו או וידאו לאתר ולקבל תמליל די מקיף.
אבל, כמו כל הכלים, חלקם טובים יותר מאחרים. בדקנו (או ניסינו לבדוק - על כך בהמשך) שמונה מכלי התמלול הפופולריים ביותר המיועדים לעיתונאים, כולל הכתבת דרקון , סופר שמח , o תמלול , באופן שיא , לְהַאִיץ , סוניקס , טרינט ויוטיוב. הרצנו כל כלי דרך מגוון תרחישים בעולם האמיתי, תוך ניסויים כיצד כל אחד מהם הלך מול השימוש האופייני של עיתונאי.
אף על פי שאף אחד מהכלים לא היה מושלם, אחד מהם קבע את האחרים כטובים בקטגוריה.
הבחירה שלנו
שילוב של דיוק, תכונות וקלות שימוש הופכים את טרינט לבחירה הטובה ביותר לתמלול אוטומטי עבור עיתונאים. למרות שזה לא היה הכלי המדויק ביותר, העשיר ביותר בתכונות או הזול ביותר שניסינו, כלי עריכת התמלילים והיכולת שלו להשתלב בצורה קצת יותר חלקה בזרימת העבודה של עיתונאי עוזרים לו להתחרות במתחרים שלו. המשך לקרוא כדי לראות מדוע.
הניסוי
כפי שתראה, שיעורי הדיוק של הכלים הללו נמוכים. זה בגלל שניסינו ככל יכולתנו לבלבל אותם.
ראשית, כדי לשקף מגוון רחב של אנשים, קולות ומבטאים, הקלטנו את האודיו לדוגמה שלנו עם ארבעה משתתפים. הם כללו:
- אלקסיוס מנצרליס , סגל פוינטר ומנהל הרשת הבינלאומית לבדיקת עובדות, שמוצאו מרומא ותיאר את עצמו כבעל לשון ו'כמה מילים מצחיקות שמשלבות מבטא בריטי, איטלקי ואמריקאי מוזר'
- זרי פרחים מתוקים , מנהל תוכנית של הרשת הבינלאומית לבדיקת עובדות, שהגיע לפוינטר ממקסיקו סיטי בספטמבר
- קריסטן הייר , כתבת בפוינטר, שחושבת שהיא נשמעת 'קצת ילדת עמק' כשהיא מקשיבה לעצמה בהקלטות
- אני, ולמרות שקריסטן אמרה שיש לי 'מבטא באפלו', אני חושב שהנטייה שלי למלמל, לדבר מהר מדי ולדלג על חלקי מילים כנראה מאתגרת יותר עבור תמלול (הקלטת עצמך בציפייה לתמלול מובילה בבירור לקצת עצמי- הִשׁתַקְפוּת.)
קריסטן הצטרפה אלינו דרך Google Hangouts/YouTube Live ( גילוי נאות: מענק מ-Google News Lab מממן חלקית את עמדתי ), שרוב כלי התמלול האוטומטי מזהירים מפניו בגלוי. נראה שאודיו מטלפון או וידאו צ'אט קשה להם להתמודד באופן אוניברסלי.
כדי לענות את האלגוריתמים עוד יותר, קראנו גם קטעים בקצב הרבה יותר מהיר ממה שאנחנו מדברים בדרך כלל, דולסה ואלקסיוס דיברו מגוון שפות זרות (איטלקית, ספרדית, צרפתית ויוונית), השמענו כמה שיותר שמות עצם נכונים (Apalachicola). , מייקל אורסקס ואיי יוון שונים, אם להזכיר כמה), הפכו יצירתיים עם מילון עירוני (א. פורטמנטו של פול מנפורט ומילה גסה המתארת את מצבו המשפטי) ודיברו זה על זה בתדירות מסוימת.
הקלטנו את המבחן בן 14 הדקות שלנו באולפן הוובינר של פוינטר והופרענו על ידי צליל של לפחות מטוס רועש אחד מעל הראש (יש שדה תעופה כמה רחובות משם), רכב חירום וזעקת הטלפון של קריסטן.
הקלטנו את האודיו בשלוש דרכים:
- עם זום H4nPro מיקרופון כף יד, ממוקם בינינו
- עם ה-iPhone 6S Plus שלי, באמצעות אפליקציית Recordly להקלטה, ממוקם ליד הזום
- עם YouTube Live פרטי, וכך הצטרפה אלינו קריסטן
לאחר מכן העלנו את האודיו לכל כלי ועקבנו כמה זמן לקח לכל אחד מהם לתמלל. נרמלנו את התמלילים שהתקבלו באמצעות Microsoft Word, הסרנו חותמות זמן וידאנו ששמות הדוברים תואמים. בתור בקרה, תמללתי את האודיו בעצמי (באמצעות oTranscribe) ואז הקשבתי כמה פעמים כדי לבדוק את הדיוק המלא. ניסינו גם את Rev, שירות בתשלום שמשתמש במתמללים אנושיים ולא באלגוריתמים, כדי לראות איך זה מסתדר.
בדקנו מגוון כלים להשוואת מסמכים כדי לראות איזה עבד הכי טוב, והסתפקנו Copyscape כאופציה הכי קולית. השווינו את התמלילים שנוצרו על ידי הכלים והשירותים לתמלול הנכון ב-100 אחוז שיצרתי עם oTranscribe.
כמה הערות נוספות:
- השמע מה-Zoom הוכיח את עצמו כאיכות הטובה ביותר, אז השתמשנו בו לרוב הבדיקות שלנו. נראה כי אפליקציית Recordly אינה מקבלת אודיו שהוקלט ממקורות אחרים, כך שזה חריג אחד לתהליך זה. גם לא העלינו את האודיו של זום ליוטיוב, אלא הסתמכנו על האודיו מהקלטת YouTube Live. ההשוואה בין תפוחים ותפוזים הופכת את הניסוי הזה לפחות ממדעי אבל יותר בקנה אחד עם האופן שבו עיתונאים ישתמשו בכלים האלה בעולם האמיתי.
- למרות שזהו כלי פופולרי, לא יכולנו לבדוק את הדרקון הכתבה, מכיוון שהוא לא עובד ב-iOS 11. אנו נעדכן את הסקירה הזו כאשר ואם המפתח שלו יתקן את הבעיה הזו.
- לא פנינו לאף אחת מהחברות הללו לפני שבדקנו, כך שלא היה טיפול מיוחד או עיבוד אחורי של תמלילים. Trint, Sonix ו-Recordly מציעים דקות חינם מוגבלות למשתמשים חדשים, אז ניצלנו אותם לניסוי. השתמשנו בכרטיס אשראי של עמית שאינו כתב עבור Happy Scribe ולא הזכרנו את פוינטר מכיוון שהתכתבתי עם מייסדיו בעבר. ושילמנו מחיר מלא עבור התמלול האנושי של ר''ל. שירות הכתוביות של YouTube ו-oTranscribe תמיד בחינם.
- ישנם עוד הרבה הרבה כלי תמלול אוטומטיים שלא כללנו בסקירה זו. ניסינו להתמקד באלה שעיתונאים שאלו אותנו עליהם. אם אתה חושב שדילגנו על אחד באופן לא הוגן, הודע לנו ונעדכן את הביקורת.
איכות תמלול (זוכה: סופר שמח)
נראה שלאנשים המודאגים מהתקוממות הבינה המלאכותית יש לפחות עוד כמה שנים להתכונן, שכן שירות התמלול האנושי היחיד שבדקנו גבר על התמלולים האוטומטיים בפער גדול.
Rev זכה לדירוג דיוק של 82 אחוזים, כשהמתרגם האנושי לרוב לא מצליח לתפוס שפות זרות (שזה, למען ההגינות, שירות נפרד), כמה שמות עצם, קצת דיבורים, כמה מילות סלנג וגושים של מלמול. למרות שהכלים האחרים פספסו בעיקר את הדברים האלה, המתמללים האנושיים ב-Rev לפחות ציינו דברים כמו '[לא נשמע]' ו-'[הצלבה]' ו'[שפה זרה]', שהיו מצייני מיקום שימושיים לתיקונים מאוחרים יותר.
אפילו עם החלקים החסרים, תמליל ה-Rev קריא וקוהרנטי לחלוטין. אם לא היית בסביבה לשיחה הראשונית, תוכל להבין את עיקרו של מה שדיברנו עליו רק על ידי קריאתו.
התמלול הבא המדויק ביותר היה YouTube. אתר אירוח הסרטונים יצר אוטומטית כיתובים עבור הסרטון החי שלנו ביוטיוב שהיו מדויקים ב-72 אחוזים. אבל אפילו עם ירידה של 10 אחוז בלבד באיכות הכללית, התמלול פחות קריא משמעותית מזה של Rev מכיוון ש-YouTube אינו מספק פיסוק או פילוח של דוברים. הכיתובים קיימים כגוש טקסט מסיבי. בלי להתאים אותו לאודיו, זה יהיה כמעט בלתי אפשרי עבור מישהו שלא היה חלק מהשיחה להבין את השיחה שלנו.
יש עוד חסרונות להצעות של YouTube, אבל נדבר עליהם כשנגיע לתכונות.
Happy Scribe הוכיח את עצמו ככלי התמלול הייעודי הלא אנושי המדויק ביותר, עם דיוק של 62 אחוז בניסוי שלנו. הכלי מזהיר בדף ההעלאה שלו 'להימנע מרעשי רקע כבדים, 'להימנע ממבטאים כבדים', 'להימנע מראיונות סקייפ וטלפון' ו'לשמור את המיקרופון קרוב לרמקול', מכל אלה התעלמנו בצייתנות.
התמליל קרוב למדויק במקומות שבהם דיברתי, במיוחד כשלא היה דיבור צולב ולא השתמשתי בשמות עצם נכונים, אבל נאבקתי לא מעט בתמלול של דולסה, קריסטן ואלקסיוס. זה פרץ דוברים שונים לפסקאות חדשות במקומות מסוימים אך נכשל באחרים. התמליל הכולל משתנה בין קוהרנטי לחלוטין במקומות מסוימים לבין בלתי קוהרנטי בצורה מוזרה באחרים, כמו כאשר הוא תימלל את אלקסיוס אומר 'תן לי לפתוח את המילון העירוני ונוכל לעבור על כמה מהם' כמו 'כלומר שאפילו במילון העירוני בנות קרובות .'
טרינט הציעה תוצאות דומות, עם דיוק של 61 אחוזים. זה השתבש ברבים מאותם מקומות, גישש עם מבטאים, אודיו מיוטיוב וקטעים עם הצלבה או דיבור שקט. עם זאת, זה לא הועיל בדיוק באותם דרכים כמו Happy Scribe. המשפט של המילון העירוני מלמעלה הופיע כ'אני מתכוון שאפילו במילון העירוני אנחנו יכולים לעבור על אלה.'
בסך הכל, התמליל של Trint קל מעט יותר לקריאה משל Happy Scribe מכיוון שהוא עושה עבודה טובה יותר בהבדלה בין דוברים ולפרק אותם לפסקאות חדשות. זה לא מושלם, אבל זה מוסיף הרבה בהירות כאשר זה עובד.
Sonix הוכיח את עצמו כמדויק הבא ב-50 אחוז. Sonix עבד מעט טוב יותר מאשר Happy Scribe ו-Trint כאשר רמקול יחיד דיבר בקול רם. אבל כל כמות של דיבור צולב, רעשי רקע או אפילו צחוק - כל הדברים שסביר להניח שיופיעו בכל שימוש בעולם האמיתי בכלי - נראה בלבל אותו יותר מהאחרים. זה תפס את המשפט של המילון העירוני כ'לפתוח במילון העירוני ונוכל לעבור על כמה מהם.'
בדומה לכלים האחרים, Sonix ניסתה לחלק את הרמקולים לפסקאות שונות, אך נראה היה שהיא מעט גרועה יותר.
Recordly היה הכי פחות מדויק מבין כלי התמלול האוטומטיים, עם דיוק של 48 אחוזים. זה תפס את המשפט של המילון העירוני כ'תן לי לפתוח את המילון העירוני הזה ואנחנו יכולים. תעבור על כמה', וזה לא רע, אבל קטע הטקסט הזה לא מייצג את שאר התמליל. כמו YouTube, התמליל של רקורדלי הוא גוש טקסט אחד ענק. בניגוד ליוטיוב, הוא כן מוסיף סימני פיסוק, אם כי בתדירות נמוכה יותר ובדיוק נמוך יותר מהכלים האחרים.
התמליל של Recordly הוא הפחות מועיל מחוץ להקשר.
בסך הכל, התמליל הטוב ביותר הגיע מהיד שלי עם oTranscribe. לרב יצא התמליל הטוב ביותר שלא הייתי צריך לתמלל בעצמי. אבל זו סקירה של כלי תמלול אוטומטיים, ובקטגוריה הזו Happy Scribe רק בקושי הקצה את טרינט כדי לצאת בראש.
תכונות (זוכה: Sonix)
נראה כי כמה דברים הם סטנדרטים בתעשייה של כלי תמלול אוטומטי. היכולת להשמיע אודיו שהועלה היא מובן מאליו. כל הכלים מאפשרים למשתמשים לייצא תמלילים בפורמטים שונים.
הכלים מבוססי הדפדפן (כלומר כולם מלבד Recordly) מציעים גם חבילה משותפת. כולם מאפשרים למשתמשים ללחוץ על נקודות שונות בטקסט ולדלג ישירות לאותו חלק של ההקלטה. לכולם יש אפשרויות להשמיע אודיו במהירות איטית יותר (עם מקשי קיצור או על ידי התעסקות בהגדרות), לערוך תמלילים באופן ידני, להעלות וידאו בנוסף לאודיו ולאחסן תמלילים לשימוש מאוחר יותר.
Trint עובר צעד מעבר וכולל צורת גל חזותית של האודיו בתחתית התמליל שמשתמשים יכולים לדלג דרכו כרצונם. יש לו גם כלים מובנים למצוא ולהחליף, להדגיש או למחוק טקסט. משתמשים יכולים להוסיף רשימת דוברים לכלי ולצרף את שמם לכל פסקה. יש לו גם תכונה שימושית למייל תמליל בלחיצה אחת.
Sonix כולל את כל הכלים הללו (למעט צורת הגל האינטראקטיבית) ועוד כמה. המועילים ביותר הם 'צבעי ביטחון', המקצה צבעים שונים למילים שסוניקס פחות בטוח בהן; מדרג איכות שמע, שאומר לך עד כמה סוניקס בטוח לגבי התמלול שלה; וזיהוי דוברים אוטומטי, תכונת בטא שמנסה לזהות דוברים שונים ולהקצות להם מזהים.
בבדיקה שלנו, Sonix זיהתה רק שני רמקולים שונים, כך שהכלי הזה צריך קצת עבודה, אבל הוא עדיין מועיל מאוד.
Recordly, האפליקציה היחידה (ב-iOS בלבד) של החבורה, מציעה הכי מעט תכונות. זו פחות או יותר חוויה של שיא והמתנה. התמליל מועבר בפורמט דומה לאפליקציית ההערות המובנית של אפל, עם פונקציונליות עריכה מוגבלת. זה גם מאפשר למשתמשים לייצא את האודיו או הטקסט לאפליקציה אחרת.
למרות שתכונות חיפוש והחלפה וצורת גל של Trint מועילות בעת תיקון תמלילים, התכונות של Sonix מוסיפות שקיפות חיונית לתהליך התמלול. ולמרות שבטא זיהוי הרמקול אינה אמינה לחלוטין, זהו כלי שאפתני שאמור רק להשתפר מכאן.
תזמון (זוכה: סופר שמח, טרינט ו בצורה שיא)
כאן זורח התמלול האוטומטי. כל הכלים סיפקו תמליל בפחות דקות מאורך קובץ האודיו שהגשנו. ההבדל בין Happy Scribe (חמש דקות), Trint (שש דקות) ו-Recordly (שש דקות) היה זניח, אבל לסוניקס לקח קצת יותר זמן (11 דקות). (עדכון: נציג מ-Sonix הושיט יד ואמר שהמהירות שלו תואמת לכלים האחרים כאשר תכונת זיהוי הרמקול כבויה.) בסביבה אמיתית, זה יכול להיות הבדל מכריע, במיוחד עם תעתיקים ארוכים יותר.
יוטיוב הוא קצת תעלומה כאן. לתמלול זה, חלפו דקות ספורות עד שהכתוביות האוטומטיות הופיעו. בחוויות קודמות, גילינו שמשך הזמן שלוקח להופיע יכול להשתנות לא מעט. מכיוון ש-YouTube לא באמת נועד לשמש בדרך זו, אנחנו לא בטוחים כמה זמן זה בדרך כלל לוקח.
עברו כארבע שעות ו-15 דקות עד שהמתמללים האנושיים של ר''ל סיימו את התמלול שלהם. לקח בערך חצי מזה עד שעשיתי את זה בעצמי עם oTranscribe, אבל לא בלי כמה הפסקות, של Spotify מיקוד עמוק פלייליסט ושני ליטרים של קפה.
תמחור (זוכה: בצורה שיא)
אתה לא יכול לנצח בחינם (YouTube, oTranscribe), אבל כשזה מגיע לכלי התמלול האוטומטיים הייעודיים, העלות משתנה מאוד. כדי לקבוע את המחיר הטוב ביותר, עליך לשקול באיזו תדירות תשתמש בכלי.
Sonix היא היקרה ביותר, עם תוכנית בסיס שמתחילה ב-$15 לחודש פלוס 8$ לכל שעה של אודיו מתומלל. אבל הכלי מציע הנחה גדולה של 33 אחוז לתשלום שנתי במקום חודשי.
טרינט מציעה גם תוכניות החל מ-$15 לשעה עבור תמלול של העלאה לפי תשלום, או $40 לחודש עבור עד שלוש שעות של אודיו מתומלל. תמלילים נוספים עולים רק מצפון ל-$13 לשעה.
Happy Scribe עולה סכום קבוע של 10 סנט לדקה של אודיו שהועלה. עבור טיפוסים פחות בעלי נטייה למתמטיקה, זה 6 דולר לשעה.
במחיר זעום של 2$ לשעה, כשהשעה הראשונה בחינם, Recordly היא ללא ספק אפשרות התמלול האוטומטי הזולה ביותר.
באופן לא מפתיע, המתמללים האנושיים ב-Rev עולים יותר מהכלים האחרים. הקליפ שלנו בן 13 דקות עלה 14 דולר לתמלול, ושילמנו 3.50 דולר יותר עבור חותמות זמן. ובכל זאת, העלות היחסית הזולה לשעות העבודה הכרוכות בכך גורמת לנו לתהות היכן נמצאים המתמללים של ר' בעולם ועד כמה הם מקבלים פיצוי.
קלות שימוש (הזוכה: טרינט)
אף אחד מהכלים האלה לא קשה לשימוש. אתה מעלה קובץ לכל אחד מהם (או מקליט איתו אודיו, במקרה של רקורדלי) וכעבור זמן מה, הוא שולח לך קישור לתמליל הניתן לעריכה.
טרינט עושה צעד גדול מעבר להעלאות קבצים ומקבלת אודיו או וידאו ממגוון מקורות, כולל Dropbox, Google Drive ו-FTP, ואף מאפשרת למשתמשים פשוט להזין קישור. זה ייחודי מבין הכלים שבדקנו. טרינט שואל גם כמה שאלות מועילות על רעשי רקע, הצלבה ועוד לפני תחילת ההעלאה. זה לא יתקן הקלטה אבל הוא קרינת UX מועילה שמלמדת את המשתמשים כיצד להקליט אודיו שניתן לתמלול יותר בעתיד.
Happy Scribe, Rev, Sonix ו-Trint שולחים כולם מיילים כשהתמלול מוכן, כך שאין צורך לשבת ולבהות במסך.
בשורה התחתונה
זה לא הכי זול, וגם לא אפשרות התמלול הכוללת המדויקת ביותר שקיימת, אבל טרינט צייר ניצחון בתור הכלי הטוב ביותר מבין אלה שבדקנו.
החברה, בת קצת יותר משנה וקיבלה מימון מקרן נייט (ויתור: גם פוינטר מקבל מימון מאביר) ויוזמת החדשות הדיגיטליות של גוגל, מציעה את השילוב הכולל הטוב ביותר של פונקציונליות, דיוק וקלות שימוש.
רק תכונת הכתוביות האוטומטית של יוטיוב, שזכתה לשיעור דיוק של 72 אחוז, הצליחה בצורה משמעותית יותר מ-Trint בתמלול בהובלת אלגוריתם. אבל YouTube לא מיועד לסוג התמלול שעיתונאים צריכים ביום יום ואינו מציע שום סוג של פונקציונליות עריכה.
למרות שהסטארט-אפ הצעיר Happy Scribe הצליח מעט טוב יותר במבחני הדיוק שלנו עם שיעור של 62 אחוזים, ומגיע בערך בשליש מהמחיר של טרינט, חסרים לו הרבה מהתכונות הנוספות שהופכות את טרינט לשימושי. היכולת להעלות ממקורות רבים, למצוא ולהחליף טקסט וזיהוי דובר הם כלי עבודה קטנים אך חשובים. אם אתה רק מחפש תמלול מהיר ומלוכלך, Happy Scribe עשויה להיות הדרך ללכת.
ולמרות שזה נכון ש-61 האחוזים שלו רחוקים מלהיות מושלמים, הבדיקות שלנו היו קצת יותר קשות מרוב השימושים בעולם האמיתי.
בדקנו גם את Rev, שירות תרגום אנושי, ואת oTranscribe, המציע כלים שימושיים לעיתונאים לתמלל אודיו בעצמם. במחיר של $1 לדקה של תמלול אודיו, מצאנו ש-Rev יקר מדי עבור העיתונאי הממוצע להשתמש בו על בסיס קבוע. ולמרות ש-oTranscribe היה שימושי, זה לא פותר את השיגעון והזמן של התמלול.
עם שימושים טיפוסיים בחשבון, טרינט הוא כלי התמלול האוטומטי הטוב ביותר עבור עיתונאים.
תיקון: דיווחנו בעבר שסוניקס לא הַצָעָה למצוא ולהחליף את הכלי, אבל זה באמת עושה את זה. אנו מתנצלים על החמצה.
למד עוד על כלי עיתונות עם נסה זאת! - כלים לעיתונאות. נסה את זה! מופעל על ידי Google News Lab . זה גם נתמך על ידי מכון העיתונות האמריקאי וה קרן ג'ון ס. וג'יימס ל. נייט