I have been fine-tuning whisper on JASMIN CGN which is a Dutch dataset. I have preprocessed it locally. The original encoding for the sentences there is latin_1, but I made sure to convert each one of them to utf_8.v Then I followed the steps in that HF tutorial for Whisper fine-tuning, and this is the output I get (I use jiwer to get side-by-side sentence comparisons):
sentence 80
REF: \*\*\*\* maar voor de idianen was het niet zo voor hun moest een jongend een goede jager en krijger worden end een meisje moet goed kunnen koken en dat leerden ze niet op school de vader de grootvaders en de ooms vertelden de kleine jongens alles ik kan \*\*\* niet de oorlog ze toonden hem hoe je een spoor van de dier volgt end hoe je een boog opspant
HYP: �ien maar voor de idianen was het niet zo voor hen moest een jongent een goede jager en krijger worden en een meisje moet goed kunnen koken en dat leerden ze niet op school de vader de grootvaders en de ooms vertelden de kleine jongens alles ik kan het niet de oorlog ze toonden hem hoe je het spoor van de dier volgt en toe je een boog opspant
sentence 76
REF: \* pakketten zijn uh in verschillende soorten en maten je kunt zo allerlei dingen gebruiken je kunt ze voor allerlei dingen gebruiken een een gemeente is uh een stad of een dorp of een paar klein dorpen samen ambtenaren van de gemeente cuntroleren of alle kinderen naar school gaan de gemeente houdt de stad schoon en zorgt v voor goede uhm straten en fietspaden ook zorgt de gemeente voor de bomen en de parken het is ook belangrijk dat de v
HYP: � pakketten zijn ã©ã©n \*\* verschillende soorten en maten je kunt ze allerlei dingen gebruiken je kunt ze voor allerlei dingen gebruiken een een gemeente is uh een stad of een dorp of een paar klein dorpen samen ambtenaren van de gemeente controleren of alle kinderen naar school gaan de gemeente houdt de stad schoon en zorgt v voor goede uhm straten en fietspaden ook zorgt de gemeente voor de bomen en de parken het is ook belangrijk dat de v
Does anyone know what the "?" is? I checked my test file with the whisper model without training it and I don't get any question marks there so I think there is something up with the training.
Thanks for your help. :)
I have finally figured out when the replacement character is there. During the evaluation pipeline we can specify the language of the model. When you specify that "language":"<|nl|>", there is no longer the replacement character! That way the whisper processor knows the language and doesn’t get confused by the utf8 codes that it doesn’t have in English. (At least that’s what I think)