Whisper имат читави модели с различни размери, от 77MB - ggml-tiny, до 3.1 GB - ggml-large. Можеш да пробваш с ggml-small - 488MB, ако имаш повечко място ggml-medium 1.53 GB.
Георги Герганов има проект whisper.cpp от който можеш да си го пуснеш:
https://github.com/ggerganov/whisper.cpp
От тук можеш да си свалиш моделите:
https://huggingface.co/ggerganov/whisper.cpp/tree/main
https://github.com/ggerganov/whisper.cpp/blob/master/models/README.md
Преди време си бях написал един прост скрипт, който почва да преобразува към текст без да го интересува формата на файла (щото модела иска wav файлове):
https://gist.github.com/PaperNick/3a6fe78662ea7a1c7cc5c573db348ac1
Така, за по-просто и за опит, инсталирах първо whisper.
Дръпна една камара библиотеки в процеса.
При първата проба с десет минутно аудио, само̀ си дръпна модела, който му бях посочил, което е дребно и хубаво удобство - medium. Гигабайт и половина.
Но не се получи почти нищо. Имаше някакъв обещаващ старт, но… По някое време целия дисплей замръзва, а аз нищо не мога да направя. Графичната карта е на сто процента натоварена и може би целия ресурс отива за изпълнението на задачката ( което ми хрумна като възможна причина едва сега, докато пиша това ).
Пробвах след това през tty.
Същата работа. Конзолата замръзва и до там. Дали работи нещо отдолу, нямам представа. Никакви странични съобщения.
Графичната ми карта е едва с 6 гига памет, а този модел изисква 5. Би трябвало да стане. На теория.
Опитът със small модел свърши работа в tty. Не съм го пробвал с терминал в графичната среда.
Смахнатото е, че имам 32 гига RAM на лаптопа, която изглежда не учавстваше много. Видях, че май може да се зададе устройство, което да се използва ( например CPU ), но още не съм пробвал. Сигурно ще стане и по-бавно така. Но тази памет поне би влязла в употреба.
Small моделът свърши учудващо добра работа, предвид че в речта на моменти бяха изяждани или сдъвкани звуци - английски акцент. Ползвах аудио, рипнато от видео в Тубата.
Пробвах първо оригиналния whisper, защото изобщо не съм се занимавал до този момент с ИИ.
Видях, че има различни файлови разширения за моделите.
С++ версията на @ggerganov изцяло на този език ли е, ще върви ли по-леко, в същата папка ли трябва да поставя дръпнатите модели ( ~/.cache/whisper ), ако реша да пробвам и това. Защото сигурно ще го направя. Човека е дал достатъчно инструкции, как се инсталира.
Защото искам да пробвам и medium, а защо не и големия модел, ако ми позволи да използвам наличната памет, а не само видео паметта. Тя е недостатъчна за големия модел, а и със средния не се получава засега. Да видя, каква е разликата в точността на текста.
Изглежда си си играл с whisperC++?, а не изключвам и да си самият @ggerganov, но поради някаква причина да говориш за себе с в трето лице