Dia: Nowy król generowanej mowy? Otwarty model Nari Labs zadziwia jakością

Czy sztuczna inteligencja może brzmieć jak człowiek? Najnowsze narzędzie od Nari Labs – niewielkiego startupu stworzonego przez dwóch inżynierów – pokazuje, że jak najbardziej. Dia to model generowania mowy (TTS – Text to Speech), który według twórców nie tylko dorównuje, ale nawet przewyższa jakością płatne rozwiązania od gigantów takich jak ElevenLabs czy Google (NotebookLM).

Mały zespół, wielkie ambicje

Co ciekawe, cały projekt powstał bez żadnego finansowania. Jego twórcy – Toby Kim i jego partner – zaczęli eksperymentować z TTS po tym, jak zakochali się w funkcji podcastowej Google NotebookLM. Szybko odkryli jednak, że żadna z dostępnych technologii nie pozwalała na realistyczne prowadzenie dialogu. Tak powstała Dia – w pełni open-source’owy model z 1.6 miliarda parametrów.

Co potrafi Dia?

Obsługuje tagi emocjonalne i niewerbalne zachowania jak (laughs), (coughs), (clears throat)
Pozwala na oznaczanie mówców (np. [S1], [S2]) dla wygodnego tworzenia dialogów
Umożliwia klonowanie głosu z próbek dźwiękowych (audio prompts)
Działa lokalnie, z wykorzystaniem otwartego kodu (licencja Apache 2.0)

Porównania i przykłady

Na stronie demo oraz profilu Nari Labs dostępne są dziesiątki porównań: Dia vs ElevenLabs vs Sesame CSM-1B.

W testach Dia:

poprawnie interpretuje tagi niewerbalne (konkurencja zwykle ignoruje je lub zamienia na „haha”)
brzmi bardziej naturalnie w scenach emocjonalnych (np. alarm pożarowy)
lepiej radzi sobie z rytmicznym tekstem (np. rapem)
umożliwia kontynuację głosu z próbki (tzw. audio continuation)

Dla kogo?

Dia ma ogromny potencjał w produkcji filmów, podcastów, gier, syntezatorów mowy i narzędzi wspomagających komunikację. Z racji otwartej licencji, może też stanowić atrakcyjną alternatywę dla start-upów czy twórców indie, którzy nie mogą pozwolić sobie na drogie subskrypcje.

Wymagania techniczne

Model działa na frameworku PyTorch 2.0+, z obsługą CUDA 12.6. Do płynnego działania potrzebuje GPU z co najmniej 10 GB VRAM (np. NVIDIA A4000). Planowana jest wersja zoptymalizowana pod CPU oraz wersja quantized.

Etos otwartości i odpowiedzialności

Nari Labs mocno akcentuje etyczne wykorzystanie modelu. Zabronione są: deepfake’i, podszywanie się pod inne osoby, dezinformacja czy treści nielegalne. Twórcy zachęcają do współpracy poprzez Discorda i GitHuba.

Podsumowanie

Dia to narzędzie, które pokazuje, jak ogromny potencjał drzemie w społeczności open-source. Dwa lata temu byłoby nie do pomyślenia, by dwuosobowy zespół stworzył model lepszy od Google czy ElevenLabs. Dziś – to rzeczywistość.

Dia to kolejny krok w stronę demokratyzacji sztucznej inteligencji – i dowód na to, że prawdziwa innowacja nie zawsze wymaga wielomilionowego budżetu.

🔗 Demo i porównanie | oryginalna strona projektu

Autor: Redakcja KinoAI.pl