Açık Kaynak Tabanlı Yeni Sesli Okuma Modeli Dia, ElevenLabs ve OpenAI'ye Rakip Oluyor

İki kişilik bir girişim olan Nari Labs, 1,6 milyar parametreli açık kaynak metinden konuşmaya (TTS) modeli Dia'yı tanıttı. Doğal diyalog üretimi, duygusal tonlama ve ses klonlama gibi gelişmiş özellikleriyle Dia, ElevenLabs, OpenAI ve Google'ın NotebookLM gibi önde gelen TTS çözümlerine meydan okuyor. Model, Apache 2.0 lisansı altında tamamen açık kaynak olarak sunuluyor ve Hugging Face ile GitHub üzerinden erişilebilir durumda.
1000080107.webp

Nari Labs adlı iki kişilik bir girişim, metinden konuşmaya (TTS) alanında devrim yaratabilecek açık kaynaklı bir model olan Dia'yı duyurdu. 1,6 milyar parametreye sahip olan Dia, metin girdilerinden doğal ve duygusal açıdan zengin konuşmalar üretebiliyor. Modelin geliştiricilerinden Toby Kim, Dia'nın ElevenLabs Studio, OpenAI'nin gpt-4o-mini-tts ve Google'ın NotebookLM gibi mevcut TTS çözümlerinden daha üstün performans sergilediğini belirtiyor.VentureBeat


Kim, Dia'nın sıfır bütçeyle geliştirildiğini ve başlangıçta AI uzmanı olmadıklarını ifade ediyor. Google'ın Araştırma Bulutu aracılığıyla sağladığı Tensor İşlem Birimi (TPU) erişimi sayesinde modeli eğittiklerini belirtiyor. Dia'nın kodları ve ağırlıkları, Hugging Face ve GitHub üzerinden indirilebilir ve yerel olarak çalıştırılabilir durumda. Ayrıca, Hugging Face üzerinde bir demo alanı da mevcut.VentureBeat


Dia, duygusal tonlama, konuşmacı etiketleme ve sözel olmayan ses ipuçları gibi gelişmiş özellikleri destekliyor. Kullanıcılar, metin içinde [S1], [S2] gibi etiketlerle konuşmacı değişimlerini belirtebilir ve (gülüyor), (öksürüyor) gibi ifadelerle sözel olmayan davranışları ekleyebilirler. Bu etiketler, Dia tarafından doğru şekilde yorumlanarak konuşmaya dahil ediliyor.VentureBeat


Model şu anda yalnızca İngilizce dilini destekliyor ve belirli bir konuşmacıya bağlı değil. Her çalıştırmada farklı sesler üretebiliyor; ancak kullanıcılar, bir ses örneği sağlayarak veya üretim tohumunu sabitleyerek belirli bir ses tonunu sürdürebiliyorlar. Ses klonlama özelliği sayesinde, kullanıcılar bir ses örneği yükleyerek konuşmanın tonunu ve ses benzerliğini yönlendirebiliyorlar.


Nari Labs, Dia'nın ElevenLabs Studio ve Sesame CSM-1B gibi rakip modellerle karşılaştırıldığı örnek ses dosyalarını Notion sayfasında paylaştı. Bu karşılaştırmalarda, Dia'nın doğal zamanlama ve sözel olmayan ifadeleri daha iyi yönettiği görülüyor. Örneğin, (gülüyor) etiketiyle biten bir metinde, Dia gerçek bir kahkaha üretirken, rakip modeller "haha" gibi metinsel karşılıklar veriyor.VentureBeat


Teknik olarak, Dia PyTorch 2.0+ ve CUDA 12.6 üzerinde çalışıyor ve yaklaşık 10GB VRAM gerektiriyor. NVIDIA A4000 gibi kurumsal düzeyde GPU'larda saniyede yaklaşık 40 token işleyebiliyor. Şu anda yalnızca GPU üzerinde çalışsa da, Nari Labs gelecekte CPU desteği ve daha erişilebilir bir sürüm sunmayı planlıyor.VentureBeat


Dia, Apache 2.0 lisansı altında tamamen açık kaynak olarak sunuluyor, bu da ticari kullanım dahil olmak üzere geniş bir kullanım yelpazesine olanak tanıyor. Ancak, Nari Labs, modelin bireyleri taklit etmek, yanlış bilgi yaymak veya yasa dışı faaliyetlerde bulunmak gibi etik dışı kullanımlarını açıkça yasaklıyor.VentureBeat


Geliştirme sürecinde Google TPU Araştırma Bulutu, Hugging Face'in ZeroGPU hibe programı ve SoundStorm, Parakeet, Descript Audio Codec gibi önceki çalışmalardan destek alan Dia, açık erişim ve ifade kalitesine odaklanarak metinden konuşmaya alanında yeni bir soluk getiriyor.VentureBeat
 

Trend içerikler

Forum istatistikleri

Konular
92
Mesajlar
105
Kullanıcılar
6
Son üye
VioletLace
Geri
Üst