OpenAI prezentuje trzy nowe modele. ChatGPT będzie o niebo lepszy

Rozwój technologii przetwarzania mowy w znacząco zmienił sposób, w jaki wchodzimy w interakcję z systemami opartymi na sztucznej inteligencji. OpenAI pokazało właśnie nowe modele, które pozwalają na dokładniejszą transkrypcję mowy oraz generowanie głosu na poziomie zbliżonym do ludzkiego. Nowe modele zamiany mowy na tekst od OpenAI Niedawno pisaliśmy o nowości od OpenAI, która upraszcza proces […] Artykuł OpenAI prezentuje trzy nowe modele. ChatGPT będzie o niebo lepszy pochodzi z serwisu ANDROID.COM.PL - społeczność entuzjastów technologii.

Mar 20, 2025 - 19:38
 0
OpenAI prezentuje trzy nowe modele. ChatGPT będzie o niebo lepszy
Telefon z wyświetloną ikoną aplikacji ChatGPT na ekranie spoczywa na klawiaturze komputera.

Rozwój technologii przetwarzania mowy w znacząco zmienił sposób, w jaki wchodzimy w interakcję z systemami opartymi na sztucznej inteligencji. OpenAI pokazało właśnie nowe modele, które pozwalają na dokładniejszą transkrypcję mowy oraz generowanie głosu na poziomie zbliżonym do ludzkiego.

Nowe modele zamiany mowy na tekst od OpenAI

Niedawno pisaliśmy o nowości od OpenAI, która upraszcza proces implementacji funkcji AI w aplikacjach. Producent kilka dni później zaskoczył jeszcze bardziej.

Firma Sama Altmana ogłosiła wprowadzenie dwóch nowych modeli transkrypcji mowy na tekst, GPT-4o Transcribe oraz GPT-4o Mini Transcribe. Modele te zostały zaprojektowane jako bezpośredni następcy modelu Whisper i oferują znacząco lepszą jakość transkrypcji w różnych językach.

Nowości charakteryzują się niższym wskaźnikiem błędów. Dokładność transkrypcji została zwiększona dzięki zastosowaniu bardziej zaawansowanych metod analizy dźwięku oraz nowoczesnych algorytmów przetwarzania języka naturalnego. Modele powinny radzić sobie lepiej w sytuacjach, w których występują zakłócenia, szybka mowa lub regionalne akcenty. Producent zapewnia, że najnowsze rozwiązania zaoferują wsparcie dla wielu języków, ale też będą odporne na trudne warunki akustyczne.

Zamiana tekstu na mowę na najwyższym poziomie

Interaktywny demo interfejsu OpenAI.fm przedstawiający różne opcje głosu i tonu dla nowego modelu zamiany tekstu na mowę. Wybrany głos to 'Ash', a wybrany ton to 'Mad Scientist'. Widoczny tekst skryptu zawiera dramatyczny dialog związany z eksperymentem naukowym.
Fot. OpenAI / materiały prasowe

Poza poprawą transkrypcji mowy OpenAI zaprezentowało również nowy model Text-to-Speech (TTS). Zapewnia on jeszcze wyższy poziom personalizacji i kontroli nad generowanym głosem. Warto zauważyć, że model nie oferuje odgórnych presetów głosów. Użytkownik określa charakter, ton, czy styl mowy za pomocą promptu.

Efekty podczas premierowej transmisji robiły duże wrażenie. Model brzmi na tyle naturalnie i ludzko, że w przyszłości prawdopodobnie będzie wykorzystywany nawet do tworzenia audiobooków. Z nowości niestety nie skorzystają użytkownicy darmowej wersji ChatGPT.

Masz dość upałów? Sprawdzamy, jak Polacy walczą z upalną pogodą. Poświęcisz kilka minut na wypełnienie naszej ankiety? Ładuję…

Źródło: OpenAI, oprac. własne. Zdjęcie otwierające: miss.cabul / Shutterstock

Część odnośników to linki afiliacyjne lub linki do ofert naszych partnerów. Po kliknięciu możesz zapoznać się z ceną i dostępnością wybranego przez nas produktu – nie ponosisz żadnych kosztów, a jednocześnie wspierasz niezależność zespołu redakcyjnego.

Artykuł OpenAI prezentuje trzy nowe modele. ChatGPT będzie o niebo lepszy pochodzi z serwisu ANDROID.COM.PL - społeczność entuzjastów technologii.