Naciśnij skrót klawiszowy gdziekolwiek, mów naturalnie, Telvr transkrybuje w czasie rzeczywistym. Tekst jest wstawiany na pozycji kursora — bez kopiowania i wklejania.

Które języki są obsługiwane?

Ponad 50 języków dzięki modelowi Whisper large-v3. Automatyczne wykrywanie języka.

Czy wymagana jest subskrypcja?

Nie. Zapłacisz tylko za użycie: EUR 3/miesiąc + EUR 0,03/minutę.

Czy działa w trybie offline?

Aktualnie oparty o chmurę. Community Edition z własnym API jest planowana.

W jakich aplikacjach to działa?

Systemowo, w każdej aplikacji.

Jak bezpieczne są moje dane?

TLS, bez trwałego przechowywania audio, umowa DPA z Groq.

← Blog2026-02-20

Porównanie mowy na tekst 2026: Telvr vs Whisper vs Wbudowana dyktacja

Stan mowy na tekst w 2026 roku

Wejście głosowe ewoluowało poza prostą dyktację. Nowoczesne narzędzia mowy na tekst obsługują wiele języków, usuwają wyrazy wypełniające i inteligentnie formatują dane wyjściowe. Ale które rozwiązanie rzeczywiście pasuje do workflow'u produktywności biurkowej?

Porównaliśmy trzy podejścia: Telvr (push-to-talk z wzbogacaniem AI), OpenAI Whisper (otwarte źródło transkrypcji) i wbudowana dyktacja systemu (macOS Dictation / Windows Voice Typing).

Dokładność

Wszystkie trzy rozwiązania dostarczają silną dokładność bazową dla angielskiego w cichu otoczeniu. Różnice pojawiają się w rzeczywistych warunkach:

Telvr korzysta z Whisper large-v3 via API Groq, osiągając prawie identyczną dokładność do samodzielnego Whisper'a ze znacznie niższym opóźnieniem. Warstwa wzbogacania AI automatycznie poprawia gramatykę i usuwa wyrazy wypełniające.
Whisper (samodzielnie hostowany) zapewnia doskonałą surową transkrypcję, ale wymaga przetwarzania końcowego dla czystego wyniku. Uruchomienie lokalnie wymaga znaczących zasobów GPU.
Wbudowana dyktacja działa dobrze na krótkie frazy, ale boryka się z terminologią techniczną, wejściem w mieszanych językach i dłuższymi fragmentami.

Prędkość i opóźnienie

Prędkość ma znaczenie, gdy wejście głosowe zastępuje pisanie w przepływach pracy w czasie rzeczywistym:

Telvr: Poniżej 2 sekund opóźnienia od końca do końca. Przetwarzanie w chmurze via zoptymalizowane wnioskowanie Groq oznacza brak wymagań sprzętu lokalnego.
Whisper (lokalnie): Całkowicie zależy od sprzętu. Nowoczesny GPU dostarcza 2-5 sekund dla typowych fragmentów. Tylko CPU może zająć 10-30 sekund.
Wbudowana dyktacja: Prawie natychmiast na krótkie frazy. Dłuższe fragmenty mogą wprowadzić opóźnienia i spadek dokładności.

Integracja

To jest miejsce, gdzie podejścia różnią się najbardziej:

Telvr: Systemowy skrót dostępu wstawia tekst bezpośrednio na pozycji kursora. Działa w każdej aplikacji bez przełączania okien. Sześć trybów wzbogacenia AI transformuje surową mowę w e-maile, notatki ze spotkań lub czysty tekst.
Whisper: Wymaga niestandardowego pipeline'u. Musisz nagrać audio, uruchomić transkrypcję i ręcznie wkleić wynik. Istnieje kilka wrapperów open-source, ale żaden nie dorównuje integracji systemowej.
Wbudowana dyktacja: Wbudowana w system operacyjny, ale ograniczona do obsługiwanych pól tekstowych. Brak wzbogacenia, brak formatowania, brak wielotrybowego wyjścia.

Obsługa języków

Telvr: 50+ języków via Whisper large-v3. Automatyczne wykrywanie języka.
Whisper: Taki sam model, ta sama obsługa języków. Samodzielne hosting daje pełną kontrolę.
Wbudowana dyktacja: Zależy od systemu operacyjnego. macOS obsługuje około 60 języków, Windows Voice Typing jest bardziej ograniczony.

Ceny

Telvr: EUR 3/miesiąc infrastruktura + EUR 0,03/minutę użytku. 14-dniowy bezpłatny okres próbny z EUR 3 kredytem startowym.
Whisper (samodzielnie hostowany): Bezpłatny (open-source), ale wymaga sprzętu GPU lub kosztów computingu w chmurze.
Whisper (API): $0,006/minutę via API OpenAI.
Wbudowana dyktacja: Bezpłatna, zawarta w systemie operacyjnym.

Werdykt

Wybierz Telvr jeśli chcesz wejścia głosowego, które działa wszędzie na pulpicie bez złożoności konfiguracji. Tryby wzbogacenia AI zamieniają surową mowę w sformatowany, profesjonalny tekst — coś, czego ani Whisper ani wbudowana dyktacja nie oferują poza pudełkiem.

Wybierz Whisper (samodzielnie hostowany) jeśli potrzebujesz pełnej kontroli nad danymi, masz zdolny sprzęt i czujesz się komfortowo budując niestandardowy pipeline.

Wybierz wbudowaną dyktację na szybkie, przypadkowe wejście głosowe, gdzie dokładność i formatowanie nie są krytyczne.

Największą różnicą jest głębokość integracji. Telvr to jedyne rozwiązanie, które łączy transkrypcję, przetwarzanie AI i systemowe wstawianie tekstu w pojedynczą kombinację klawiszową. Dla produktywności biurkowej integracja ta eliminuje tarcie, które sprawia, że inne rozwiązania wydają się obejściem niż narzędziem.