Naciśnij skrót klawiszowy gdziekolwiek, mów naturalnie, Telvr transkrybuje w czasie rzeczywistym. Tekst jest wstawiany na pozycji kursora — bez kopiowania i wklejania.

Które języki są obsługiwane?

Ponad 50 języków dzięki modelowi Whisper large-v3. Automatyczne wykrywanie języka.

Czy wymagana jest subskrypcja?

Nie. Zapłacisz tylko za użycie: EUR 3/miesiąc + EUR 0,03/minutę.

Czy działa w trybie offline?

Aktualnie oparty o chmurę. Community Edition z własnym API jest planowana.

W jakich aplikacjach to działa?

Systemowo, w każdej aplikacji.

Jak bezpieczne są moje dane?

TLS, bez trwałego przechowywania audio, umowa DPA z Groq.

← Blog2026-02-15

Wielojęzyczne pisanie głosem: Dyktuj w 50+ językach

Wyzwanie wielojęzyczne

Dla wielojęzycznych profesjonalistów, standardowe narzędzia wprowadzania głosu stanowią stałe tarcie: musisz powiedzieć narzędziu który język chcesz mówić. Zapomnij przełączyć i twój niemiecki zostaje transkrybowany jako garbiowany angielski. Przełącz za wcześnie i narzędzie przegapi pierwsze słowa w nowym języku.

To nie jest małe niedogodnienie, gdy twój dzień roboczy obejmuje e-maile w angielskim, rozmowy z klientami w niemieckim, wiadomości Slack w francuskim i wewnętrzne dokumenty w twoim języku ojczystym. Stałe zarządzanie selektorem języka prerywa przepływ pracy, który wprowadzanie głosu ma usprawnić.

Nowoczesne narzędzia oparte na Whisper rozwiązują to dzięki automatycznemu wykrywaniu języka — ale jakość implementacji znacznie się różni. Ten przewodnik obejmuje jak wielojęzyczne pisanie głosem działa, czego spodziewać się od różnych narzędzi i jak skonfigurować efektywny wielojęzyczny przepływ pracy.

Jak działa automatyczne wykrywanie języka

Whisper large-v3, model fundamentujący kilka obecnych narzędzi mowy, zawiera automatyczne wykrywanie języka jako podstawową funkcję. Został zaprojektowany od zera jako model wielojęzyczny — nie angielski-first z innymi językami przywróconym.

Mechanizm wykrywania działa poprzez analizowanie pierwszych kilku sekund audio względem wzorców akustycznych związanych z każdym obsługiwanym językiem. Model identyfikuje dominujący język i stosuje dekodowanie specyficzne dla języka odpowiednio. To dzieje się zanim pełna transkrypcja się zaczyna.

Dokładność wykrywania: Dla większości z 99 obsługiwanych języków, wykrywanie jest dokładne od około 2-3 sekund jasnej mowy. Mowa z akcentem, code-switching (mieszanie języków w wypowiedzi) i bardzo krótkie fragmenty (poniżej 2 sekund) mogą zmniejszyć pewność wykrywania.

Progi pewności: Gdy model jest niepewny — na przykład między blisko spokrewnionymi językami takimi jak norweski i duński — domyślnie na kandydata z najwyższą pewnością. Możesz czasami widzieć błędne wykrywanie dla bardzo podobnych języków.

Obsługa języka w różnych narzędziach

Nie wszystkie wielojęzyczne narzędzia głosowe używają tego samego modelu, a różnice w obsłudze języka są znaczące:

| Narzędzie | Języki | Auto-detect | Notatki | |---|---|---|---| | Telvr (Whisper large-v3) | 50+ | Tak | Najlepsza jakość non-English | | Apple Dictation | ~60 | Nie | Ręczne przełączanie języka wymagane | | Windows Voice Typing | ~25 | Nie | Ręczne przełączanie języka wymagane | | Wispr Flow | ~40 | Częściowo | Przede wszystkim optymalizowane do angielskiego | | Dragon Professional | ~15 | Nie | Silne obsługiwanie angielskiego akcentu | | Google Voice Typing | ~100 | Tak | Zmienna jakość poza angielskim |

Praktyczna różnica między 50 i 100 obsługiwanymi językami jest mniejsza niż się wydaje. Dodatkowe języki na liście Google mają tendencję do bycia językami o niższych zasobach, gdzie dokładność jest znacznie poniżej wydajności głównego języka. Dla praktycznego profesjonalnego użytku, Whisper large-v3 te 50+ języki obejmują ogromną większość globalnych profesjonalnych przepływów pracy.

Konfiguracja wielojęzycznego przepływu pracy

Z automatycznym wykrywaniem (Telvr)

Brak konfiguracji potrzebnej do przełączania języka. Telvr automatycznie wykrywa język z każdego segmentu dyktowania.

Przepływ pracy: Mów w jakim kolwiek języku jest naturalny dla kontekstu. Naciśnięcie hotkey zaczyna nowe okno wykrywania. Jeśli piszesz niemieckie e-maile i przełączasz się na angielskie wiadomości Slack, po prostu przełącz konteksty — żadna zmiana ustawień nie jest wymagana.

Wskazówki dla lepszego auto-detect:

Mów pierwsze kompletne zdanie w zamierzonym języku zanim przejdziesz do zawartości
Unikaj bardzo krótkich dyktowań (jedno lub dwa słowa) w rzadkich językach — wykrywanie potrzebuje kilku sekund audio
Jeśli wykrywanie popełni błąd, dodaj pierwsze zdanie znowu w poprawnym języku — kolejne rozpoznawanie się korekuje

Z ręcznym wyborem języka (Apple Dictation, Windows Voice Typing)

Zarówno wbudowane narzędzia macOS, jak i Windows wymagają ręcznego przełączania języka.

macOS: Kliknij selektor języka na widżecie dyktowania lub ustaw skrót klawiatury do przełączania języka wejścia w Ustawieniach systemowych > Klawiatura.

Windows: Kliknij wskaźnik języka w pasku zadań lub naciśnij Win+Space aby przełączać się przez zainstalowane języki.

Wskazówka: Dodaj tylko języki, które rzeczywiście używasz do twoich metod wejścia. Długa lista jest wolniejsza do przełączania się niż trzy konkretne języki.

Rozważania specyficzne dla języka

Code-Switching (mieszanie języków)

Wielu wielojęzycznych mówiących naturalnie mieszają języki w rozmowie — przełączając się w środku zdania lub używając terminów technicznych z innego języka, mówią swój główny język. Whisper obsługuje to lepiej niż inne modele, ponieważ był wytrenowany na wielojęzycznym audio z internetu, które zawiera naturalne code-switching.

Przykład: Niemiecki programista mówiący angielskie terminy techniczne w niemieckich zdaniach ("Wir müssen das authentication flow fixen, der token refresh ist broken") transkrybuje poprawnie, ponieważ Whisper rozpoznaje że terminy techniczne powszechnie pojawiają się w innych językach.

Skrypty nie-łacińskie

Whisper large-v3 obsługuje języki z nie-łacińskimi skryptami (Chiński, Japoński, Koreański, Arabski, Hindi itp.) z tym samym automatycznym mechanizmem wykrywania. Wyjście domyślnie używa natywnego skryptu.

Dla japońskiego: Dyktowanie tworzy mix kanji/hiragana/katakana, jak natywny japoński pisarz by stworzył. Adnotacje furigana nie są zawarte.

Dla arabskiego: Tekst prawy-do-lewego jest wypisany poprawnie; zachowanie pola tekstowego zależy od obsługi RTL przez aplikację.

Dla chińskiego: Wyjście używa uproszczonych lub tradycyjnych znaków w zależności od wykrytego dialektu (Mandarin vs. Cantonese).

Języki z silną zmiennością regionalną

Angielski (US vs UK vs AU vs IN), Francuski (Europejski vs Kanadyjski), Portugalski (Europejski vs Brazylijski) i Hiszpański (Kastylijski vs Latynoamerykański) mają wszystkie znaczące różnice w wymowie. Whisper large-v3 obsługuje te rozsądnie bez wymagania specyfikacji regionalnej — naturalnie wykrywa wariant z akcentu.

Praktyczne scenariusze wielojęzyczne

Profesjonalista wielojęzyczny

Konsultant, który pracuje z francuskim klientom, ma anglojęzyczną drużynę i pisze raporty w niemieckim:

Francuskie e-maile do klienta: Telvr auto-detektuje francuski, tryb Email tworzy profesjonalny francuski e-mail
Angielski Slack do drużyny: Telvr detektuje angielski, tryb Clean
Niemieckie raporty: Telvr detektuje niemiecki, tryb Clean

Brak ręcznego przełączania języka gdziekolwiek w tym przepływie pracy.

Międzynarodowy programista

Programista, którego ojczysty język to hiszpański, ale pisze dokumentację kodu w angielskim:

Hiszpańskie wiadomości Slack: Telvr detektuje hiszpański
Angielskie komentarze kodu: Telvr detektuje angielski, gdy tekst jest techniczny angielski
Notatki ze spotkania (mogą być mieszane): Tryb Clean obsługuje którymkolwiek języku jest używany

Uczeń języka

Pisanie głosem w języku, który się nauczasz, zapewnia użyteczne sprzężenie zwrotne. Dyktuj w docelowym języku, potem przejrzyj transkrypt, aby zobaczyć jak twoja wymowa mapuje na pisane słowa. Błędy w transkrypcie często wskazują na problemy z wymową.

Porównanie jakości języka

Poziom 1 — Doskonała jakość: Angielski (wszystkie warianty), Niemiecki, Francuski, Hiszpański, Portugalski, Holenderski, Włoski, Japoński, Chiński (Mandarin), Koreański, Arabski

Poziom 2 — Silna jakość: Rosyjski, Polski, Turecki, Szwedzki, Norweski, Duński, Fiński, Czeski, Rumuński, Węgierski, Ukraiński, Grecki, Hebrajski

Poziom 3 — Dobry, ale może wymagać czyszczenia: Większość innych języków europejskich, Hindi, Bengalski, Tajski, Indonezyjski, Wietnamski

Jakość w Poziomach 1 i 2 jest wystarczająca do profesjonalnego użytku bez oczekiwania edycji każdego zdania. Języki Poziom 3 tworzą użyteczne wyjście, ale mogą potrzebować więcej przeglądu dla zawartości technicznej lub formalnej.

Wybór narzędzia dla wielojęzycznego użytku

Do auto-detektowanych, zero-konfiguracyjnych wielojęzycznych przepływów pracy: Telvr jest najsilniejszą opcją. Model Whisper large-v3 detektuje język niezawodnie i żadna konfiguracja języka nie jest potrzebna między sesjami.

Dla użytkowników, którzy przede wszystkim potrzebują angielskiego z okazjonalnymi innymi językami: Większość narzędzi działa, o ile obsługują twoje wtórne języki.

Dla języków ze skryptami nie-łacińskimi: Zweryfikuj że twoja docelowa aplikacja obsługuje skrypt poprawnie zanim polegasz na wprowadzaniu głosu. Transkrypcja jest dokładna; wyświetlanie zależy od aplikacji.

Dla mowy w językach poniżej Poziom 1: Testuj konkretny język zanim budujesz przepływ pracy wokół niego. Uruchom 2-minutową sesję dyktowania, przejrzyj transkrypt i oceń czy poziom dokładności działa dla twojego przypadku użycia.