Blog

Rozpoznawanie mowy w Windows: Kompletny przewodnik konfiguracji (2026)

Opcje wprowadzania głosu Windows

Windows oferuje więcej opcji rozpoznawania mowy niż jakakolwiek inna platforma desktopowa, od całkowicie bezpłatnych wbudowanych narzędzi do oprogramowania klasy enterprise. Skonfigurowanie właściwej opcji trwa od dwóch minut do całego popołudnia, w zależności od tego co potrzebujesz.

Ten przewodnik obejmuje trzy poziomy: wbudowany Windows Voice Typing, który jest natychmiast gotowy, Dragon Professional do specjalistycznego profesjonalnego użytku oraz obecny stan nowoczesnych opcji napędzanych AI dla użytkowników Windows, którzy chcą więcej niż wbudowane narzędzie.

Opcja 1: Windows Voice Typing (wbudowane)

Windows Voice Typing to najszybsza ścieżka do wprowadzania głosu w Windows. Wymaga zerowej instalacji i jest dostępne na Windows 10 wersja 20H2 i nowsze, oraz Windows 11.

Konfiguracja

  1. Naciśnij Win + H z każdej aplikacji z aktywnym polem tekstowym
  2. Widżet mikrofonu pojawia się u góry ekranu
  3. Kliknij przycisk mikrofonu lub naciśnij Win+H ponownie
  4. Zacznij mówić

To wszystko. Brak instalacji, brak konta, brak konfiguracji wymaganej do podstawowego użytku.

Włączanie automatycznej interpunkcji

Automatyczna interpunkcja (Windows 11 i niedawne buildy Windows 10) dodaje przecinki i kropki automatycznie bez konieczności ich jawnego mówienia.

  1. Naciśnij Win+H, aby otworzyć Voice Typing
  2. Kliknij ikonę koła zębatego w widżecie
  3. Włącz "Auto-punctuation"

Konfiguracja języka

Jeśli chcesz dyktować w języku innym niż twoje domyślne:

  1. Przejdź do Ustawień > Czas i język > Język i region
  2. Dodaj twój żądany pakiet języka
  3. Pobierz pakiet rozpoznawania mowy dla tego języka
  4. Przełącz język wejścia za pośrednictwem selektora języka w pasie zadań przed dyktowaniem

Obsługiwane języki Windows Voice Typing (od 2026): Angielski (US, UK, AU, IN), Chiński (Uproszczony, Tradycyjny), Francuski, Niemiecki, Hiszpański, Włoski, Portugalski, Japoński, Koreański, Arabski i około 15 inne. Pełna lista na oficjalnej dokumentacji Microsoft.

Polecenia Voice Typing

Windows Voice Typing obsługuje kilka poleceń głosowych:

  • "Stop listening" — dezaktywuje mikrofon
  • "Delete that" — usuwa ostatni dyktowany tekst
  • "Scratch that" — usuwa ostatnią wypowiedź
  • "Go to sleep" / "Wake up" — przełącza stan nasłuchiwania

Ograniczenia

Windows Voice Typing tworzy surową transkrypcję. Brak wzbogacania AI, brak formatowania e-maila i brak strukturyzowanego wyjścia. Słowa wypełniające pojawiają się w tekście. Interpunkcja jest obsługiwana przez automatyczną interpunkcję, gdy włączona, ale złożone struktury zdań mogą potrzebować ręcznego czyszczenia.

Działa dobrze dla codziennego dyktowania, gdzie spodziewasz się edytować wyjście. To nie jest właściwe narzędzie, jeśli potrzebujesz wysokiej jakości tekstu profesjonalnego bez edycji.

Opcja 2: Dragon Professional (Windows)

Dragon Professional jest wyborem dla użytkowników Windows, którzy potrzebują profesjonalnej dokładności z specjalistycznym słownictwem — przede wszystkim w prawie, medycynie, finansach i dziedzinach technicznych.

Instalacja

  1. Kup Dragon Professional ze strony Nuance ($699 od 2026)
  2. Pobierz installer
  3. Uruchom kreatora konfiguracji
  4. Stwórz profil głosu (szkolenie początkowe zajmuje 5-10 minut)

Szkolenie profilu głosu

Szkolenie głosu Dragon znacznie poprawia dokładność. Podczas konfiguracji:

  1. Czytaj dostarczone fragmenty tekstu (2-3 minuty czytania)
  2. Dragon analizuje twoje wzory głosu, akcent i styl mówienia
  3. Profil zapisuje się na twoim koncie użytkownika

Dokładność poprawia się dalej w czasie, gdy Dragon uczy się korekt, które robisz.

Niestandardowe słownictwo

Funkcja niestandardowego słownika jest najsilniejszym punktem sprzedaży Dragon dla użytku profesjonalnego:

  1. Otwórz edytor słownika Dragon
  2. Dodaj terminy specyficzne dla domeny (warunki medyczne, cytowania prawnicze, nazwy produktów, terminy techniczne)
  3. Dodaj formę pisaną i formę mówioną dla skrótów (mówioną: "firma," pisaną: "Acme Corporation")

Dla profesjonalistów ze wysoce specjalistycznym słownictwem, ta funkcja sama uzasadnia koszt.

Podstawy Dragon

Odpowiednik push-to-talk w Dragon: naciśnij i zwolnij konfigurowalny klawisz (domyślnie klawisz minus na podkładzie numerycznym), aby zacząć nasłuchiwanie. Powiedz "stop listening" lub naciśnij klawisz ponownie, aby zatrzymać.

Dragon obsługuje też polecenia kontroli aplikacji — możesz dyktować aby przełączać się między aplikacjami, klikać przyciski, poruszać menus i kontrolować funkcje Windows głosem. To jest użyteczne dla użytkowników z upośledzeniami mobilności.

Opcja 3: Nowoczesne rozpoznawanie mowy AI dla Windows

Luka na rynku Windows w 2026 to brak narzędzia, które łączy dokładność transkrypcji na poziomie Whisper z wzbogacaniem tekstu AI w ogólnosystemowym interfejsie push-to-talk. Takie narzędzia istnieją na macOS (Telvr, Wispr Flow), ale nie jeszcze na Windows.

Co użytkownicy Windows mogą używać dzisiaj

Whisper Desktop (open-source): Kilka narzędzi społeczności przynosi Whisper do Windows. Najbardziej utrzymywane to:

  • Whispering (open-source, GitHub) — nagrywa audio, transkrybuje via lokalny Whisper, wklejaduje do schowka
  • FasterWhisper na Windows — wymaga konfiguracji Python, lepsza wydajność via skwantyzowane modele

Te tworzą surową transkrypcję Whisper bez wzbogacania. Konfiguracja wymaga technicznej wygody z narzędziami linii polecenia.

Voice In (Chrome Extension): Rozszerzenie przeglądarki, które dodaje wprowadzanie głosu do każdego pola tekstowego w Chrome. Używa Google Web Speech API, nie Whisper. Dokładność jest dobra dla angielskiego; ograniczona dla innych języków. Działa tylko wewnątrz Chrome.

Telvr dla Windows

Wersja Telvr dla Windows jest w opracowaniu. Gdy będzie dostępna, przyniesie pełne doświadczenie Telvr do Windows: push-to-talk, transkrypcja Whisper large-v3, sześć trybów wzbogacania AI i ogólnosystemowe wstawianie tekstu.

Zarejestruj się na liście oczekujących na stronie Telvr, aby być powiadomionym gdy wersja Windows zostanie uruchomiona.

Konfiguracja mikrofonu (Dotyczy wszystkich metod)

Jakość mikrofonu ma większe znaczenie niż który instrument rozpoznawania mowy używasz. Słaby mikrofon ograniczy dokładność niezależnie od modelu bazowego.

Wbudowany mikrofon laptopa

Działalny w cichych środowiskach. Może mieć trudności z szumem tła, HVAC lub szumami otoczenia biurowego.

Zewnętrzny mikrofon USB

Znaczne ulepszenie. Mikrofony USB entry-level ($50-100, Blue Yeti Nano, Rode NT-USB Mini) tworzą znacznie czystsze audio niż wbudowane mikrofony laptopa. Ulepszona jakość wejścia transluje się bezpośrednio do lepszej dokładności.

Mikrofon zestawu słuchawkowego

Konsystentna odległość i pozycja mikrofonu sprawia, że zestawy słuchawkowe są szczególnie dobre do dyktowania. Zarówno zestawy USB, jak i Bluetooth działają; unikaj analogowego 3.5mm jeśli możliwe, ponieważ mają tendencję do wprowadzenia szumu.

Konfiguracja mikrofonu w Windows

  1. Przejdź do Ustawień > System > Dźwięk
  2. W sekcji Wejście, wybierz preferowany mikrofon
  3. Kliknij "Configure microphone" i postępuj zgodnie z kreatorem kalibracji
  4. Użyj miernika głośności do zweryfikowania poziomu wejścia jest silny bez przycinania

Docelowy poziom wejścia: Pasek głośności powinien docierać do około 75% maksimum, gdy mówisz w normalnym poziomie rozmowy. Za cichy oznacza słabsze rozpoznawanie; za głośny powoduje przycinanie.

Rozwiązywanie typowych problemów

Voice Typing nie aktywuje się (Win+H):

  • Sprawdź czy pole tekstowe jest aktywne (kliknij najpierw w pole tekstowe)
  • Zweryfikuj uprawnienia mikrofonu: Ustawienia > Prywatność i bezpieczeństwo > Mikrofon

Słaba dokładność w każdym narzędziu:

  • Testuj z innym mikrofonem
  • Przenieś się do cichszego środowiska
  • Mów nieco wolniej i wyraźniej
  • Dla Dragon: uruchom kreatora dokładności po kilku godzinach użytku

Tekst pojawia się w złych lokalizacjach:

  • Aplikacja docelowa może nie obsługiwać wprowadzania głosu w tym konkretnym polu
  • Upewnij się, że fokus jest na poprawnym oknie i polu tekstowym

Wysokie opóźnienie (długie czekanie między mówieniem a pojawieniem się tekstu):

  • Windows Voice Typing przetwarza na serwerach Microsoft; sprawdź połączenie internetowe
  • Dla Dragon: przetwarzanie lokalne, sprawdź użycie CPU — inne wymagające aplikacje mogą go spowolnić