Blog

Jak używać zamieniania mowy na tekst w każdej aplikacji Mac

Problem kompatybilności aplikacji

Większość narzędzi wprowadzania głosu na Mac działa tylko tam, gdzie deweloper pomyślał aby dodać obsługę. Apple Dictation działa w aplikacjach Apple i większości pól tekstowych, ale zachowuje się niespójnie w aplikacjach stron trzecich. Narzędzia głosu oparte na sieci działają tylko w polach tekstowych Chrome. Dedykowane aplikacje dyktowania często wymagają dyktowania w ich własnym interfejsie, a następnie wklejenia wyniku.

Aby nawyk wprowadzania głosu rzeczywiście się trzymał, musi działać wszędzie — w terminalu, w IDE, w aplikacji Slack na pulpicie, w Notion, w polu tekstowym formularza, który wypełniasz dwa razy w roku. Jeśli musisz myśleć czy głos będzie działać zanim sięgniesz po hotkey, tarcie zabija nawyk.

Ogólnosystemowe wstawianie tekstu rozwiązuje to, omijając całkowicie warstwę aplikacji.

Jak działa ogólnosystemowe wstawianie

Standardowe narzędzia wprowadzania głosu komunikują się z aplikacjami przez API dostępności lub integracje specyficzne dla aplikacji. Dlatego działają tylko w "obsługiwanych" aplikacjach — aplikacja musi zaimplementować lub obsługiwać określony interfejs, który narzędzie głosu używa.

Ogólnosystemowe wstawianie działa inaczej. Po transkrybowaniu i przetworzeniu twojej mowy, narzędzie programowo symuluje wprowadzenie klawiatury na poziomie systemu operacyjnego — w ten sam sposób co oprogramowanie dostępności takie jak remappery klawiatury lub narzędzia makr. Wynik pojawia się w pozycji kursora dokładnie tak, jakby był wpisany, litera po literce.

Ponieważ to działa na poziomie wejścia OS zamiast przez API aplikacji, działa w praktycznie każdej aplikacji, która przyjmuje wejście tekstu:

  • Edytory tekstu i IDE
  • Terminal i linia polecenia
  • Pola tekstowe przeglądarki (łącznie z aplikacjami internetowymi)
  • Natywne aplikacje macOS
  • Aplikacje Electron (VS Code, Notion, Slack, Discord)
  • Pola formularza PDF, które przyjmują wejście
  • Pola hasła (z odpowiednią ostrożnością)

Konfiguracja ogólnosystemowego wprowadzania głosu na Mac z Telvr

Krok 1: Zainstaluj Telvr

Pobierz Telvr ze strony internetowej i zainstaluj. Podczas pierwszego uruchomienia, macOS zapyta o uprawnienia dostępności — to uprawnienie, które umożliwia ogólnosystemowe wstawianie tekstu. Przyznaj go w Ustawieniach systemowych w sekcji Prywatność i bezpieczeństwo, potem Dostępność.

Bez tego uprawnienia, tekst może być wstawiany tylko w aplikacjach, które jawnie obsługują narzędzie. Z nim, wstawianie tekstu działa wszędzie.

Krok 2: Skonfiguruj hotkey

Telvr domyślnie ustawia Option + Space. Ta kombinacja jest wygodna (kciuk na każdym klawiszu) i rzadko konfliktuje ze skrótami aplikacji.

Jeśli wolisz inną kombinację klawiszy:

  1. Otwórz Telvr z paska menu
  2. Przejdź do Preferencji
  3. Kliknij pole hotkey i naciśnij preferowaną kombinację

Dobre alternatywy:

  • Prawy Option + Space (jeśli używasz Lewego Option do pisania)
  • Control + Shift + Space
  • Dedykowany klawisz funkcji, jeśli twoja klawiatura ma programowalne klawisze
  • Przycisk boczny myszy, jeśli twoja mysz ma dodatkowe przyciski

Unikaj:

  • Command + Space (Spotlight)
  • Option + Tab (przełącznik okien w niektórych aplikacjach)
  • Każda kombinacja, którą IDE używa często

Krok 3: Wybierz tryb wzbogacania

Zanim dyktować, wybierz tryb, który pasuje do kontekstu. Selektor trybu znajduje się w ikonie paska menu Telvr.

Dla ogólnosystemowego użytku między różnymi aplikacjami, tryb Clean jest domyślnym trybem, który działa wszędzie. Usuwa wypełniacze, naprawia gramatykę i dodaje interpunkcję. Przełącz na inne tryby dla konkretnych kontekstów.

Krok 4: Umieść kursor

Kliknij w polu tekstowym, dokumencie, terminalu lub każdej edytowalnej obszarze, gdzie chcesz, aby tekst się pojawił. Kursor musi być umieszczony — Telvr wstawia tekst w pozycji kursora, więc jeśli żaden kursor nie jest aktywny, nic nie pojawi się.

Krok 5: Dyktuj

Przytrzymaj hotkey, mów naturalnie, zwolnij. W ciągu 1-2 sekund, sformatowany tekst pojawia się w twoim kursorze.

Wskazówki dla każdej aplikacji

Terminal

Wprowadzanie głosu w terminalu jest użyteczne dla dłuższych poleceń, wiadomości git commit i każdego monitu terminala, który przyjmuje rozszerzone wejście tekstu.

Uwaga: Tekst pojawia się znowu po znowu w monicie terminala. Standardowe polecenia działają dobrze. Unikaj dyktowania haseł bezpośrednio — użyj menedżera haseł.

Szczególnie użyteczne dla: git commit -m "..." (mów swoją wiadomość commit), pisania skryptów powłoki w nano lub vim (w trybie insert), komponowania wieloliniowego heredoc content.

VS Code

Wszystkie pola tekstowe przyjmują dyktowanie: sam edytor, zintegrowany terminal, pola wyszukiwania i zamiany, pole komunikatu git commit i pole komentarza w panelu Source Control.

Rekomendowany tryb: Tryb Clean dla komentarzy kodu, tryb Dev Task dla opisów PR i komunikatów commit.

Przeglądarka (Safari, Chrome, Firefox)

Każdy input, textarea lub element contenteditable przyjmuje dyktowanie. To obejmuje klientów poczty internetowej, Google Docs, Notion w przeglądarce, formularz problemów GitHub i praktycznie każdą aplikację internetową.

Aplikacja Slack na pulpicie

Aplikacje oparte na Electron takie jak Slack przyjmują ogólnosystemowe wstawianie. Dyktuj bezpośrednio w pole komponowania wiadomości. Tryb Clean dobrze działa dla wiadomości; tryb Meeting Notes jest użyteczny do wpisywania streszczenia po spotkaniu w wątkach Slack.

Notion

Zarówno aplikacja na pulpicie jak i wersja przeglądarki działają. Dyktowanie bezpośrednio na stronach Notion z trybem Clean lub Meeting Notes tworzy dobrze sformatowaną zawartość.

Mail i Calendar

Natywne aplikacje macOS mają pełną obsługę. Okna komponowania e-maila, opisy zdarzeń kalendarza i pola notatek wszystkie przyjmują dyktowanie.

Rozwiązywanie problemów

Tekst nie pojawia się:

  • Sprawdź czy uprawnienie Dostępności jest przyznane w Ustawieniach systemowych
  • Zweryfikuj czy kursor jest umieszczony w edytowalnym polu (nie w obszarze tylko do odczytu)
  • Niektóre chronione pola tekstowe (takie jak niektóre menedżery haseł) blokują programowe wejście celowo

Tekst pojawia się w złej lokalizacji:

  • Punkt wstawiania przesunął się między naciskaniem hotkey a pojawieniem się tekstu. Utrzymaj okno docelowe w fokusie podczas dyktowania.

Dodatkowe znaki lub garbled wyjście:

  • To czasami się zdarza w aplikacjach z autocomplete, które błędnie interpretują szybkie wejście znaku. Wyłącz autocomplete w tej aplikacji lub wpisz wolniej poprzez dostosowanie ustawień.

Działa w niektórych aplikacjach, ale nie innych:

  • Niektóre aplikacje w piaskownicy lub wzmocnione bezpieczeństwem ograniczają programowe wejście. To polityka bezpieczeństwa aplikacji, a nie ograniczenie Telvr.

Co sprawia, że ogólnosystemowe dyktowanie jest inne

Praktyczna różnica między ogólnosystemowym dyktowaniem a narzędziami głosu specyficznymi dla aplikacji to mentalny model.

Z narzędziami specyficznymi dla aplikacji, wprowadzanie głosu to funkcja pewnych aplikacji. Pamiętasz które aplikacje to obsługują i zmienia zachowanie odpowiednio.

Z ogólnosystemowym dyktowaniem, wprowadzanie głosu to zachowanie dostępne wszędzie. Hotkey jest zawsze tam. Nawyk staje się odruchowy zamiast zamierzonego — sięgasz po hotkey w ten sam sposób co każdy skrót klawiatury.

Ta konsystencja to co sprawia, że wprowadzanie głosu jest trwałym narzędziem produktywności zamiast okazjonalnego eksperymentu.