Naciśnij skrót klawiszowy gdziekolwiek, mów naturalnie, Telvr transkrybuje w czasie rzeczywistym. Tekst jest wstawiany na pozycji kursora — bez kopiowania i wklejania.

Które języki są obsługiwane?

Ponad 50 języków dzięki modelowi Whisper large-v3. Automatyczne wykrywanie języka.

Czy wymagana jest subskrypcja?

Nie. Zapłacisz tylko za użycie: EUR 3/miesiąc + EUR 0,03/minutę.

Czy działa w trybie offline?

Aktualnie oparty o chmurę. Community Edition z własnym API jest planowana.

W jakich aplikacjach to działa?

Systemowo, w każdej aplikacji.

Jak bezpieczne są moje dane?

TLS, bez trwałego przechowywania audio, umowa DPA z Groq.

← Blog2026-02-19

Push-to-Talk vs Dyktowanie zawsze włączone: Który styl wygrywa?

Dwa podejścia do wprowadzania głosu

Każde narzędzie wprowadzania głosu podejmuje fundamentalną decyzję projektową: kiedy mikrofon słucha?

Dwa dominujące modele to push-to-talk (mikrofon aktywny tylko gdy przycisk jest przytrzymywany) i zawsze włączony (mikrofon ciągle słucha, zazwyczaj używając słowa kluczowego lub poleceń start/stop). Każde podejście ma różne implikacje dla prywatności, dokładności, integracji przepływu pracy i zużycia zasobów.

Wybór to nie tylko preferencja UX — odzwierciedla fundamentalnie różne założenia o tym, jak wprowadzanie głosu pasuje do pracującego środowiska.

Push-to-Talk: Celowy i ograniczony

W dyktowaniu push-to-talk przytrzymujesz hotkey, aby aktywować mikrofon, mówisz zawartość i puszczasz klawisz gdy skończyć. Mikrofon jest nieaktywny przez cały inny czas.

Prywatność: To najsilniejsza gwarancja prywatności dostępna w wprowadzaniu głosu. Aplikacja może przechwytać audio tylko podczas przytrzymywania hotkey. Nie ma nasłuchiwania w tle, nie ma przypadkowego przechwycenia prywatnych rozmów, i nie ma pytania czy audio z niezamierzonego momentu było przetwarzane. Dla pracujących środowisk, gdzie kolegowie, klienci lub wrażliwe informacje są często słyszalne, to ma znaczenie.

Dokładność: Push-to-talk generalnie tworzy lepszą dokładność, ponieważ segment audio jest czysty i ograniczony. Model otrzymuje dokładnie jedną wypowiedź — od naciśnięcia hotkey do puszczenia — bez konieczności wykrywania granic mowy z szumu otoczenia. Nie ma pytania czy rozmowa w tle była przeznaczona jako wejście.

Przepływ pracy: Gest push-to-talk jest jawny i zamierzony. Przygotowujesz to, co chcesz powiedzieć, naciskasz klawisz, mówisz i puszczasz. To pasuje do mentalnego modelu "teraz piszę" i "teraz skończyłem pisanie." Naturalnie pasuje obok użytku klawiatury i myszy, ponieważ nie wymaga warunków hands-free.

Bateria i zasoby: Mikrofon jest w stanie spoczynkowym gdy nie dyktuje aktywnie. Aktywność CPU i sieci zachodzą tylko podczas sesji dyktowania.

Ograniczenia: Każde dyktowanie wymaga celowego działania. Ciągłe, hands-free dyktowanie — wspólne w medycznej transkrypcji, gdy ręce lekarza są zajęte, na przykład — nie jest naturalnym trybem dla push-to-talk.

Dyktowanie zawsze włączone: Ciągłe i bez rąk

Dyktowanie zawsze włączone (lub ciągłe) używa wykrywania aktywności głosu, aby automatycznie zidentyfikować kiedy mówisz i przetwarzać to audio. Apple Dictation, gdy pracuje ciągle, Google Voice Typing na Androidzie i narzędzia dostępności hands-free zazwyczaj pracują w ten sposób.

Prywatność: Zawsze włączone nasłuchiwanie wymaga trwałego dostępu do mikrofonu. Narzędzie musi przetwarzać audio ciągle, aby wykryć kiedy zaczynacie mówić. Nawet przy dobrym przetwarzaniu lokalnym, istnieje wbudowana ekspozycja: każda rozmowa blisko twojego mikrofonu mogła być przechwycona, nawet jeśli nie była przeznaczona jako wejście. Dla większości środowisk przedsiębiorstwa i współdzielonych przestrzeni, to jest prawdziwy problem.

Dokładność: Zmienna. Model musi odróżnić zamierzone dyktowanie od mowy otoczenia — rozmowę z kolegą, film grający w tle, lub kogoś mówiącego blisko. Fałszywe aktywacje i brakujące punkty startowe dodają szum do wyjścia.

Przepływ pracy: Lepsze dla scenariuszy hands-free. Pracownicy medyczni używający dyktowania podczas badania pacjentów, pracownicy którzy potrzebują obu rąk zajętych i użytkownicy z upośledzeniami mobilności, które utrudniają przytrzymywanie klawisza, wszyscy korzystają z ciągłego dyktowania.

Bateria i zasoby: Ciągły dostęp do mikrofonu z trwającym wykrywaniem aktywności głosu konsumuje znacznie więcej baterii i mocy obliczeniowej niż push-to-talk.

Ograniczenia: Nie dopasowany dobrze do współdzielonych lub open-plan biurowych środowisk. Fałszywe aktywacje tworzą szum. Ciągła "rozmowa" z narzędziem może czuć się nienaturalnie w kontekstach gdzie częsто przełączasz się między głosem a wejściem pisanym.

Model słowa kluczowego

Trzecie podejście używa słowa kluczowego ("Cześć [produkt]"), aby zacząć nasłuchiwanie i polecenia stop lub timeout ciszy, aby ukończyć sesję. To model używany przez Siri, Alexa i Google Assistant. Dla dyktowania na pulpicie, rzadko się to używa, ponieważ słowo kluczowe staje się tarciem w przypadkach wysokoczęstościowego użytku.

Wpływ na jakość wyjścia

Poza surową dokładnością transkrypcji, model aktywacji wpływa na jakość wzbogacania AI:

Przewaga push-to-talk: AI otrzymuje dokładnie jedną ograniczoną wypowiedź. Model wzbogacania przetwarza kompletne, zamierzone stwierdzenie. Nie ma szumu z niezamierzonej mowy, a model nie musi obsługiwać wykrywania granic — puszczenie hotkey przez użytkownika definiuje segment.

Wyzwanie zawsze włączone: Modele wzbogacania otrzymują segmenty audio, które mogą zawierać fałszywe starty, mowę otoczenia i niejasne granice. To utrudnia pracę AI i może skutkować artefaktami w sformatowanym wyjściu.

Wybór projektu Telvr

Telvr jest całkowicie zbudowany wokół push-to-talk. To była celowa decyzja na podstawie dwóch przekonań:

Po pierwsze, prywatność ma znaczenie w profesjonalnych środowiskach. Narzędzie zaprojektowane dla produktywności na pulpicie — gdzie dyskusje wrażliwe się odbywają — powinno dać użytkownikom absolutną kontrolę nad kiedy mikrofon jest aktywny. Push-to-talk zapewnia tę kontrolę bez konfiguracji.

Po drugie, wyraźność push-to-talk tworzy lepsze wyjście. Użytkownicy, którzy naciskają hotkey, aby dyktować, zazwyczaj komponują swoją myśl przed mówieniem, zamiast myślenia głośno i oczekiwania od AI wydobycia znaczenia ze strumienia świadomości. Wynikowe wejście jest bardziej spójne, a wyjście wzbogacania AI jest odpowiednio lepsze.

Które podejście jest dla ciebie właściwe

Wybierz push-to-talk jeśli:

Pracujesz w współdzielonym biurze lub open-plan środowisku
Prywatność jest problemem (rozmowy, wrażliwe rozmowy, poufne informacje blisko)
Częsто przełączasz się między pisaniem a wprowadzaniem głosu
Chcesz jawnej kontroli nad każdą sesją dyktowania
Używasz głosu do zastępienia pisania w konkretnych momentach, a nie dla ciągłego hands-free użytku

Wybierz zawsze włączone jeśli:

Potrzebujesz całkowicie hands-free operacji (procedury medyczne, praca fizyczna)
Pracujesz w prywatnym, cichym środowisku
Dyktowujesz długie ciągłe fragmenty bez konieczności interakcji z komputerem

Wybierz słowo kluczowe jeśli:

Używasz asystenta głosu zamiast narzędzia dyktowania
Potrzebujesz aktywacji otoczenia bez fizycznego przycisku

Dla większości pracowników wiedzy, którzy chcą używać wprowadzania głosu jako uzupełniającego klawiatury — pisanie e-maili, dokumentacji, wiadomości i notatek siedząc przy biurku — push-to-talk jest lepszym dopasowaniem. Jawna, ograniczona aktywacja pasuje do tego, jak praca przy biurku faktycznie się odbywa: przerywaną serię tworzenia tekstu, nie ciągłą monologiem.