Tryck en snabbtangent var som helst, prata naturligt, och Telvr transkriberar i realtid. Texten infogas automatiskt vid din markör.

Över 50 språk via Whisper large-v3.

Måste jag prenumerera?

Nej. Betala per användning: EUR 3/månad + EUR 0,03/minut.

Fungerar det offline?

För närvarande molnbaserat. En Community Edition för lokal användning är planerad.

Vilka appar fungerar det i?

Systemövergripande — Telvr fungerar i vilken applikation som helst.

Hur säkra är mina data?

TLS-kryptering, ingen permanent lagring, Groq databehandlingsavtal (DPA).

← Blogg2026-02-19

Push-to-talk vs alltid-på diktation: Vilket läge vinner?

Två tillvagagångar till röstinmatning

Varje röstinmatningsverktyg gör ett grundläggande designbeslut: när lyssnar mikrofonen?

De två dominanta modellerna är push-to-talk (mikrofon aktiv bara medan en knapp är tryckt) och alltid-på (mikrofon kontinuerligt lyssnar, typiskt använder väckord eller start/stoppkommandon). Varje tillvagagång har olika följder för integritet, noggrannhet, arbetsflödesintegration och resursanvändning.

Valet är inte bara en UX-preferens — det återspeglar fundamentalt olika antaganden om hur röstinmatning passar in i en arbetsmiljö.

Push-to-talk: Avsiktligt och begränsad

I push-to-talk-diktation håller du en snabbtangent för att aktivera mikrofonen, talar ditt innehål och släpper tangenten när du är klar. Mikrofonen är inaktiv vid alla andra tillfällen.

Integritet: Detta är den starkaste integritetsgarantin tillgänglig i röstinmatning. Applikationen kan bara fånga ljud medan snabbtangenten är fysiskt tryck. Det finns ingen bakgrundslyssning, ingen oavsiktlig fångst av privata samtal och ingen fråga om ljud från ett oavsiktligt ögonblick bearbetades. För arbetsmiljöer där kollegor, klienter eller känslig information ofta hörs spelar detta roll.

Noggrannhet: Push-to-talk producerar i allmänhet bättre noggrannhet för att audiobiten är ren och begränsad. Modellen mottar exakt en utterens — från snabbtangent press till snabbtangent release — utan behov av att detektera talgränser från omgivningsljud. Det finns ingen fråga om huruvida bakgrundssamtal var avsedd som inmatning.

Arbetsflöde: Push-to-talk-gesten är explicit och avsiktlig. Du förbereder vad du vill säga, trycker på tangenten, talar och släpper. Detta matchar den mentala modellen för "jag skriver nu" och "jag är klar med skrivandet". Det passar naturligt tillsammans med tangentbords- och musanvändning för att det inte kräver handsfree-förhållanden.

Batteri och resurser: Mikrofonen är inaktiv när den inte aktivt dikterar. CPU- och nätverksaktivitet sker bara under diktationssessioner.

Begränsningar: Varje diktation kräver en avsiktlig åtgärd. Kontinuerlig, handsfree-diktation — vanlig i medicinsk transkribering medan en läkares händer är ockuperade, till exempel — är inte det naturliga läget för push-to-talk.

Alltid-på diktation: Kontinuerlig och Handsfree

Alltid-på (eller kontinuerlig) diktation använder talaktivitetsdetektering för att automatiskt identifiera när du talar och bearbeta det ljudet. Apple Dictation när körning kontinuerligt, Google Voice Typing på Android och handsfree tillgänglighetsverktyg fungerar typiskt på detta sätt.

Integritet: Alltid-på lyssnande kräver löpande mikrofontillgång. Verktyget måste behandla ljud kontinuerligt för att detektera när du börjar tala. Även med bra lokal bearbetning finns det inneboende exponering: alla samtal nära din mikrofon kan fångas, även om de inte var avsedda som inmatning. För de flesta enterprise-miljöer och delade utrymmen är detta ett verkligt problem.

Noggrannhet: Variabel. Modellen måste skilja mellan avsedd diktation och omgivningstal — en samtal med en kollega, en video som spelas i bakgrunden eller någon som talar närby. Falska aktiveringar och missade startpunkter lägger till brus till utdata.

Arbetsflöde: Bättre för handsfree-scenarier. Medicinsk personal som använder diktation medan de undersöker patienter, arbetare som behöver båda händerna ockuperade och användare med rörelsehandikapp som gör att hålla en knapp opraktiskt dra alla nytta av kontinuerlig diktation.

Batteri och resurser: Kontinuerlig mikrofontillgång med pågående talaktivitetsdetektering förbrukar betydligt mer batteri och behandlingskraft än push-to-talk.

Begränsningar: Inte väl lämpat för delade eller öppna kontorsplaner. Falska aktiveringar skapar brus. Den kontinuerliga "konversationen" med verktyget kan kännas onaturlig i sammanhang där du byter ofta mellan röst och maskinskriven inmatning.

Väckords-modellen

Ett tredje tillvagagång använder ett väckord ("Hey [product]") för att börja lyssna och ett stoppkommando eller tystnadstimeout för att avsluta en session. Detta är modellen som används av Siri, Alexa och Google Assistant. För desktop-diktation är det sällan använt för att väckordet blir friktion i högt frekvens användningsfall.

Påverkan på utgakvalitet

Bortom rå transkriberingsnoggrannhet påverkar aktiveringsmodellen kvaliteten på AI-berikning:

Push-to-talk-fördel: AI mottar exakt en begränsad utterens. Berikningsmodellen bearbetar en komplett, avsiktlig uttalande. Det finns ingen brus från oavsiktligt tal, och modellen behöver inte hantera gränsdetektering — användarens snabbtangent släpp definierar segmentet.

Alltid-på-utmaning: Berikningsmodeller mottar audiobitar som kan inkludera falsk start, omgivningstal och oklara gränser. Detta gör AI:ns arbete hårdare och kan resultera i artefakter i den formaterade utdata.

Telvrs designval

Telvr är helt byggt runt push-to-talk. Detta var ett avsiktligt val baserat på två övertygelser:

Först spelar integritet roll i professionella miljöer. Ett verktyg utformat för desktop-produktivitet — där känsliga samtal händer — bör ge användare absolut kontroll över när mikrofonen är aktiv. Push-to-talk tillhandahåller denna kontroll utan konfiguration.

För det andra producerar den explicita push-to-talk bättre utdata. Användare som trycker en snabbtangent för att dikterar tenderar att komponera sin tanke före tal, snarare än att tänka högt och förväntar sig att AI ska extrahera mening från ett medvetandeflöde. Den resulterande inmatningen är mer sammanhängande, och AI-berikningsutdata är motsvarande bättre.

Vilket tillvagagång passar dig

Välj push-to-talk om:

Du arbetar i en delad kontor eller öppen-plan-miljö
Integritet är en oro (samtal, känsliga samtal, konfidentiell information i närheten)
Du byter ofta mellan att skriva och röstinmatning
Du vill ha explicit kontroll över varje diktationssession
Du använder röst för att ersätta skrivning i specifika ögonblick, inte för kontinuerlig handsfree-användning

Välj alltid-på om:

Du behöver helt handsfree-drift (medicinsk procedurer, fysiskt arbete)
Du arbetar i en privat, tyst miljö
Du dikterar långa kontinuerliga passager utan att behöva interagera med datorn

Välj väckord om:

Du använder en röstassistent snarare än ett diktationsverktyg
Du behöver omgivningsaktivering utan en fysisk knapp

För majoriteten av kunskapsarbetare som vill använda röstinmatning som ett tangentbordstillägg — skriva e-post, dokumentation, meddelanden och anteckningar medan du sitter vid ett skrivbord — är push-to-talk den bättre passningen. Den explicita, begränsade aktiveringen matchar hur skrivbordsarbete faktiskt sker: mellanvilla-bursts av textskaping, inte kontinuerlig monolog.