Världsröstdagen 2025

AI och Röst – Nya möjligheter

Onsdagen den 23 april, 18.30 – 21.00

Paus

Joakim Gustafsson

Under de senaste åren har generativ AI tagit världen med storm – på gott och ont. Framstegen inom TTS (text-to-speech) gör det numera möjligt att skapa verklighetstrogna syntetiska röster som härmar dialekter/sociolekter, andningsljud, intonationer och känslor, inklusive röstkloner av specifika mänskliga röster.

Syntetiska röster används allt oftare i spel, filmer, musik, ljudböcker, smarta högtalare och chatbots. I ett tekniskt perspektiv innebär det att du kan få din e-post, tidning eller roman uppläst av en röst som exempelvis liknar Astrid Lindgrens, rapparen Snoop Doggs eller din avlidna mormors. Men vad gäller rättsligt? Hur ska AI-röster regleras? Vad bör samhället sträva efter?

Avsaknaden av klarhet kring det rättsliga skyddet för AI-genererade röster är problematisk. Katja de Vries är projektledaren i den tvärvetenskapliga forskningsmiljön “VOICE. AI-skapade röster. Rättsliga och samhälleliga perspektiv” (Vetenskapsrådet, 2025-2030) som syftar att studera den här frågorna. Frågan om vems röster vi hör och vem som tjänar på det har stora samhälleliga återverkningar – demokratiska, kulturella, symbolisk

Katja de Vries

Under de senaste åren har generativ AI tagit världen med storm – på gott och ont. Framstegen inom TTS (text-to-speech) gör det numera möjligt att skapa verklighetstrogna syntetiska röster som härmar dialekter/sociolekter, andningsljud, intonationer och känslor, inklusive röstkloner av specifika mänskliga röster.

Syntetiska röster används allt oftare i spel, filmer, musik, ljudböcker, smarta högtalare och chatbots. I ett tekniskt perspektiv innebär det att du kan få din e-post, tidning eller roman uppläst av en röst som exempelvis liknar Astrid Lindgrens, rapparen Snoop Doggs eller din avlidna mormors. Men vad gäller rättsligt? Hur ska AI-röster regleras? Vad bör samhället sträva efter?

Avsaknaden av klarhet kring det rättsliga skyddet för AI-genererade röster är problematisk. Katja de Vries är projektledaren i den tvärvetenskapliga forskningsmiljön “VOICE. AI-skapade röster. Rättsliga och samhälleliga perspektiv” (Vetenskapsrådet, 2025-2030) som syftar att studera den här frågorna. Frågan om vems röster vi hör och vem som tjänar på det har stora samhälleliga återverkningar – demokratiska, kulturella, symbolisk

Patrik Ohlsson

Att kunna separera ut individuella instrument eller sångare ur en ljudinspelning var endast en dröm för ljudnördar och musiker för inte alltför länge sedan. De senaste tio åren har teknologin rusat fram och idag har källseparering blivit en nyckel till högkvalitativ brusreducering, ljudreparation, och musikanalys.

Vokalseparering är en teknik som isolerar sång från övriga ljudkomponenter i en ljudinspelning, som instrument eller bakgrundsljud. Genom avancerad AI, inklusive maskininlärning och neurala nätverk, kan moderna system identifiera och separera dessa element med hög precision. Tekniken bygger på modeller tränade på stora datamängder, vilka lär sig känna igen mönster i både röst och instrument.

Vi tittar närmare på hur AI möjliggör vokalseparering och dess aktuella applikationer.