AI och Röst – Nya möjligheter

Ideella Föreningen World Voice firar Världsröstdagen 2025

i samarbete med Institutionen för Lingvistik, Stockholms Universitet,

med stöd av Rothenberg Foundation och Röstforum Stockholm

Onsdagen den 23 april, 18.30 – 21.00

Hörsal 11 i Södra huset, Stockholms Universitet, plan 3

Rösten är vårt vanligaste och kanske viktigaste verktyg för kommunikation. Men det är inte bara människan som har en röst att prata med, nu kan också artificiella och ’intelligenta’ system också prata. ‘AI-röster’ öppnar helt nya möjligheter och de utvecklas i en otrolig takt.

‘AI-röster’ kan användas utan att behöva förknippas med en specifik fysisk person. De kan verka i miljöer som är otillgängliga för människor, till exempel i virtuella världar eller applikationer som aldrig stängs av. De kan ge människor en ‘andra röst’ och de kan till och med uttrycka känslor och kanske en personlig bakgrund. De kan också ge konstnärer helt nya och fascinerande möjligheter i skapandet. Dessutom kan sådana röster fungera som verktyg för att ge återkoppling på sådant vi kanske inte klarar av på egen hand, t ex att utvecklas som talare och sångare.

Den 23 april 2025 kl. 18.30-21.00 i Stockholm kommer experter från olika områden att samlas för att berätta om nya möjligheter som AI-röster öppnar.

Program

Världsröstdagen: Varför – Vadan – Varthän?

Rebecca Häller, sångpedagog, vokalist, ordförande

Att tämja AI-röster.

Joakim Gustafsson, professor i talteknologi på KTH

AI-röster som vokalister: Vem har upphovsrätten?

Katja de Vries, jurist, expert på AI-skapade data and “deepfakes”

Rösten för sig – Kompet för sig – Vokalseparering med AI.

Patrik Ohlsson, Machine-Learning expert, DoReMIR Music Research

Paus

Artificial Voices: Three Perspectives.

Bob L. T. Sturm, universitetslektor, KTH

Joris Grouwels och Elin Kanhov, doktorander, KTH

AI-rösten: Tekniken från 2024 du behöver lära dig nu.

Fredrik Boltes, tv-producent, sångare och stand-up-komiker

Välkomna att fira Världsröstdagen med en kväll om röstens enorma betydelse – för våra liv, samhället, kommunikationen och demokratin.

Moderator: Christine Ericsdotter Nordgren

Beskrivning av programpunkter

Att tämja AI-röster

Under de senaste åren har generativ AI tagit världen med storm – på gott och ont. Framstegen inom TTS (text-to-speech) gör det numera möjligt att skapa verklighetstrogna syntetiska röster som härmar dialekter/sociolekter, andningsljud, intonationer och känslor, inklusive röstkloner av specifika mänskliga röster.

Syntetiska röster används allt oftare i spel, filmer, musik, ljudböcker, smarta högtalare och chatbots. I ett tekniskt perspektiv innebär det att du kan få din e-post, tidning eller roman uppläst av en röst som exempelvis liknar Astrid Lindgrens, rapparen Snoop Doggs eller din avlidna mormors. Men vad gäller rättsligt? Hur ska AI-röster regleras? Vad bör samhället sträva efter?

Avsaknaden av klarhet kring det rättsliga skyddet för AI-genererade röster är problematisk. Katja de Vries är projektledaren i den tvärvetenskapliga forskningsmiljön “VOICE. AI-skapade röster. Rättsliga och samhälleliga perspektiv” (Vetenskapsrådet, 2025-2030) som syftar att studera den här frågorna. Frågan om vems röster vi hör och vem som tjänar på det har stora samhälleliga återverkningar – demokratiska, kulturella, symbolisk

AI-röster som vokalister: Vem har upphovsrätten?

Rösten för sig – Kompet för sig – Vokalseparering med AI.

Att kunna separera ut individuella instrument eller sångare ur en ljudinspelning var endast en dröm för ljudnördar och musiker för inte alltför länge sedan. De senaste tio åren har teknologin rusat fram och idag har källseparering blivit en nyckel till högkvalitativ brusreducering, ljudreparation, och musikanalys.

Vokalseparering är en teknik som isolerar sång från övriga ljudkomponenter i en ljudinspelning, som instrument eller bakgrundsljud. Genom avancerad AI, inklusive maskininlärning och neurala nätverk, kan moderna system identifiera och separera dessa element med hög precision. Tekniken bygger på modeller tränade på stora datamängder, vilka lär sig känna igen mönster i både röst och instrument.

Vi tittar närmare på hur AI möjliggör vokalseparering och dess aktuella applikationer.