Världsröstdagen 2025

AI och Röst – Nya möjligheter

Onsdagen den 23 april, 18.30 – 21.00

Paus

Joakim Gustafsson

Inom fonetik och språkvetenskap vill vi kunna ha fin kontroll på låg nivå (aspekter som prosodi, röstkvalitet och fyllda pauser). Genom att generera samma mening på olika sätt kan vi sen se hur dessa aspekter påverkar folks uppfattning av talaren (känsloläge, säkerhet, kompetens mm).
Inom interaktionsforskning vill kunna studera hur vi kan skapa syntetiska talare som agerar som lärare, instruktör eller underhållare. Då vill vi styra på högre nivåer där vi väljer en viss röst med en viss talstil, där vi låter AI-systemet inspireras av hur en människa talar i en viss situation. I dessa fall vill se om sätten man talar påverkar hur mycket man lär sig, kognitiv belastning eller underhållningsvärde.

Katja de Vries

Under de senaste åren har generativ AI tagit världen med storm – på gott och ont. Framstegen inom TTS (text-to-speech) gör det numera möjligt att skapa verklighetstrogna syntetiska röster som härmar dialekter/sociolekter, andningsljud, intonationer och känslor, inklusive röstkloner av specifika mänskliga röster.

Syntetiska röster används allt oftare i spel, filmer, musik, ljudböcker, smarta högtalare och chatbots. I ett tekniskt perspektiv innebär det att du kan få din e-post, tidning eller roman uppläst av en röst som exempelvis liknar Astrid Lindgrens, rapparen Snoop Doggs eller din avlidna mormors. Men vad gäller rättsligt? Hur ska AI-röster regleras? Vad bör samhället sträva efter?

Avsaknaden av klarhet kring det rättsliga skyddet för AI-genererade röster är problematisk. Katja de Vries är projektledaren i den tvärvetenskapliga forskningsmiljön “VOICE. AI-skapade röster. Rättsliga och samhälleliga perspektiv” (Vetenskapsrådet, 2025-2030) som syftar att studera den här frågorna. Frågan om vems röster vi hör och vem som tjänar på det har stora samhälleliga återverkningar – demokratiska, kulturella, symbolisk

Patrik Ohlsson

Att kunna separera ut individuella instrument eller sångare ur en ljudinspelning var endast en dröm för ljudnördar och musiker för inte alltför länge sedan. De senaste tio åren har teknologin rusat fram och idag har källseparering blivit en nyckel till högkvalitativ brusreducering, ljudreparation, och musikanalys.

Vokalseparering är en teknik som isolerar sång från övriga ljudkomponenter i en ljudinspelning, som instrument eller bakgrundsljud. Genom avancerad AI, inklusive maskininlärning och neurala nätverk, kan moderna system identifiera och separera dessa element med hög precision. Tekniken bygger på modeller tränade på stora datamängder, vilka lär sig känna igen mönster i både röst och instrument.

Vi tittar närmare på hur AI möjliggör vokalseparering och dess aktuella applikationer.

Bob Sturm
Joris Grouwels
Elin Kanhov








We will talk about AI and the voice from three perspectives: engineering, musicology, and performance practice. Bob will provide an overview of how AI is being developed to clone voices. Elin will give a musicological perspective on voice and AI, focusing on aspects such as identity, discourses of deepfake, and artists using AI voice models for aesthetic exploration. Joris will discuss how simulated models of the voice can be used to study the practice of singing. 

Fredrik Boltes

Vad kunde man göra med Voice-to-text, Text-to-voice och Voice-to-voice redan 2024? Fredrik Boltes, känd som sångare, tv-producent och stand-up-komiker, men också datanörd, lär ut konkreta och praktiska AI-tekniker i en kul och interaktiv workshop. Lär dig generera och imitera röster, använda röststyrning, text-to-speech och mer. Gå hem med grunderna i AI:s möjligheter från 2024!

    Leave a Reply

    Your email address will not be published. Required fields are marked *