Text

  • Studieort Paros, campus Västerås
Datum
  • 2023-12-14 13:00

Samaneh Mohammadi försvarar sin licentiatuppsats

Samaneh Mohammadi försvarar sin licentiatuppsats i datavetenskap torsdagen den 14 december klockan 13:00 i sal Paros (Västerås).

Titel: Balancing Privacy and Performance in Emerging Applications of Federated Learning.

Utsedd opponent är docent Andreas Hellander, Uppsala universitet.

Betygsnämnden består av docent Andreas Hellander, Uppsala universitet, professor Nirvana Meratnia, Eindhoven University, Nederländerna, och professor Shahid Raza, Mälardalens universitet.

Reserv är doktor Tooska Dargahi, Manchester Metropolitan University, Storbritannien.

Avhandlingen har nummer: 349

Sammanfattning

Federerad inlärning är en ny metod som tillåter flera enheter att samarbeta för att träna en maskininlärningsmodell utan att dela med sig av sina privata data till en central server. Därmed kan integritet och cybersäkerhet förbättras genom användning av federerad inlärning. Tänk dig att du har en smartphone och vill använda ett smart tangentbord som förutsäger vilket ord du kommer att skriva härnäst. Med centraliserad maskininlärning skulle din telefon skicka all data den samlar om dina skrivvanor till en central server, där den förutsägande modellen tränas. Servern skickar sedan tillbaka en uppdaterad modell till din telefon. Med federerad inlärning tränar din telefon istället sin egen lokala förutsägande modell med den data den samlar in från ditt skrivande och skickar bara uppdateringar av modellen till den centrala servern. Rådata delas inte. Den centrala servern samlar in uppdateringar från många enheter, aggregerar dem och skickar sedan tillbaka en förbättrad global modell. Den här modellen har den samlade kunskapen från alla enheter i nätverket.

Federerad inlärning används i flera tillämpningar utöver predikterbart skrivande, till exempel inom hälso- och sjukvård, där patientdata kan hållas konfidentiell samtidigt som den bidrar till medicinsk forskning, eller för att förbättra noggrannheten i rekommendationer på streamingplattformar utan att dela dina visningsvanor. Det är ett sätt att dra nytta av maskininlärning samtidigt som man tillfredsställer kraven på cybersäkerhet och integritet.

Denna avhandling fokuserar på framväxande tillämpningar av federerad inlärning. En av dessa är att låta datorer känna igen känslor i tal, vilket kallas talbaserad känslorigenkänning (speech smotion recognition, SER). Att analysera mänskligt tal innebär dock integritetsrisker, eftersom det kan avslöja personlig information som identitet, känslor, ålder, med mera. Därför är integritetsskydd avgörande inom SER. När federerad inlärning används för att utveckla SER-applikationer, även om taldata behålls på lokala enheter, uppstår nya integritetsproblem. Det finns en risk att illvilliga individer eller en central server kan utnyttja den delade SER-modellen för att återskapa känsliga taldata, vilket skapar integritetsproblem. Trots att flera integritetsskyddslösningar har utvecklats för att mildra potentiella intrång i tillämpningar med federerad inlärning, så är dessa för generella för att lätt kunna integreras i specifika applikationer som SER. Dessutom kan införlivandet av befintliga integritetsskyddsmekanismer i federerad inlärningsramverk öka kommunikations- och beräkningskostnader, vilket i sin tur kan påverka dataanvändning och inlärningsprestanda.

Denna avhandling föreslår integritetsskyddstekniker inom federerad inlärning för att känna igen känslor i tal, samtidigt som den tar itu med de nämnda prestandautmaningarna. För det första har vi studerat den senaste forskningen om integritetsmetoder inom federerad inlärning och särskilt uppmärksammat avvägningarna mellan integritetsbevarande åtgärder och prestanda. För det andra har vi designat en optimerad tillämpning för federerad inlärning anpassad för talbaserad känsloigenkänning. Denna tillämpning möjliggör en grundlig bedömning av prestanda och kostnader. För det tredje har vi utvecklat integritetsskydd inom federerad inlärning för att skydda mot hot och garantera konfidentialiteten för taldata. Slutligen har vi utvärderat integrationen av utvalda integritetsskyddsmekanismer för att uppnå en optimal balans inom federerad talbaserad känsloigenkänning. Detta gör det möjligt för ingenjörer att hitta den kompromissen mellan integritet och prestanda genom att minimera nödvändiga kommunikations- och beräkningskostnader.