Proteverb – Pravni, etični in tehnološki vidiki obdelave besedilnih in govornih virov podatkov za znanstvene, raziskovalne in razvojne namene
O PROJEKTU
Slovenščina je z vidika razvoja jezikovnih tehnologij jezik, za katerega je na voljo malo digitalnih virov. Zaradi tega sta sodobno raziskovanje s perspektive računalniške znanosti in razvoj produktov, ki temeljijo okrog procesiranja naravnega jezika, bistveno počasnejša kot to velja za jezike z veliko digitalnimi viri. Za ustrezno pridobivanje jezikovnih virov in sekundarno uporabo slednjih v čimbolj naravni obliki, ki zaradi tega lahko vsebujejo tudi nekatere osebne podatke, pa je pomembno interpretiranje Splošne uredbe o varstvu podatkov (GDPR) in izjem prav za raziskovalne namene. Prav tovrstna odstopanja omogočajo doseganje posebnih namenov, na katere se veže tudi pričujoči ciljni raziskovalni projekt, ki bo prvikrat v slovenskem prostoru sistematično naslovil pridobivanje in obdelavo (osebnih) podatkov na način, ki so v interesu znanosti in tako prek apliciranja v obliki pilotnega projekta prispeval k razvoju slednje, kot tudi gospodarstva na podlagi novih spoznanj in praks.
Raziskovalni projekt bo združil, prepletel in poglobil znanje več različnih znanstvenih ved tako z družboslovnega kot tudi naravoslovnega in tehničnega področja ter humanistike. Tovrstno součinkovanje je ključno za zagotovitev, da se napredek v tehnološkem razvoju osmisli ter regulira tako, da se maksimira družbena korist in da se hkrati minimizirajo negativni učinki v obliki posegov v etične in pravne standarde ter človekove pravice. Tak vsestranski pristop je edini način, da koncept odprte znanosti zaživi kar v največji meri.
Ciljni raziskovalni projekt (CRP) financirata Javna agencija za znanstvenoraziskovalno in inovacijsko dejavnost RS (ARIS) in Ministrstvo za digitalno preobrazbo.
Partnerji konzorcija:
Sestava projektne skupine: SICRIS
Šifra projekta: V5-2265
Trajanje projekta: 2022 – 2024
VSEBINA PROJEKTA
VSEBINA PROJEKTA:
Ciljni raziskovalni projekt bo razdeljen v več faz:
- Preučili bomo pravni okvir obdelave podatkov v raziskovalni-znanstvene namene. Izhodišče bosta predstavljala Splošna uredba in ZVOP-1, ki ju bomo nadgradili s primerjalnopravno analizo in spremljanjem razvoja zakonodajnega predloga ZVOP-2.
- Preučili bomo dosedanje prakse zbiranja podatkov v znanstveno-raziskovalne namene, zanimalo nas bo tako dostopanje do podatkov raziskovalcev in raziskovalnih organizacij kot tudi izkušnje z deljenjem podatkov javnih organov in institucij (npr. sodišč). Identificirali bomo ključne dejavnike tveganj, ki so onemogočali dostop do podatkov v preteklosti, da bi izoblikovali protokol za varovanje zasebnosti tekom obdelovanja podatkov za znanstveno-raziskovalne
- v okviru projekta bodo razviti postopki za ustrezno dostopanje do podatkov in anonimizacijo podatkov, ki bo temeljila na prilagoditvi in izboljšanju obstoječih anonimizatorjev. Oblikovali bomo priporočila glede metod biometrične anonimizacije zvočnih govornih posnetkov, ki temeljijo na metodah strojnega učenja, z namenom zmanjšanja vplivov na zanesljivost samodejnih razpoznavalnikov govora.
Z uporabo protokola za varovanje zasebnosti in postopkov za dostopanje do podatkov, vključno z anonimizacijo, bomo poskusili pridobiti podatke (pilot). Pilotni del raziskave bo obsegal pripravo potrebnih podlag za prevzem podatkov, prevzem podatkov, anonimizacijo podatkov ter ureditev dokumentacije, postopkov in pravil za potrebe obdelave podatkov v okviru raziskovalne inštitucije. Na podlagi podatkov, pridobljenih za pilotni del ciljnega raziskovalnega projekta bomo specializirali anonimizator besedil kot tudi razpoznavalnik govora za slovenski jezik.
POMEN ZA RAZVOJ ZNANOSTI OZIROMA STROKE
Raziskovalni projekt bo združil, prepletel in poglobil znanje več različnih znanstvenih ved tako z družboslovnega kot tudi naravoslovnega in tehničnega področja ter humanistike. Tovrstno součinkovanje je ključno za zagotovitev, da se napredek v tehnološkem razvoju osmisli ter regulira tako, da se maksimira družbena korist in da se hkrati minimizirajo negativni učinki v obliki posegov v etične in pravne standarde ter človekove pravice. Tak vsestranski pristop je edini način, da koncept odprte znanosti zaživi kar v največji meri.
Projekt bo primarno pomembno prispeval k razvoju treh vej znanosti, in sicer prava, informatike in računalništva ter humanistike.
Pri vseh treh področjih znanosti bo omogočen takojšnji prenos ugotovitev in znanj v pedagoški proces na domačih in tujih univerzah, tako preko sodelovanja študentov pri razvijanju zgoraj omenjenih tehnologij kot pri poučevanju, ki ga izvajajo raziskovalci, udeleženi pri tem projektu, ki so hkrati profesorji na različnih fakultetah.
Akademski rezultati tega projekta bodo premostili ključne ovire za napredek znanosti, ki stremi k optimizaciji uporabe podatkov za raziskovalne namene brez kršitev pravnih standardov ter človekovih pravic.