data mining
Tina Baznik
Tina Baznik
24. septembra 2024

Kako Direktiva o avtorskih pravicah na enotnem digitalnem trgu vpliva na prihodnost besednega in podatkovnega rudarjenja?

Besedno in podatkovno rudarjenje (”text and data mining”-TDM) je ključno orodje v raziskavah in inovacijah, ki omogoča uporabnikom pridobivanje novega znanja na podlagi ogromnih količin digitalnih podatkov. Drugi člen Direktive o DSM opredeljuje rudarjenje besedila in podatkov kot „vsako avtomatizirano analitično tehniko, namenjeno analizi besedila in podatkov v digitalni obliki za ustvarjanje informacij, ki med drugim vključujejo vzorce, trende in korelacije“. TDM se uporablja v različnih sektorjih npr. v medicini, novinarstvu, zabavi, financami… Na primer, farmacevtska podjetja uporabljajo TDM za odkrivanje interakcij med zdravili, platforme, kot je Netflix, analizirajo uporabniške preference, publikacije, kot je The Wall Street Journal, pa napovedujejo trende na trgu. TDM je igral ključno vlogo med pandemijo COVID-19 z analizo znanstvene literature za prepoznavanje možnih kandidatov za cepivo. Poleg tega TDM omogoča razvoj inteligentnih aplikacij, ki potrebujejo velike količine neobdelanega besedila in podatkov, da se „same naučijo“ zapletenih nalog, kot sta prevajanje ali prepoznavanje govora. Velik del sedanjega in prihodnjega razvoja umetne inteligence je torej odvisen od TDM.

Besedno in podatkovno rudarjenje pa predstavlja številne izzive na področju prava intelektualne lastnine. Kadar besedno in podatkovno rudarjenje vključuje zaščitena dela ali podatkovne baze, zaščitene z evropsko sui generis pravico, krši avtorske pravice.

Za reševanje teh vprašanj je Direktiva o avtorskih pravicah na enotnem digitalnem trgu (DSM direktiva) uvedla dve izjemi za avtorske pravice in sui generis pravico za TDM. Zakon o podatkih (angl.”Data Act”) pa obeta večjo pravno varnost glede rudarjenja v neoriginalnih podatkovnih zbirkah.

PRAVNI VIDIK EU

Raziskovalci in podjetja pogosto uporabljajo rudarjenje besedil in podatkov (TDM) za pridobivanje vpogledov iz velikih baz podatkov, na primer za napovedovanje cen delnic ali zaznavanje kibernetskih napadov. Čeprav baze podatkov morda ne izpolnjujejo zahteve izvirnosti za avtorsko zaščito, se raziskovalci še vedno lahko soočajo s pravnimi izzivi na podlagi sui generis pravice do baze podatkov. Ta pravica ščiti ustvarjalčevo pomembno naložbo – bodisi finančno, človeško ali tehnično – v sestavljanje in organizacijo baze podatkov. Naložba mora biti pomembna, bodisi v merljivih virih (npr. denar in čas) ali v nemerljivih prizadevanjih, kot je intelektualno delo.

Sui generis pravica ustvarjalcem baz podatkov omogoča, da prepovejo ekstrakcijo ali ponovno uporabo bistvenih delov njihovih baz podatkov. Sodišče Evropske unije (CJEU) je pojasnilo, da so lahko zaščiteni tudi majhni deli, če njihova ekstrakcija škoduje prvotni naložbi. Ponavljajoča se in sistematična uporaba nepomembnih delov lahko prav tako krši pravico, če moti normalno izkoriščanje baze podatkov ali škoduje interesom ustvarjalca.

V primeru TDM je izraz »ekstrakcija« bolj pomemben kot »ponovna uporaba«, saj raziskovalne ugotovitve običajno ne vključujejo dejanskih delov baze podatkov. Ekstrakcija pomeni prenos bistvenega dela baze podatkov na drug medij, kar se lahko zgodi med TDM. Ta prenos lahko šteje za ekstrakcijo, tudi če je namenjen analizi in ne ponovnemu ustvarjanju baze podatkov.

Kljub temu TDM pogosto vključuje zgolj posvetovanje z bazami podatkov za informacijske namene in ne njihovega prisvajanja. kopiranje, ki je del TDM procesa, še vedno lahko predstavlja tveganje za kršitev. Zato lahko sui generis zaščita omejuje dostop do podatkov in otežuje raziskovanje ali dejavnosti, ki se zanašajo na TDM.

Pristop EU k besedilnemu in podatkovnemu rudarjenju odraža jasno razlikovanje med nekomercialno in komercialno uporabo. Medtem ko je bila podpora širokim svoboščinam TDM v znanstvenih raziskavah vedno utemeljena, je položaj komercialne uporabe TDM bolj zapleten in omejen.

Sprva je Evropska komisija v osnutku DSM direktive predlagala le obvezno izjemo za TDM za nekomercialne raziskovalne organizacije in ustanove kulturne dediščine. Vendar je bila po razpravah in predlogih (zlasti nizozemske delegacije) uvedena neobvezna izjema za komercialno TDM. Na koncu je Evropski parlament določil, da je tudi ta izjema obvezna, kar je povzročilo dve ključni določbi v direktivi DSM (3. in 4.člen). Vendar pa ti dve določbi nista enako celoviti v smislu zaščite.

UPORABA TDM

Nekomercialno uporabo določa 3. člen DSM direktive, ki določa strogo izjemo za nekomercialne raziskovalne organizacije in ustanove kulturne dediščine, kot so javno dostopne knjižnice, muzeji in arhivi. Te institucije lahko reproducirajo in pridobivajo podatke za namene TDM, če imajo „zakonit dostop“ do gradiva, ki lahko vključuje naročnine, vsebine odprtega dostopa ali prosto dostopno spletno gradivo. Pomembno je, da člen dovoljuje tudi hrambo kopij, uporabljenih za TDM, ki so potrebne za znanstveno preverjanje in prihodnje raziskave.

Vendar je področje uporabe, ki ga določa 3. člen omejen, saj izključuje komercialne subjekte, kot so zasebni raziskovalni laboratoriji in javne radiotelevizije. Ti subjekti se morajo za vse dejavnosti TDM, ki jih želijo izvajati, opirati na 4.člen.

Komercialna uporaba, kot jo določa 4. člen omogoča širšemu krogu uporabnikov, vključno s komercialnimi organizacijami, da lahko uporabljajo TDM za kakršen koli namen, če pridobijo ustrezno dovoljenje (licenca, nakup, itd) od imetnikov pravic. To vključuje tudi pridobitne dejavnosti, zato je področje uporabe širše kot v členu 3. Vendar pa obstaja bistvena omejitev: imetniki pravic se lahko izvzamejo iz te izjeme. Imetniki vsebin lahko izrecno prepovejo TDM z uporabo strojno berljivih metapodatkov (npr. robot.txt) ali z vključitvijo posebnih pogojev, ki pridržujejo njihove pravice.

Ta klavzula o izvzetju lastnikom vsebin dejansko omogoča nadzor nad tem, kako se njihovi podatki rudarijo, in jim omogoča, da dovolijo ali celo v celoti omejijo dejavnosti TDM. Znanstveni založniki lahko na primer to določbo uporabijo za monetizacijo informacijske vrednosti svojih publikacij in ponudijo storitve TDM za plačilo, namesto da bi tretjim osebam dovolili neodvisno rudarjenje podatkov.

GLAVNE POSLEDICE ZA IMETNIKE PRAVIC IN KOMERCIALNE UPORABNIKE:

 Za imetnike pravic, Direktiva o DSM vzpostavlja način za urejanje nastajajočega trga za podatkovno rudarjenje in morebitni dobiček od njega. Tisti, ki želijo svoje podatke zaščititi pred komercialnim TDM, lahko to storijo tako, da v svoje spletne vsebine vgradijo ustrezne metapodatke ali pogodbene dogovore. To ustvarja nov vir prihodkov, zlasti za panoge, kot je akademsko založništvo, kjer vrednost podatkov presega vrednost samih člankov.

Po drugi strani pa so komercialni uporabniki TDM – vključno z razvijalci umetne inteligence, novinarji in zasebnimi raziskovalnimi ustanovami – v slabšem položaju. Zaradi določbe o izvzetju iz člena 4 so ti subjekti odvisni od dovoljenj imetnikov pravic, za razliko od jurisdikcij, kot so Združene države Amerike, kjer se lahko TDM, tudi v komercialni rabi, opredeljuje kot poštena uporaba (angl.”fair use”). Takšne omejitve bi v Evropi lahko upočasnile inovacije, saj se lahko številni lastniki vsebin odločijo, da bodo zaračunali ali preprečili dostop do svojih podatkov za komercialne namene.

Stanje se lahko izboljša s predlagano uredbo o usklajenih pravilih o poštenem dostopu do podatkov in njihovi uporabi, ki ga določa Zakon o podatkih (angl.” Data Act”. V tem Zakonu se obravnavajo izzivi, povezani z razširitvijo pravice sui generis na strojno ustvarjene zbirke podatkov. Zlasti v členu 2(1)(2)(a) predloga zakona o podatkih je določeno, da se pravica sui generis razširi na zbirke podatkov, ustvarjene s pomočjo strojev. Člen 35 dodatno pojasnjuje, da zaščita sui generis ne sme obsegati zbirk podatkov, „ki vsebujejo podatke, pridobljene ali ustvarjene z uporabo izdelka ali povezanih storitev“. Ta določba bi lahko raziskovalcem zagotovila pravno podlago za zakonito izvajanje rudarjenja podatkov (TDM) na zbirkah, ki jih sestavljajo podatki, samodejno ustvarjeni s tehnologijami interneta stvari (IoT). Čeprav morda ne bo povsem odpravila težav, bi ta zakonodajna iniciativa prinesla večjo pravno varnost za raziskovalce, ki se ukvarjajo z rudarjenjem v neoriginalnih podatkovnih zbirkah.