Streamuri Radio Clasic

Top News

Nu toate modelele de inteligență artificială (IA) „open source” sunt de fapt deschise

Top News 12:05

Multe dintre modelele de limbaj mare care alimentează chatboții se revendică a fi deschise, dar restricționează accesul la cod și datele de antrenament.

Giganți tehnologici precum Meta și Microsoft își descriu modelele de inteligență artificială (IA) drept „open source” fără a dezvălui informații importante despre tehnologia de bază, afirmă cercetătorii care au analizat o serie de modele populare de chatboți. Definiția open source în contextul modelelor IA nu este încă stabilită, dar susținătorii spun că o deschidere completă stimulează știința și este esențială pentru a face IA responsabilă. Definirea exactă a termenului open source este probabil să devină din ce în ce mai importantă odată cu intrarea în vigoare a Legii Inteligenței Artificiale a Uniunii Europene. Această legislație va aplica reglementări mai puțin stricte pentru modelele clasificate ca deschise.

Unele companii mari culeg beneficiile declarării modelelor lor ca fiind open source, în timp ce încearcă „să scape cu dezvăluirea a cât mai puține informații posibile”, spune Mark Dingemanse, un specialist în știința limbajului la Universitatea Radboud din Nijmegen, Olanda. Această practică este cunoscută sub denumirea de open-washing.

„Spre surprinderea noastră, jucătorii mici, cu resurse relativ puține, fac un efort suplimentar”, spune Dingemanse, care împreună cu colegul său Andreas Liesenfeld, un lingvist computațional, au creat un clasament al celor mai deschise și mai puțin deschise modele. Ei și-au publicat concluziile pe 5 iunie în cadrul Conferinței ACM 2024 privind Echitatea, Responsabilitatea și Transparența. Studiul elimină „multă agitație și exagerări în jurul dezbaterii actuale despre open-sourcing”, spune Abeba Birhane, cercetător în științe cognitive la Trinity College Dublin și consilier în materie de responsabilitate IA la Mozilla Foundation, o organizație non-profit cu sediul în Mountain View, California.

Ce înseamnaă de fapt Open Source?

Termenul open source provine din software, unde înseamnă acces la codul sursă și fără limitări în utilizarea sau distribuția unui program. Dar, având în vedere complexitatea modelelor mari de IA și volumele uriașe de date implicate, realizarea acestora ca open source este departe de a fi simplă, iar experții încă lucrează la definirea conceptului de IA open source. Dezvăluirea tuturor aspectelor unui model nu este întotdeauna de dorit pentru companii, deoarece le poate expune la riscuri comerciale sau legale, spune Dingemanse. Alții argumentează că eliberarea completă a modelelor riscă să fie folosită în mod abuziv.

Dar a fi etichetat ca open source poate aduce și mari beneficii. Dezvoltatorii pot obține deja avantaje de relații publice prezentându-se ca fiind riguroși și transparenți. Și în curând vor exista și implicații legale. Legea IA a UE, care a fost adoptată în acest an, va excepta modelele open source de uz general, până la o anumită dimensiune, de la cerințele extinse de transparență și le va supune unor obligații mai reduse și încă nedefinite. „Este corect să spunem că termenul open source va căpăta o importanță juridică fără precedent în țările guvernate de Legea IA a UE”, spune Dingemanse.

În studiul lor, Dingemanse și Liesenfeld au evaluat 40 de modele mari de limbaj — sisteme care învață să genereze text prin asocierea cuvintelor și frazelor în volume mari de date. Toate aceste modele pretind a fi „open source” sau „deschise”. Cei doi au creat un clasament al deschiderii evaluând modelele pe 14 parametri, inclusiv disponibilitatea codului și a datelor de antrenament, ce documentație este publicată și cât de ușor este de accesat modelul. Pentru fiecare parametru, au evaluat dacă modelele erau deschise, parțial deschise sau închise. Această abordare pe o scară glisantă a analizei deschiderii este una utilă și practică, spune Amanda Brock, director executiv al OpenUK, o organizație non-profit cu sediul la Londra care se concentrează pe tehnologia deschisă.

Cercetătorii au descoperit că multe modele care pretind a fi deschise sau open source — inclusiv Llama de la Meta și Gemma de la Google DeepMind — sunt, de fapt, doar „open weight”. Asta înseamnă că cercetătorii externi pot accesa și utiliza modelele antrenate, dar nu le pot inspecta sau personaliza. De asemenea, nu pot înțelege pe deplin cum au fost adaptate pentru sarcini specifice; de exemplu, folosind feedback uman. „Nu dezvălui multe,dar pot revendica căsunt deschiși deschidere,” spune Dingemanse. Ceea ce este deosebit de îngrijorător, spun autorii, este lipsa de transparență în privința datelor pe care modelele sunt antrenate. Aproximativ jumătate dintre modelele pe care le-au analizat nu oferă detalii despre seturile de date, dincolo de descrieri generice, spun ei.

Un purtător de cuvânt al Google spune că compania este „precisă în ceea ce privește limbajul” folosit pentru a descrie modelele, alegând să eticheteze Gemma LLM ca fiind deschisă, mai degrabă decât open source. „Conceptele existente de open-source nu pot fi întotdeauna aplicate direct la sistemele de IA,” au adăugat ei. Microsoft încearcă să fie „cât mai precisă posibil în ceea ce privește ceea ce este disponibil și în ce măsură”, spune un purtător de cuvânt. „Alegem să facem artefacte precum modele, coduri, instrumente și seturi de date disponibile publicului, deoarece comunitățile de dezvoltatori și cercetători au un rol important în avansarea tehnologiei IA.” Meta nu a răspuns la o solicitare de comentarii din partea revistei Nature. Modelele realizate de firme mai mici și grupuri de cercetare au tendința de a fi mai deschise decât cele ale marilor companii de tehnologie, a constatat analiza. Autorii subliniază BLOOM, construit de o colaborare internațională, în mare parte academică, ca un exemplu de IA cu adevărat open source.

 „Peer review” devine demodat

Cercetările științifice detaliind modelele sunt extrem de rare, au descoperit cei doi. Revizuirea colegială pare să fi „căzut aproape complet în afara modei”, fiind înlocuită de postări pe bloguri cu exemple alese pe sprânceană sau preprinturi corporative care sunt sărace în detalii. Companiile „ar putea lansa un document frumos, atractiv pe site-ul lor, care pare foarte tehnic. Dar dacă îl examinezi cu atenție, nu există nicio specificație despre ce date au intrat în acel sistem,” spune Dingemanse. Nu este încă clar câte dintre aceste modele vor se încadra în definiția UE de open source. Conform legii, aceasta ar trebui să se refere la modelele care sunt lansate sub o licență „liberă și deschisă” care, de exemplu, permite utilizatorilor să modifice un model, dar nu spune nimic despre accesul la datele de antrenament. Refinarea acestei definiții va constitui probabil „un punct de presiune unic care va fi vizat de lobiștii corporativi și de marile companii”, afirmă articolul.

Și deschiderea contează pentru știință, spune Dingemanse, deoarece este esențială pentru reproducibilitate. „Dacă nu o poți reproduce, este greu de spus că este știință,” spune el. Singura modalitate prin care cercetătorii pot inova este prin ajustarea modelelor, iar pentru a face acest lucru au nevoie de suficiente informații pentru a-și construi propriile versiuni. Nu doar atât, dar modelele trebuie să fie deschise pentru a fi examinate. „Dacă nu putem privi în interior pentru a ști cum este făcut cârnatul, nu știm nici dacă să fim impresionați de el,” spune Dingemanse. De exemplu, s-ar putea să nu fie o realizare pentru un model să treacă un anumit examen dacă a fost antrenat pe multe exemple ale testului. Și fără responsabilitatea datelor, nimeni nu știe dacă au fost folosite date nepotrivite sau cu drepturi de autor, adaugă el.

Liesenfeld spune că cei doi speră să ajute alți cercetători să evite „să cadă în aceleași capcane în care am căzut noi”, atunci când caută modele de utilizat în predare și cercetare.

Articolul a fost preluat – vezi Sursa

Top News 2 ore ago

Charles îl ironizează pe Trump la Casa Albă

Regele Charles al III-lea a transformat o cină de stat la Casa Albă într-un...

atacuri Rusiei, avioane F-16, Baza 86 Aeriana, Ro-Alert Tulcea, Ucraina RomaniaSursă foto: Shutterstock
Top News 2 ore ago

Atacuri rusești în Ucraina: F-16 românești decolate după amenințări la graniță

Noi atacuri rusești în Ucraina, avioane F-16 ridicate de la sol în România Noi...

Top News 3 ore ago

Veneția, în pericol de dispariție: soluții radicale pentru salvarea orașului

Ne pregătim să spunem 'adio' Veneției: se lucrează deja la scenariul salvării orașului Cercetătorii...

amenintari moderne, atacuri drone, drona Shahed, Forum Economic Mondial, Ucraina DavosSursă foto: Shutterstock
Top News 3 ore ago

Rusia a survolat granița cu România cu 15 drone, alertă RO-Alert emisă

Rusia a atacat puternic la granița cu România: 15 drone au survolat zona Noi...

Top News 13 ore ago

PSD și AUR desființează grupul disidenților din POT pentru a susține moțiunea de cenzură

PSD și AUR colaborează la Camera Deputaților, desființând grupul disidenților din POT PSD și...

Top News 15 ore ago

Parlamentul a aprobat pachetul de înzestrare militară de 8,33 miliarde de euro

Pachetul de înzestrare militară de 8,33 miliarde de euro a fost aprobat de Parlament...

Top News 20 de ore ago

Parlamentul European a ridicat imunitatea europarlamentarei Diana Șoșoacă

Diana Șoșoacă a rămas fără imunitate după votul Parlamentului European Parlamentul European a aprobat...

Top News 20 de ore ago

Victoria Stoiciu refuză să demisioneze din Senat, în ciuda presiunilor PSD

Victoria Stoiciu, somată să își dea demisia din Senat după plecarea din PSD Senatoarea...

Top News 21 de ore ago

Subvențiile pentru fermieri, prioritate pentru Tánczos Barna în procesul de aprobat

Tánczos Barna: Subvențiile pentru fermieri trebuie să ajungă rapid la beneficiari Ministrul interimar al...

metrorex, metroul din Bucuresti, Radu Miruta, scumpirea calatoriei, tarifele actualeSursă foto: Shutterstock
Top News 22 de ore ago

Scumpirea călătoriei cu metroul din București ar putea fi amânată până în iulie

Scumpirea călătoriei cu metroul din București ar putea fi amânată până în iulie Călătoria...

Confederatia Patronala Concordia, costuri finantare, criza politica Romania, dobanzi credite, pierderi PNRRSursă foto: Shutterstock
Top News 22 de ore ago

Criza politică din România crește costurile de finanțare și riscă pierderi din PNRR

Criza politică din România majorează costurile de finanțare și riscă pierderi din PNRR Confederația...

Top News 22 de ore ago

Sighișoara investește peste 13 milioane de lei în reabilitarea zidurilor cetății

Peste 13 milioane de lei pentru refacerea zidurilor cetății din Sighișoara Primarul Sighișoarei, Iulian...

Top News 22 de ore ago

Depozitul de deșeuri din Brașov se transformă în parc verde cu fonduri europene

Transformarea depozitului de deșeuri din Brașov în zonă verde, cu o investiție de 13...

Top News o zi ago

China blochează achiziția Meta de 2 miliarde de dolari a startupului AI Manus

China obligă Meta să renunțe la achiziția de 2 miliarde de dolari a startupului...

Top News o zi ago

Accident mortal pe DJ 601: Doi tineri au murit în coliziune tragică

Accident tragic pe DJ 601: Doi tineri au murit în coliziune O adolescentă de...

Top News o zi ago

David Silver, fost cercetător Google, atrage 1,1 miliarde de dolari pentru startup-ul AI

Un fost cercetător Google DeepMind atrage 1,1 miliarde de dolari pentru un startup AI...

Top News o zi ago

Regele Charles al III-lea vizitează Casa Albă pentru a întări relațiile cu SUA

Regele Charles al III-lea soseşte la Casa Albă pentru a îmbunătăţi relaţiile cu SUA...

Top News o zi ago

Vučić: România riscă să devină sub influența Statelor Unite în Europa de Est

Președintele Serbiei avertizează despre influența SUA în Europa de Est Președintele Serbiei, Aleksandar Vučić,...

Top News o zi ago

Bolojan acuză o majoritate PSD-AUR

Premierul Ilie Bolojan avertizează că, în cazul în care moțiunea de cenzură împotriva Guvernului...

Top News 2 zile ago

Alin Burcea vinde 70% din Paralela 45 pentru 8,2 milioane EUR

Prețul vânzării participației majoritare la agenția de turism Paralela 45 Alin Burcea, omul de...

Top News 2 zile ago

Impactul manosferei asupra adolescenților: Cum influențează masculinitatea toxică băieții tineri

Redefinirea masculinității: Impactul conținutului din manosferă asupra adolescenților Conținutul din manosferă, promovat prin intermediul...

Top News 2 zile ago

Dungaciu, prim-vicepreședinte AUR, vrea colaborare cu PSD pentru guvernare

Dungaciu, prim-vicepreședinte AUR, vrea colaborare cu PSD pentru guvernare Dan Dungaciu, prim-vicepreședintele partidului extremist...

Top News 2 zile ago

Grindeanu anunță depunerea moțiunii de cenzură cu AUR și cere demisii în PSD

Grindeanu anunță depunerea moțiunii de cenzură împreună cu AUR Președintele PSD, Sorin Grindeanu, a...

Top News 2 zile ago

Aspirina, noua armă împotriva cancerului

Un medicament vechi de mii de ani, folosit astăzi mai ales împotriva durerii și...