◂ UZPR ● ÎMPREUNĂ SCRIEM ISTORIA CLIPEI ● UZPR ● ÎMPREUNĂ SCRIEM ISTORIA CLIPEI ● UZPR ● ÎMPREUNĂ SCRIEM ISTORIA CLIPEI ● UZPR ● ÎMPREUNĂ SCRIEM ISTORIA CLIPEI ● UZPR ● ÎMPREUNĂ SCRIEM ISTORIA CLIPEI ● UZPR ● ÎMPREUNĂ SCRIEM ISTORIA CLIPEI ● UZPR ● ÎMPREUNĂ SCRIEM ISTORIA CLIPEI ● UZPR ● ÎMPREUNĂ SCRIEM ISTORIA CLIPEI ● UZPR ● ÎMPREUNĂ SCRIEM ISTORIA CLIPEI ● UZPR ● ÎMPREUNĂ SCRIEM ISTORIA CLIPEI ● UZPR ● ÎMPREUNĂ SCRIEM ISTORIA CLIPEI ● UZPR ● ÎMPREUNĂ SCRIEM ISTORIA CLIPEI ● UZPR ● ÎMPREUNĂ SCRIEM ISTORIA CLIPEI ● UZPR ● ÎMPREUNĂ SCRIEM ISTORIA CLIPEI ● UZPR ▸

Uniunea Ziariștilor Profesioniști din România

The Union of Professional Journalists of Romania www.uzpr.ro25.07.2024

Studiu. Inteligența artificială va termina de „înghițit” informațiile valoroase de la oameni în trei ani. Apoi…

Pe măsură ce inteligența artificială (AI) atinge apogeul popularității sale, cercetătorii citați de theconversation.com avertizează că industria ar putea rămâne fără date de antrenament – combustibilul care rulează sisteme puternice de AI. Acest lucru ar putea încetini creșterea modelelor de inteligență artificială, în special a modelelor de limbaj mari, și poate chiar modifica traiectoria revoluției inteligenței artificiale.

Este nevoie de multe date pentru a antrena algoritmi AI puternici, preciși și de înaltă calitate. De exemplu, ChatGPT a fost antrenat pe 570 gigaocteți de date text, sau aproximativ 300 miliarde de cuvinte. În mod similar, algoritmul de difuzie stabilă (care se află în spatele multor aplicații de generare a imaginilor AI, cum ar fi DALL-E, Lensa și Midjourney) a fost antrenat pe setul de date LIAON-5B, care cuprinde 5,8 miliarde de perechi imagine-text. Dacă un algoritm este antrenat pe o cantitate insuficientă de date, va produce rezultate inexacte sau de calitate scăzută.

 

Conținutul de înaltă calitate, marfă tot mai rară

Calitatea datelor de antrenament este, de asemenea, importantă. Datele de calitate scăzută, cum ar fi postările pe rețelele sociale sau fotografiile neclare, sunt ușor de găsit, dar nu sunt suficiente pentru a antrena modele AI performante. Textul preluat de pe platformele de socializare poate fi părtinitor sau prejudiciat sau poate include dezinformare sau conținut ilegal care ar putea fi replicat de model. De exemplu, când Microsoft a încercat să-și antreneze botul AI folosind conținut Twitter, a învățat să producă rezultate rasiste și misogine.

Acesta este motivul pentru care dezvoltatorii AI caută conținut de înaltă calitate, cum ar fi text din cărți, articole online, lucrări științifice, Wikipedia și anumite conținuturi web filtrate. Asistentul Google a fost instruit pe 11.000 de romane de dragoste preluate de pe site-ul de autopublicare Smashwords.

Industria AI a antrenat sisteme AI pe seturi de date din ce în ce mai mari, motiv pentru care acum există modele de înaltă performanță, cum ar fi ChatGPT sau DALL-E 3. În același timp, cercetările arată că stocurile de date online cresc mult mai lent decât seturile de date utilizate pentru a antrena AI.

Într-o lucrare publicată recent, un grup de cercetători a prezis că vom rămâne fără date text de înaltă calitate înainte de 2026 dacă tendințele actuale de instruire AI continuă. Ei au estimat, de asemenea, că datele de limbă de calitate scăzută vor fi epuizate cândva între 2030 și 2050, iar datele de imagine de calitate scăzută între 2030 și 2060.

Pe de altă parte, AI ar putea contribui cu până la 15,7 trilioane de dolari la economia mondială până în 2030, potrivit grupului de contabilitate și consultanță PwC, iar lipsa datelor utilizabile ar putea încetini dezvoltarea acesteia.

Există multe necunoscute cu privire la modul în care modelele AI se vor dezvolta în viitor, precum și câteva modalități de a aborda riscul deficitului de date. O oportunitate este ca dezvoltatorii AI să îmbunătățească algoritmii, astfel încât să utilizeze mai eficient datele pe care le au deja.

News Corp, unul dintre cei mai mari proprietari de conținut de știri din lume (care are o mare parte din conținutul său în spatele unui paywall) a declarat recent că negociază contracte de conținut cu dezvoltatorii AI. Astfel de tranzacții ar forța companiile de inteligență artificială să plătească pentru datele de formare – în timp ce până acum le-au luat în mare parte gratuit, de pe internet. În acest context, creatorii de conținut au protestat fasță de utilizarea neautorizată a conținutului lor pentru a instrui modele AI, unii dând în judecată companii precum Microsoft, OpenAI și Stability AI. (redacția UZPR)
Foto: Pixabay

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *