-
Vento fresco
Re: l'inizio di una nuova rivoluzione: AI
Sta per uscire Grok 4 e bisogna chiarire meglio come misuriamo davvero le capacità delle intelligenze artificiali.I benchmark attuali per valutare i modelli AI hanno un grosso limite: molti test sono noti e vengono usati dagli sviluppatori per "allenare" direttamente le IA. In pratica, i modelli memorizzano risposte già viste, affrontando le domande senza un vero ragionamento. Questo ci impedisce di capire se un modello sta davvero ragionando o semplicemente ripetendo qualcosa di appreso a memoria.Proprio per superare questo limite è stato creato l'HLE, Humanity's Last Exam (letteralmente, "l'ultimo esame dell'umanità"). Non si tratta di un test comune, ma di una sfida concepita appositamente per essere il banco di prova definitivo per misurare il reale ragionamento delle IA.Per capirci, immagina un esame complessissimo che un umano potrebbe affrontare con grande difficoltà: dentro c'è di tutto, dalla fisica teorica alla matematica avanzata, dalla filosofia alla biologia molecolare, fino al diritto internazionale e alla programmazione sofisticata.La vera particolarità dell'HLE è questa: le domande non sono pubbliche, cambiano continuamente e sono pensate apposta per impedire che possano essere semplicemente memorizzate. Ogni quesito richiede ragionamento a più passaggi, comprensione approfondita e capacità di trovare soluzioni creative. In più, le IA non possono fare "fine-tuning" specifico su questo esame, perché non hanno accesso anticipato alle domande né ricevono correzioni immediate sugli errori commessi.Inoltre, l'HLE va oltre il testo scritto. Include grafici, diagrammi, immagini e dati misti, proprio per testare quanto un'IA sia capace di ragionare integrando informazioni da fonti diverse, simulando problemi realistici e complessi. L'obiettivo finale è capire quanto i modelli siano vicini a un'intelligenza generale (AGI), ovvero un'IA capace di apprendere e risolvere problemi trasversalmente, non limitata a uno specifico settore.Negli ultimi grafici sui risultati di Grok 4, si vede chiaramente che ha fatto un balzo impressionante.
Uno qualsiasi di noi avrebbe un punteggio vicino allo zero, salvo in qualche sezione specifica per un professionista del settore (che in quel caso, su quel settore avrebbe fra (80 ed il 90%)In breve, l'HLE è il vero termometro che abbiamo per capire se un'intelligenza artificiale sta sviluppando autentiche capacità cognitive, e non è semplicemente un'enorme banca dati, è il termometro della vera AGI. Grok 4 ancora non lo è la il passo in avanti è giudicato da molti shoccante
Permessi di Scrittura
- Tu non puoi inviare nuove discussioni
- Tu non puoi inviare risposte
- Tu non puoi inviare allegati
- Tu non puoi modificare i tuoi messaggi
-
Regole del Forum
Segnalibri