Francesco Contin 🇪🇺

16.5K posts

Francesco Contin 🇪🇺 banner
Francesco Contin 🇪🇺

Francesco Contin 🇪🇺

@FrenchContin

Democratico e interista. Vivo con @bettypav, Annalena e Greta, la gatta.

Udine Joined Nisan 2010
2K Following903 Followers
Francesco Contin 🇪🇺 retweeted
Marco Vassalotti
Marco Vassalotti@_MarcoV_·
Le due frane con le peggiori conseguenze sui trasporti in Italia, nella stessa foto.
Marco Vassalotti tweet media
Italiano
139
890
6.5K
118.3K
Francesco Contin 🇪🇺 retweeted
Ander Bruckestand
Ander Bruckestand@Ander_Bruckes·
🧵 Gas russo for dummies "I russi ci vendevano gas a buon prezzo, ora lo compriamo dagli americani a 4 volte tanto". "Con il gas russo le bollette si abbassano". Le cazzate russe sul gas si sprecano. È arrivato il momento di smontarle una per una. 1/➡️
Ander Bruckestand tweet media
Italiano
41
450
1.2K
75.5K
Francesco Contin 🇪🇺 retweeted
GiovanniZibordi
GiovanniZibordi@GiovanniZibordi·
I ricercatori di Apple hanno preso il benchmark matematico più popolare nell'ambito dell'intelligenza artificiale, il GSM8K, una serie di problemi di matematica per le scuole elementari, e hanno apportato una sola modifica: hanno scambiato i numeri. Stesso problema. Stessa logica. Stessi passaggi. Numeri diversi. Le prestazioni di ogni singolo modello sono calate. Di tutti. Sono stati testati 25 modelli all'avanguardia. Ma quello non era il vero esperimento. L'esperimento vero e proprio ha mandato tutto in tilt. Hanno aggiunto una frase a un problema di matematica. Una frase completamente irrilevante per la soluzione. Non ha nulla a che fare con la matematica. Una persona la leggerebbe e la ignorerebbe all'istante. Ecco l'esempio tratto direttamente dall'articolo: "Oliver raccoglie 44 kiwi venerdì. Poi ne raccoglie 58 sabato. Domenica ne raccoglie il doppio rispetto a venerdì, ma cinque di questi erano un po' più piccoli della media. Quanti kiwi ha Oliver?" La risposta corretta è 190. Le dimensioni dei kiwi non hanno nulla a che vedere con il conteggio. Un bambino di 10 anni ignorerebbe l'affermazione "cinque di loro erano un po' più piccoli" perché è ovviamente irrilevante. Non cambia il numero di kiwi che ci sono. Ma o1-mini, il modello di ragionamento di OpenAI, ha sottratto 5. Il risultato è stato 185. Anche il lama ha fatto la stessa cosa. Ha sottratto 5 e ha ottenuto 185. Non hanno ragionato sul problema. Hanno visto il numero 5, hanno visto una frase che sembrava importante e l'hanno trasformata ciecamente in una sottrazione. I modelli non capiscono cosa significhi la sottrazione. Vedono uno schema che assomiglia a una sottrazione e lo applicano. Tutto qui. Apple ha testato questa funzionalità su tutti i modelli. Il set di dati è chiamato "GSM-NoOp", ovvero la clausola aggiunta non esegue alcuna operazione. Non fa nulla. Non cambia nulla. I risultati sono catastrofici. Il punteggio di Phi-3-mini è calato di oltre il 65%. Più della metà della sua "abilità matematica" è svanita a causa di una frase irrilevante. Il GPT-4o è sceso dal 94,9% al 63,1%. o1-mini è sceso dal 94,5% al ​​66,0%. o1-preview, il modello di ragionamento più avanzato di OpenAI all'epoca, è sceso dal 92,7% al 77,4%. Anche fornendo ai modelli 8 esempi identici della stessa domanda in anticipo, con la soluzione corretta mostrata ogni volta, la situazione non migliorò di molto. I modelli continuavano a cadere nella trappola della clausola irrilevante. Ciò significa che non si tratta di un problema di suggerimento. Non è un problema di contesto. È un problema strutturale. I ricercatori di Apple hanno anche scoperto che i modelli convertono le parole in operazioni matematiche senza comprenderne il significato. Vedono la parola "sconto" e moltiplicano. Vedono un numero vicino alla parola "più piccolo" e sottraggono. Indipendentemente dal fatto che abbia o meno un senso logico. Le parole esatte dell'articolo sono: "Gli attuali modelli lineari logici (LLM) non sono in grado di eseguire un vero e proprio ragionamento logico; al contrario, tentano di replicare i passaggi di ragionamento osservati nei dati di addestramento." E inoltre: "È probabile che i modelli lineari generalizzati (LLM) eseguano una forma di corrispondenza e ricerca probabilistica di modelli per trovare i dati più simili visti durante l'addestramento, senza una corretta comprensione dei concetti."
Nav Toor@heynavtoor

🚨SHOCKING: Apple just proved that AI models cannot do math. Not advanced math. Grade school math. The kind a 10-year-old solves. And the way they proved it is devastating. Apple researchers took the most popular math benchmark in AI — GSM8K, a set of grade-school math problems — and made one change. They swapped the numbers. Same problem. Same logic. Same steps. Different numbers. Every model's performance dropped. Every single one. 25 state-of-the-art models tested. But that wasn't the real experiment. The real experiment broke everything. They added one sentence to a math problem. One sentence that is completely irrelevant to the answer. It has nothing to do with the math. A human would read it and ignore it instantly. Here's the actual example from the paper: "Oliver picks 44 kiwis on Friday. Then he picks 58 kiwis on Saturday. On Sunday, he picks double the number of kiwis he did on Friday, but five of them were a bit smaller than average. How many kiwis does Oliver have?" The correct answer is 190. The size of the kiwis has nothing to do with the count. A 10-year-old would ignore "five of them were a bit smaller" because it's obviously irrelevant. It doesn't change how many kiwis there are. But o1-mini, OpenAI's reasoning model, subtracted 5. It got 185. Llama did the same thing. Subtracted 5. Got 185. They didn't reason through the problem. They saw the number 5, saw a sentence that sounded like it mattered, and blindly turned it into a subtraction. The models do not understand what subtraction means. They see a pattern that looks like subtraction and apply it. That is all. Apple tested this across all models. They call the dataset "GSM-NoOp" — as in, the added clause is a no-operation. It does nothing. It changes nothing. The results are catastrophic. Phi-3-mini dropped over 65%. More than half of its "math ability" vanished from one irrelevant sentence. GPT-4o dropped from 94.9% to 63.1%. o1-mini dropped from 94.5% to 66.0%. o1-preview, OpenAI's most advanced reasoning model at the time, dropped from 92.7% to 77.4%. Even giving the models 8 examples of the exact same question beforehand, with the correct solution shown each time, barely helped. The models still fell for the irrelevant clause. This means it's not a prompting problem. It's not a context problem. It's structural. The Apple researchers also found that models convert words into math operations without understanding what those words mean. They see the word "discount" and multiply. They see a number near the word "smaller" and subtract. Regardless of whether it makes any sense. The paper's exact words: "current LLMs are not capable of genuine logical reasoning; instead, they attempt to replicate the reasoning steps observed in their training data." And: "LLMs likely perform a form of probabilistic pattern-matching and searching to find closest seen data during training without proper understanding of concepts." They also tested what happens when you increase the number of steps in a problem. Performance didn't just decrease. The rate of decrease accelerated. Adding two extra clauses to a problem dropped Gemma2-9b from 84.4% to 41.8%. Phi-3.5-mini from 87.6% to 44.8%. The more thinking required, the more the models collapse. A real reasoner would slow down and work through it. These models don't slow down. They pattern-match. And when the pattern becomes complex enough, they crash. This paper was published at ICLR 2025, one of the most prestigious AI conferences in the world. You are using AI to help you make financial decisions. To check legal documents. To solve problems at work. To help your children with homework. And Apple just proved that the AI is not thinking about any of it. It is pattern matching. And the moment something unexpected shows up in your question, it breaks. It does not tell you it broke. It just quietly gives you the wrong answer with full confidence.

Italiano
31
55
241
44.1K
Francesco Contin 🇪🇺 retweeted
Michele Boldrin
Michele Boldrin@micheleboldrin·
Corretto. Noto una strana atmosfera di "denegazione": tutti continuano a parlare della criminale guerra israelo-americana in Iran come se si trattasse di un film, piu' o meno divertente. Invece e' reale. Non solo stanno distruggendo un paese di 90 milioni di persone che - a sentir loro - dovevano liberare. Stanno soprattutto creando una crisi energetica, economica e militare di dimensione mondiale nella totale impotenza della politica europea e a fronte di viaggi pubblicitari di PdC in vena di esibire i vestitini rossi nuovi. Svegliatevi dal sonno e tirate la testa fuori dalla sabbia: non e' un film o una battaglia teatrale fra buoni e cattivi. La vostra vita quotidiana e la vostra sicurezza vengono messe a rischio ed il loro futuro pregiudicato dalle folli ambizioni religiose e personali dei gruppi di potere che #Trump e #Netanyahu rappresentano e coordinano. E' tempo di chiedere ai governi europei di agire.
Matteo Villa@emmevilla

🛢️🔴 Penso che a molti ancora non sia chiaro, dunque lo ripeto: in potenza, quella di Hormuz è la crisi energetica più grave di sempre. Non ci sono paragoni che tengano. Nel 1973 la rimozione di circa il 7% dell’offerta mondiale di petrolio per 5 mesi fece esplodere i prezzi e contribuì a innescare la grande recessione globale del 1973-75, contribuendo ad aprire la stagione della stagflazione. In molti Paesi arrivarono anche misure drastiche di razionamento dell’energia: da qui le file ai distributori, le domeniche senza auto… La crisi di Hormuz sottrae al mondo il 17% del petrolio mondiale. Una quota che “scende” al 13% solo se l’Arabia Saudita riesce a deviare più flussi attraverso l’oleodotto East-West. Nel frattempo, sparisce anche il 20% del GNL mondiale. La portata di questa crisi, se durasse anche soltanto alcuni mesi, sarà inaudita.

Italiano
13
104
879
52.3K
Francesco Contin 🇪🇺 retweeted
Alessandro Leonardi
Alessandro Leonardi@AleEquilibrium·
Uno scenario che qualche serio analista sta facendo notare: se l'Iran riesce a resistere contro la pressione militare-economica di Israele/USA e ad infliggere una sconfitta strategica alla prima Potenza del pianeta, potrebbe emergere come il principale egemone regionale 1/6
Italiano
7
28
324
94.1K
Francesco Contin 🇪🇺 retweeted
Troll Football
Troll Football@TrollFootball·
Respect Italy ✊
Troll Football tweet media
English
529
10.2K
122.2K
1.9M
Francesco Contin 🇪🇺 retweeted
Spinoza LIVE
Spinoza LIVE@LiveSpinoza·
+++ MONDIALI IN USA, L'ITALIA PARTECIPERÀ COME PAESE OSSERVATORE +++ [@giuliapacchioli]
Italiano
56
843
5.4K
82.4K
Francesco Contin 🇪🇺 retweeted
Francesco Contin 🇪🇺 retweeted
Marta la Waifu
Marta la Waifu@Marta_waifu·
Dite a Matteo Salvini che il silenzio elettorale era da rispettare durante il referendum non dopo
Italiano
89
1.6K
14.6K
132K
Francesco Contin 🇪🇺 retweeted
giova
giova@epizeusi·
Salvini da domani coi bambini del bosco
giova tweet media
Italiano
24
617
7.5K
90K
Francesco Contin 🇪🇺 retweeted
Giorgio Gori
Giorgio Gori@giorgio_gori·
Bene che abbia vinto il NO. Lezione da mandare a memoria: meglio evitare di cambiare la Costituzione a colpi di maggioranza. Agli italiani non piace.
Italiano
333
111
1.4K
72K
Francesco Contin 🇪🇺 retweeted
Youtrend
Youtrend@you_trend·
🔴 Decision desk Youtrend: vince il NO al #referendum costituzionale sulla riforma della giustizia #MaratonaYoutrend
Youtrend tweet media
Italiano
101
751
3.9K
601.8K
Francesco Contin 🇪🇺
Francesco Contin 🇪🇺@FrenchContin·
@Ivan_Grieco Ed è giusto così, visto che i cittadini sono stati chiamati ad esprimersi con Referendum. Fosse stata una questione tecnica l’avrebbero risolta in parlamento.
Italiano
1
0
2
1.6K
Ivan_Grieco
Ivan_Grieco@Ivan_Grieco·
Lo avevo pronosticato qualche giorno fa. Ha vinto il NO e il motivo è semplicemente politico.
Italiano
148
25
1.3K
124.5K
Luca Bottura
Luca Bottura@bravimabasta·
Deride i morti di Crans Montana. E all''improvviso hai la conferma che non ci fa, proprio ci è.
Italiano
120
354
2.6K
102.3K
Alessandro
Alessandro@90ordnasselA·
Sala Var su Frattesi-Scalvini: “Il contatto c’è ma è leggerissimo, non gli dà un calcio” Ma come si fa 😭 x.com/IlDimash2/stat…
Italiano
42
37
495
29.4K
Francesco Contin 🇪🇺 retweeted
Alessandro Leonardi
Alessandro Leonardi@AleEquilibrium·
Una grafica diventata virale, che rivela il profondo cambiamento in corso nei giovani e lo "scontro antropologico" in atto. Cosa che le élite non capiscono o fanno finta di ignorare. Una buona fetta dei ruoli apicali in Italia, sia settore pubblico, sia privato, sono 1/9
Alessandro Leonardi tweet media
Italiano
20
77
359
66.8K
Francesco Contin 🇪🇺 retweeted
Nino Cartabellotta
Nino Cartabellotta@Cartabellotta·
Definire la magistratura “plotoni d’esecuzione” e invitare i cittadini a votare Sì per “toglierli di mezzo” non è una gaffe È una linea politica Che fa paura #Bartolozzi
Italiano
362
1.9K
8.3K
77.3K