fth skrev: ↑08 apr 2024 19:16
spacecoin skrev: ↑08 apr 2024 19:03
ps. Jag håller med Elon i just det här fallet. Han verkar dock ha glömt det själv. Man behöver reella genombrott för att hitta nästa kurva. Det här är inte hårdvara eller Moore's Law.
"March of nines" et.c et.c.
Jag håller också helt med, det enda
enskilda genombrott som skulle kunna resultera i kontinuerlig exponentiell utveckling är att åstadkomma en "feedback loop" av
automatisk förbättring, dvs en modell som tillåts förändra sig själv i grunden, vilket ju tyvärr också kanske är den farligaste vägen framåt.
Jag tror att vi inte behöver oroa oss (tyvärr). Däremot är jag hoppfull att ML kan accelera forskning och medicin och många andra områden.
Härom dagen kom en (ogranskad) forskningsrapport där man menar att det krävs exponentiell träningsdata för linjär progress (ungefär). Eftersom hela internet mer eller mindre är bas för dagens mest avancerade språkmodeller, så behöver man nya grepp.
https://arxiv.org/pdf/2404.04125.pdf
"We comprehensively investigate this question across 34 models and five standard pretraining datasets
(CC-3M, CC-12M, YFCC-15M, LAION-400M, LAION-Aesthetics), generating over 300GB of data
artifacts.
We consistently find that, far from exhibiting “zero-shot” generalization, multimodal models
require exponentially more data to achieve linear improvements in downstream “zero-shot” performance,
following a sample inefficient log-linear scaling trend. This trend persists even when controlling for
sample-level similarity between pretraining and downstream datasets [75], and testing on purely synthetic
data distributions [48]. Furthermore, upon benchmarking models on long-tailed data sampled based on
our analysis, we demonstrate that multimodal models across the board perform poorly. We contribute this
long-tail test set as the Let it Wag! benchmark to further research in this direction. Taken together, our
study reveals an exponential need for training data which implies that the key to “zero-shot” generalization
capabilities under large-scale training paradigms remains to be found."
Där är det där "log"-ordet igen...