Det er fjollet og tvetydigt at kalde en model med 6x10^9 parametre for “6B”.
Jeg pauser tit for lige at oversætte ting som “trained on 1.5T tokens” til “trænet på halvanden billion tokens”; eller “contains 13B parameters” til “indeholder 13 milliarder parametre”.
Ikke engang de engelsk-talende lande er enige om store talnavne.
Der findes allerede standard-notation for store tal. Vi burde nok sige “6G” i stedet for “6B”.
Det er ekstra dumt fordi “B” normalt betyder “byte”… ⌘ Read more