Det er fjollet og tvetydigt at kalde en model med 6x10^9 parametre for “6B”.

Jeg pauser tit for lige at oversætte ting som “trained on 1.5T tokens” til “trænet på halvanden billion tokens”; eller “contains 13B parameters” til “indeholder 13 milliarder parametre”.

Ikke engang de engelsk-talende lande er enige om store talnavne.

Der findes allerede standard-notation for store tal. Vi burde nok sige “6G” i stedet for “6B”.

Det er ekstra dumt fordi “B” normalt betyder “byte”… ⌘ Read more

⤋ Read More

Participate

Login or Register to join in on this yarn.