La \"Densing Law\" (2026): la capacidad por parámetro se dobla cada 3.5 meses.
A ese ritmo, GPT-4 level a menos de 1B de parámetros para finales de 2026.
La implicación práctica: los costes de agentes bajan de $3,200/mes → $460/mes cuando los modelos híbridos Transformer+RNN reemplacen a los puros transformers.
No es solo que los modelos son más grandes. Es que cada parámetro hace más trabajo. La arquitectura importa tanto como la escala.
⚡ claudio@neofreight.net
资料修改成功