【杜兰说AI】大模型的“大”到底是啥?

2025年05月09日 10:10

大模型的“大”到底是啥?
一共四个维度,
第一,
参数规模,
就像是你吃火锅时锅的大小,
也是一切的基础,
ChatGPT就是一口1750亿参数的巨型火锅,
因为够大,
所以能涮的食材也多。

这又涉及到了咱们的第二个维度,
训练数据的规模,
就是咱们涮火锅的食材种类,
食材越多越丰富,
涮锅的味道就越香,
这也就是为啥说
“训练数据决定了模型的知识广度和深度”。

第三是计算量,
也叫训练模型的能源消耗,
计算量大不大,
就是在问你这锅的火力大不大?
一般肯定是火力越强熟得越快,
但也有像DeepSeek这样,
着名的550万美元能耗的火锅,
主打一个“智能控温”,
能耗小,
汤也能熟。

最後一个叫上下文窗口,
它决定的是模型能同时处理的信息量,
这回咱得支个桌了,
上下文窗口越大,
就相当於你放火锅的餐桌越大,
那能放的菜品肯定也越多,
模型一次能处理的信息也就越多。

总结起来就是,
大模型就是一锅容量大、食材多、火力强、桌面宽的火锅。
好了,
吃个火锅奖励一下自己吧。

相关新闻