【杜蘭說AI】大模型的“大”到底是啥?
2025年05月09日 10:10
大模型的“大”到底是啥?
一共四個維度,
第一,
參數規模,
就像是你吃火鍋時鍋的大小,
也是一切的基礎,
ChatGPT就是一口1750億參數的巨型火鍋,
因為夠大,
所以能涮的食材也多。
這又涉及到了咱們的第二個維度,
訓練數據的規模,
就是咱們涮火鍋的食材種類,
食材越多越豐富,
涮鍋的味道就越香,
這也就是為啥說
“訓練數據決定了模型的知識廣度和深度”。
第三是計算量,
也叫訓練模型的能源消耗,
計算量大不大,
就是在問你這鍋的火力大不大?
一般肯定是火力越強熟得越快,
但也有像DeepSeek這樣,
著名的550萬美元能耗的火鍋,
主打一個“智能控溫”,
能耗小,
湯也能熟。
最後一個叫上下文窗口,
它決定的是模型能同時處理的信息量,
這回咱得支個桌了,
上下文窗口越大,
就相當於你放火鍋的餐桌越大,
那能放的菜品肯定也越多,
模型一次能處理的信息也就越多。
總結起來就是,
大模型就是一鍋容量大、食材多、火力強、桌面寬的火鍋。
好了,
吃個火鍋獎勵一下自己吧。
一共四個維度,
第一,
參數規模,
就像是你吃火鍋時鍋的大小,
也是一切的基礎,
ChatGPT就是一口1750億參數的巨型火鍋,
因為夠大,
所以能涮的食材也多。
這又涉及到了咱們的第二個維度,
訓練數據的規模,
就是咱們涮火鍋的食材種類,
食材越多越豐富,
涮鍋的味道就越香,
這也就是為啥說
“訓練數據決定了模型的知識廣度和深度”。
第三是計算量,
也叫訓練模型的能源消耗,
計算量大不大,
就是在問你這鍋的火力大不大?
一般肯定是火力越強熟得越快,
但也有像DeepSeek這樣,
著名的550萬美元能耗的火鍋,
主打一個“智能控溫”,
能耗小,
湯也能熟。
最後一個叫上下文窗口,
它決定的是模型能同時處理的信息量,
這回咱得支個桌了,
上下文窗口越大,
就相當於你放火鍋的餐桌越大,
那能放的菜品肯定也越多,
模型一次能處理的信息也就越多。
總結起來就是,
大模型就是一鍋容量大、食材多、火力強、桌面寬的火鍋。
好了,
吃個火鍋獎勵一下自己吧。