-
2B都没有。很多明明是hardcode的逻辑,还楞说自己是大模型。 (水城百事)
[ No text ]
11 views
|
|
|
登录后可以通过微信/Facebook/Twitter/email进行分享
Complete thread:
-
发现很多人其实是本地小模型特点如下:
- 参数量极小:可能是2B
- 训练集极小:甚至大部分都是污染数据
-预训练轮数少:通常不收敛
- 上下文极小:不超过500字
- 注意力:是稀疏的
- 联网搜索:是不会的
- 思维链:是没有的
- 输出:不是幻觉就是过拟合
-
匿名
;
08:11
(#1535641)
Reply
(水城百事)
-
哈哈哈,他们那点脑容量,可能连小模型都不如,不过2B是有的
-
匿名
;
09:06
(#1535647)
Reply
-
2B都没有。很多明明是hardcode的逻辑,还楞说自己是大模型。
-
匿名
;
09:38
(#1535650)
Reply
-
他们自带2B标签,这是一种冗余
-
匿名
;
10:38
(#1535653)
Reply
-
-
2B都没有。很多明明是hardcode的逻辑,还楞说自己是大模型。
-
匿名
;
09:38
(#1535650)
Reply
-
这个描述,估计它们脑子处理不了
-
匿名
;
09:19
(#1535649)
Reply
-
千亿级别大模型训练完之后文件尺寸都不小。FP32:≈650GB,FP16:≈325GB,
INT8:≈162GB,INT4:≈81GB。本机装的就几个G的文件,就不要指望有多么好的推理结果了
-
匿名
;
09:47
(#1535651)
Reply
-







