百事论坛   本站首页   贵湖华人   主题论坛   滑铁卢黄页 
Linear        

发现很多人其实是本地小模型特点如下: - 参数量极小:可能是2B - 训练集极小:甚至大部分都是污染数据 -预训练轮数少:通常不收敛 - 上下文极小:不超过500字 - 注意力:是稀疏的 - 联网搜索:是不会的 - 思维链:是没有的 - 输出:不是幻觉就是过拟合 (水城百事)

by 匿名, Thursday, July 02, 2026, 08:11

[ No text ]

  13 views
1329271 Postings in 193845 Threads, 2660 registered users, 1097 users online (2 registered, 1095 guests)
滑铁卢华人|KWCG生活论坛-Kitchener, Waterloo, Cambridge & Guelph华人的网上家园