-
有兴趣自己去查 (水城百事)
[ No text ]
6 views
|
|
|
登录后可以通过微信/Facebook/Twitter/email进行分享
Complete thread:
-
科普一下,在AI领域,token并不是和米,公里,千瓦时一样的标准计量单位。不同的大模型厂家计算方式不同。这如同武松喝了十八碗“三碗不过岗”去打虎,谁知道碗多大?
-
这是基本知识吧?
;
04-29,10:16
(#1526178)
Reply
(水城百事)
-
仅仅中文英文,token的计量方式都有差异。
-
匿名
;
04-29,10:17
(#1526179)
Reply
-
中文token远比英文高效。不少美国模型。底层都是中文。
-
匿名
;
04-29,10:24
(#1526182)
Reply
-
高效一般怎么衡量呢?
-
匿名
;
04-29,10:33
(#1526185)
Reply
-
不懂的话,你可以去问一下AI
-
匿名
;
04-29,11:04
(#1526205)
Reply
-
-
他们已经掌握了中文写底层源代码
-
赞
;
04-29,10:36
(#1526186)
Reply
-
不是。是向量矩阵存的是中文词汇。中文词元要比英文少的多。存储量小很多。而且中文的词关联性高很多。
-
匿名
;
04-29,10:56
(#1526193)
Reply
-
中文天生是高级语言。是为ai量身定制的。
-
华西不高兴
;
04-29,10:59
(#1526199)
Reply
-
行业通用简易换算:1个中文字约等于1个Token,2个汉字标点约等于1个Token。英文以及其他拉丁语系语言的大概规则是1个英文单词约等于1.3个Token,简单估算一下750个英文单词大约就是1000个Token。这个是Gemini给的回答
-
匿名
;
04-29,11:13
(#1526209)
Reply
-
但是OpenAI计算中文token不太一样,它一个汉字算两个token
-
匿名
;
04-29,11:14
(#1526210)
Reply
-
我孩子也有,中文学校玩游戏挣的,没换奖品剩下了
-
匿名
;
04-29,18:54
(#1526338)
Reply
-
-
-
-
-
-
我家还剩了一些token
-
匿名
;
04-29,10:54
(#1526190)
Reply
-
大瀑布的?
-
这不就是2000年的比特币吗?
;
04-29,10:56
(#1526192)
Reply
-
是多伦多公交用的
-
匿名
;
04-29,10:58
(#1526195)
Reply
-
大瀑布用的那个叫薯片,Chips
-
匿名
;
04-29,11:15
(#1526212)
Reply
-
-
-
我问了一下AI,不同模型确实有些差异,但是差异极小。主要差异在于用中文还是英文。所以虽然不是米,但也差不多了,可以比较
-
匿名
;
04-29,11:02
(#1526203)
Reply
-
比如都用英文,不同模型的token数量差异主要来自于词汇量和分词策略,但是一般结果很小
-
匿名
;
04-29,11:03
(#1526204)
Reply
-
所以用token数量来估量AI使用量,以及成本,都非常合理。而不是楼主说的区别那么大
-
匿名
;
04-29,11:04
(#1526206)
Reply
-
-
在工程领域,大,小,差不多,都是不太规范的用词。
-
匿名
;
04-29,11:39
(#1526226)
Reply
-
刻意的模糊化,有可能是为了获得话语权,解释权或者寻租空间。
-
匿名
;
04-29,11:40
(#1526229)
Reply
-
你如果真懂得工程,就应该知道没有绝对的准确。都有一定误差。不影响大概结论即可
-
匿名
;
04-29,17:06
(#1526319)
Reply
-
这里的大概,具体多大?
-
匿名
;
04-29,17:40
(#1526320)
Reply
- 有兴趣自己去查 - 匿名 ; 08:26 (#1526357) Reply
-
-
-
-
英文哪家的AI基本上使用TOKEN数都差不多,但是中文的话,差的有点远。例如每100万个Token,DeepSeek V4:≈ 75 万汉字 / 75 万英文单词,
OpenAI(GPT-3.5/4):≈ 50 万汉字 / 75 万英文单词,
Claude(3/3.5/4):≈ 50~67 万汉字 / 75 万英文单词,
-
匿名
;
04-29,17:59
(#1526321)
Reply
-
中文还是deepseek好用
-
匿名
;
04-29,23:17
(#1526355)
Reply
-
-







