说实话,我读到这个消息的时候愣了一下。
2026年4月,有人想省点跟AI聊天的钱,动了个聪明念头:用文言文。古人用文言文省竹简,按理说也能省token吧?结果“蒹葭苍苍”四个字占了6个token,一个“Biáng”字占了9个。用户用大白话写“我怒了”花3个token,换成文绉绉的“客官震怒”反而花了4个。省了个寂寞。
但真正让我觉得有意思的是另一组数据。国内大模型团队的白皮书里写着:训练同样规模的语料,中文占的token数只有英文的六成。阿里云1个汉字算1个token,DeepSeek那边中文比英文便宜35%。被嫌弃了几千年的方块字,突然在AI时代成了省钱利器。
事情当然没那么顺。有研究者拿软件工程任务做了个测试,发现在有些模型上中文反而比英文多耗28%的token。更要命的是,用中文提问的成功率普遍低于英文。便宜是便宜了,但成事儿的几率也低了——这账算下来未必划算。
读到这儿,我脑子里冒出一个问题:汉语到底是怎么走到今天的?
信息论里有个说法:一个汉字携带的信息量相当于2.4个英文字母。汉字的信息熵是9.65比特,英文只有4.03。这就是为什么同样一份联合国文件,中文版比英文版薄三分之一还多。
代价是什么?是没有冗余。英文里多写个字母、拼错个单词,上下文一猜就懂。汉字不行。一字之差,意思天壤之别。汉语把容错空间压缩到了极致,才换来了那种“一句话顶十句话”的利落。
更凶险的代价,在近代。鲁迅说汉字是“劳苦大众身上的一个结核”,钱玄同说要救国先灭汉字。清末到新中国成立,拼音方案出了几十种,差点就把汉字推下悬崖。
赵元任用两篇奇文把汉字拽了回来。《施氏食狮史》全文都读“shi”,换成拼音就成了毫无意义的噪音。那是一个语言学家的温柔反讽,也是一场惊心动魄的文化自救。
进入计算机时代,汉字又差点被抛弃。早期的编码只有256个字符位,容不下七千多个常用汉字。国际上有人建议联合国取消中文,理由是“没法在电脑上处理”。直到国标码和Unicode相继确立,汉字才算在数字世界里站稳了脚跟。
如今AI来了,汉字又站在了一个微妙的位置上。文言文对人类是极致的美,对AI却是处理成本的噩梦——分词算法只认频率,不认识“蒹葭苍苍”有多美。
我在想,汉语这一路走来,好像每一次都在用“差点活不下来”的代价,换一次“还能站在这儿”的机会。它够紧、够快、够省,但它不是没有伤疤的。那些伤疤,写在拼音化运动的废纸堆里,写在编码标准的争执里,也写在今天那9个token才能打完的“Biáng”字里。
至于AI时代能不能把汉字的信息密度优势真正兑现出来,谁也说不准。但有一点我能确定:这门语言能活到今天,从来不是因为运气好。
汉语 AI 人工智能 大模型 汉字 文化 中文 科技 效率
