你的大语言模型无法阅读。以下是它转而使用的奇特技巧

发布日期：2026-06-13 10:01:55 浏览量：4

发布日期：2026-06-13 10:01:55

4

免费领取国家顶级域名（.cn/.中国）

欢迎加入国家域名信源站点导航

站点智能：AI搭建 AI辅助运营独立站，把生意做到全世界

这里有一个事实，当人们第一次真正深入思考时，它会打破他们对大型语言模型的固有认知：

语言模型从未“看到”你的文字。一个都没有。它看到的只是数字——而且仅仅是数字。

当你在 ChatGPT 中输入 Hello, world 时，另一端的模型并不是在阅读英语。当你的文本到达神经网络时，它已经被切割成称为词元（tokens）的片段，并且每个片段都被替换为一个整数 ID。在所有神奇表象之下，该模型本质上是一个将整数映射为整数的昂贵函数。所谓的“智能”就发生在这个映射过程中。

让我们实际来看一下。

亲眼见证（5 行 Python 代码）

# pip install tiktoken
import tiktoken

enc = tiktoken.get_encoding("cl100k_base")  # GPT-4 时代的分词器
ids = enc.encode("Hello, world")
print(ids)                       # -> [9906, 11, 1917]
print([enc.decode([i]) for i in ids])  # -> ['Hello', ',', ' world']

三个词元。Hello 是一个词元。逗号是它自己的词元。那么 world 呢？它显示为 ' world' ——前导空格被固定包含在内。 这个空格是词元的一部分。这不是舍入误差；它是整个工作机制的核心。

那么，究竟什么是词元？

词元是常见的文本片段。它不一定是一个单词，也不一定是一个字母——只要是分词器在海量文本训练过程中认为有用的任何内容即可。常见单词会成为单个词元。罕见单词则会被拆分成碎片：

for word in ["playing", "tokenization", "antidisestablishmentarianism"]:
    print(word, "->", [enc.decode([i]) for i in enc.encode(免责声明：本文内容来自互联网，该文观点不代表本站观点。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，请到页面底部单击反馈，一经查实，本站将立刻删除。


                
                                
                
                                                                
                    
                        
        上一篇 :
        
            推出 BabyChain：基于 AWS Aurora 和 Vercel 的持久化图像与视频模型链
        
    
    
        下一篇 :
        
            技术债务有了新的成本中心
        
    
                    
                    
                        
                            分享到：


            
                
                扫一扫 在手机上阅读
                
        
            
            看了又看
            
        
                    
                
                    
                    
                    
                      GhostPilot：利用视觉同步定位与建图（SLAM）结合代理式人工智能，构建无全球定位系统（GPS）环境下的无人机导航技术栈
                    
                
            
                    
                
                    
                    
                    
                      解决那些不起眼的问题一直是我们的目标，以便您能为客户构建产品。
                    
                
            
                    
                
                    
                    
                    
                      如何使用云开发工具包和 GitHub 动作将 NestJS 部署到亚马逊云科技 Lambda
                    
                
            
                    
                
                    
                    
                    
                      信源博客入驻




    


    

    
    
    
    
        
    
    
            
    
        
    
        
            关于我们
        
    



    
        
            热门推荐
        
    



    
        
            合作伙伴
        
    



    
        
                    
                热门标签
热门搜索
热门资讯
热门产品
            
            


    
        
                    
                城市加盟
商务合作
寻求报道
关于我们
我要入驻
联系我们
投资关系
加入我们
            
            


    
        
        
        
        
    

    
        
        
        
        
    

    
        
        
        
        
    

    
        
        
        
        
    

    
        
        
        
        
    

    
        
        
        
        
    

    
        
        
        
        
    

    
        
        
        
        
    

    
        
        
        
        
    

    
        
        
        
        
    

    
        
    

    
        
            免责声明：本站部分资讯来源于网络，如有侵权请及时联系客服，我们将尽快处理
        
    




    
        
            
                Copyright ©2022-2024 2B2C 版权所有 浙ICP备16025413号-9 营业执照
            
        
    

    
        
            立即咨询
        
    



    

        
    

    
    




    

    
    
        
            
                
            
            长按屏幕识别二维码
            打开手机扫描二维码
        
    














    
    
        
            
                
                
            
        
    



    
        
            
                
                请选择一种导航方式
            
            
                
            
            
                
            
        
    





    
    


    
    
        
            
            
            
        
        
            
                
                
                
                
                
                
                    
                        
                            
                        
                    
                
            
            
                
            
            
            
            
                
            
        
    



    




    
        友情链接:
                                    杭州电子商务研究院
                                                企通社
                                                epower企服引擎
                                                二十二科技集团
                                                第一商务
                                                域名交易
                                                爱名奖
                                                LTD方法论
                                                营销SaaS
                                                22知协
                                                .Co.Ltd数字门户
                                                ToB总监联盟
                                                网站编辑器
                                                官微名片
                                                丽水山泉
                                                浙工大校友企业家联谊会
                                                站点智能
                                                DMP
                                                西湖龙井茶官网
                                                标诺网
                                                欧朋不锈钢全屋定制
                                                智元营销
                                                港宏桥
                                                通用站点案例库
                                        更多
            

    
                    Copyright © 2025-2027  ToB产业网址导航
        
        
                    
                
                浙公网安备33010602013138号
            
        
                    
                浙ICP备16025413号-9
            
        
    
                        
                
                    
                    
                    支持
                
                
                    
                    
                    反馈
                
                
                    
                    订阅
                
                
                    
                    
                    数据