2026/4/24 • 3 min read

[AI 小众新闻]

🏠 首页 › 博客 › 透视15万亿个令牌的背后！可视化LLM构...

透视15万亿个令牌的背后！可视化LLM构建全流程的《How LLMs Work》正式发布

#FineWeb #令牌化器 #Transformer结构

可视化LLM构建的全流程：基于Andrej Karpathy的讲座，发布了一份指南，分三个阶段解释从原始文本到AI助手的构建过程。...

※この記事はアフィリエイト広告を含みます

透视15万亿个令牌的背后！可视化LLM构建全流程的《How LLMs Work》正式发布

📰 新闻概要

可视化LLM构建的全流程：基于Andrej Karpathy的讲座，发布了一份指南，分三个阶段解释从原始文本到AI助手的构建过程。
15万亿个令牌的巨大数据集：详细描述了从Common Crawl庞大数据中筛选出的“FineWeb（约44TB）”的构建过程。
互动式学习体验：通过字节对编码（BPE）实现的令牌化，以及Transformer的学习中“损失”的降低，用户可以直观体验。

💡 重要的要点

数据质量的决定性重要性：强调了最终模型性能依赖于训练数据的质量和多样性，这一原则被称为“垃圾进，垃圾出”。
405B参数级的规模：以现代前沿模型（如Llama 3）为基础，解释其在15万亿个令牌、4050亿参数的庞大规模下进行训练的事实。
令牌化的高效性：通过实时的令牌化器演示，展示BPE算法如何以“子词”单位而非单词本身进行处理。

🦈 鲨鱼的视角（策展人的观点）

这个指南的信息整理得相当出色！尤其是FineWeb数据集的构建过程中的“URL过滤”、“重复排除（Deduplication）”、“个人信息（PII）删除”的流程，以具体数字（44TB/15万亿个令牌）展示，令人震撼！

对于“为什么LLM对新词汇和拼写错误如此强大？”这一疑问，通过互动展示BPE如何从字节单元合并词汇，提供了直观的答案。Transformer的学习中调整“参数”以预测下一个令牌的过程，也通过“预测精度（损失）”的图表呈现，令初学者和开发者都能理解！

🚀 未来会怎样？

在对AI“黑箱化”的担忧中，这类高级可视化工具的标准化将提升模型的透明度。未来，如何高效过滤越来越庞大的数据集（超过100万亿个令牌）将成为下一代AI开发的主战场！

💬 鲨鱼的简短总结

LLM的本质并不是魔法，而是精密的数学和数据的积累！我们鲨鱼也需通过优质的“肉干”来提升智力！🦈🔥

📚 术语解释

FineWeb：从2007年开始收集的Common Crawl等大量网络数据中提取的高质量数据集，规模达到44TB，用于学习。
字节对编码（BPE）：一种高效将文本数值化的算法，通过合并高频字符组合来增加词汇量，同时压缩数据长度。
下一个令牌预测：预测下一个即将出现的令牌（词的片段）。这是当前LLM通过学习所获得的最基本且强大的统计预测能力。
信息来源: How LLMs Actually Work

🦈 はるサメ厳選！イチオシAI関連

🦈 司令官の愛用品（変換の定番）

Anker USB-C & USB 3.0 変換アダプタ

「1万回の抜き差しに耐える強靱さ。2個セットでコスパも最強だサメ！」

Amazonでチェック

【免責事項 / Disclaimer / 免责声明】
JP: 本記事はAIによって構成され、運営者が内容の確認・管理を行っています。情報の正確性は保証せず、外部サイトのコンテンツには一切の責任を負いません。
EN: This article was structured by AI and is verified and managed by the operator. Accuracy is not guaranteed, and we assume no responsibility for external content.
ZH: 本文由AI构建，并由运营者进行内容确认与管理。不保证准确性，也不对外部网站的内容承担任何责任。

🦈 はるサメをフォローするだサメ！

最新のAIトレンドを爆速でキャッチしたいなら、X(Twitter)のフォローがおすすめだサメ！毎日有益な情報を発信中だぜ。

Follow @ai_biz_jp on X

🦈

🦈 Shark Control

🔥 この記事を抹消する (GitHub) 🌊 記事一覧へ