文本生成大模型背后的训练数据秘密-CSVIPCK

文章摘要

很多人日常都在使用文本生成大模型，却不知道这些AI能力的核心支撑其实是训练数据。本文拆解文本生成大模型训练数据的来源、隐藏问题，带你了解行业里不常公开讲的秘密，帮你理解为什么不同大模型输出效果差距很大，一起来阅读全文了解详情。

你以为文本生成大模型是科学家从零搭建创造出来的？其实大模型的能力，从根本上来说都是训练数据喂出来的，背后有很多不常说的秘密。

训练数据到底从哪来？大部分并非原创

Abstract representation of large language models and AI technology.

根据2024年斯坦福大模型研究所发布的《基础模型报告》，主流开源文本生成大模型的训练数据中，公开网页内容占比超过68%，公开发行的书籍、学术论文占比约20%，剩下不到12%才是人工标注的专有定制数据。

OpenAI前研究员Andrej Karpathy就说过，大模型的能力天花板，其实在训练数据收集完成那一刻就定了，模型结构只是把数据里的知识挖出来而已。

最突出的就是版权争议，现在全球已经有多起针对大模型公司的版权诉讼，2023年美国十余家出版社联合起诉OpenAI，索赔金额超过10亿美元，原因就是对方未经授权爬取了上百万本有版权的书籍做训练。

另一个问题是数据污染，DeepMind去年的研究显示，如果持续用AI生成的低质量内容训练新模型，不到10代模型就会丧失创造全新内容的能力，业内把这个现象叫做「模型崩溃」。

不用纠结复杂的技术参数，记住两个可落地的判断标准就行：

我个人的经验是，普通聊天写文案用通用大模型就行，做专业报告或者学术相关内容，一定要优先选垂直领域的大模型。

大模型拼到最后，拼的永远是训练数据的广度和准确度，这个规律短时间内不会变。

文章版权归作者所有，未经允许请勿转载。

THE END