文章摘要
很多人日常都在使用文本生成大模型,却不知道这些AI能力的核心支撑其实是训练数据。本文拆解文本生成大模型训练数据的来源、隐藏问题,带你了解行业里不常公开讲的秘密,帮你理解为什么不同大模型输出效果差距很大,一起来阅读全文了解详情。
你以为文本生成大模型是科学家从零搭建创造出来的?其实大模型的能力,从根本上来说都是训练数据喂出来的,背后有很多不常说的秘密。
训练数据到底从哪来?大部分并非原创

根据2024年斯坦福大模型研究所发布的《基础模型报告》,主流开源文本生成大模型的训练数据中,公开网页内容占比超过68%,公开发行的书籍、学术论文占比约20%,剩下不到12%才是人工标注的专有定制数据。
OpenAI前研究员Andrej Karpathy就说过,大模型的能力天花板,其实在训练数据收集完成那一刻就定了,模型结构只是把数据里的知识挖出来而已。
训练数据里藏着哪些不为人知的问题
最突出的就是版权争议,现在全球已经有多起针对大模型公司的版权诉讼,2023年美国十余家出版社联合起诉OpenAI,索赔金额超过10亿美元,原因就是对方未经授权爬取了上百万本有版权的书籍做训练。
另一个问题是数据污染,DeepMind去年的研究显示,如果持续用AI生成的低质量内容训练新模型,不到10代模型就会丧失创造全新内容的能力,业内把这个现象叫做「模型崩溃」。
普通人怎么选到训练数据质量好的大模型
不用纠结复杂的技术参数,记住两个可落地的判断标准就行:
- 看训练数据更新时间:越新的训练数据,对近期热点、新知识的掌握越好,不会输出过时信息
- 看使用场景:做专业内容就选垂直领域大模型,它们的训练数据都是领域专业内容,准确率比通用大模型高很多
我个人的经验是,普通聊天写文案用通用大模型就行,做专业报告或者学术相关内容,一定要优先选垂直领域的大模型。
大模型拼到最后,拼的永远是训练数据的广度和准确度,这个规律短时间内不会变。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
THE END










暂无评论内容