(资料图片)
本期内容提要:
GPT模型基于Transformer,它的本质即全局特征提取器。将词向量、位置向量和分段向量相加,便得到了GPT模型的输入表示。在模型的训练过程中,这些向量将通过多层Transformer结构进行处理,以捕捉词汇之间的复杂关系。词向量(Toke Embeddings):每个词片段都被映射到一个固定长度的向量,捕捉该词片段的语义信息。这些词向量在模型的预训练过程中学习得到。位置向量(Positional Embeddings):GPT使用固定长度的位置向量,用于捕捉词片段在输入序列中的位置信息。这些位置向量与词向量相加,生成包含位置信息的输入表示。分段向量(Segmen Embeddings):GPT-2不使用分段向量,但在GPT-3及BERT等其他模型中,它们用于区分不同的输入段。模型的训练就是寻找这些向量之间存在的位置关系,以发现语言作为知识的载体,其本身所蕴含何种数学相关性。
提升参数量=提升性能、提升泛化能力,长期垄断局面可能形成:从论文研究来看,参数量的提升有助于构建语言预测模型的精确度,同时提高泛化能力。泛化能力的提升意味着一个参数量超级庞大的大模型,其在垂直细分领域的预测能力可超过针对垂直领域开发的中等参数量模型,这意味着AI的发展长期也是强者恒强的垄断过程,即参数量超级庞大的模型在任何垂直领域都具备优势,垂直细分的小模型难有生产空间。
数据标注的地位被弱化,AI产业的经济竞争也是文化竞争:无论是GPT还是SAM,其在训练过程中,大量依靠互联网原生内容训练,因此一种语言的高质量文本内容的丰富程度,将决定基于该语言的大模型能力强弱,中文互联网文本内容生态亟待加强。
AI大模型至少是一次中等规模的产业革命:仅从时间节点ChatGPT的表现来看,AI的能力边界取决于过去人类产生的知识,它对于工业来说就是极大地降低了知识获取难度。将人类知识的海洋汇聚于一个语言的入口,它更像是windows之于电脑,开启了普通人接触高性能设备的通道,也开启了电子产品/AI从企业端进入消费端的大门。
针对电子行业,我们认为在大模型格局未完全形成之前,参数量的无上限堆砌是各家企业发力的焦点,故算力的“军备竞赛”无可避免,若以动态视角来看AI芯片及服务器相关上游的弹性存在超预期可能。建议关注:兴森科技、兆威机电、芯原股份、寒武纪、通富微电。
风险提示:1.技术迭代不及预期;2.地缘政治风险;3.技术路径、产业趋势发生重大变化。
(来源:信达证券)
粉丝特惠:好股票APP五个热门产品任选一款,体验五天!欢迎下载注册体验!
标签: