1. 什么是生成式人工智能
人类语言系统蕴含着复杂而微妙的规律,但这些规律以往极难被发现。这是因为在人类语言里,单词和词组的排列组合数量庞大,并且缺乏明显的规律可循。自然语言处理(NLP)作为人工智能领域的关键分支,致力于让机器理解、生成和响应人类语言,然而在过去很长一段时间里,其发展面临诸多困境,进展缓慢。
自然语言处理发展受限主要有以下几方面原因:一是数据不足,尽管我们拥有海量的文本数据,但标注数据集的数量却相对有限,而标注数据集需要耗费大量的人力和时间,这成为了NLP发展的一大瓶颈;二是模型的复杂性,NLP模型通常结构复杂,需要大量的计算资源和时间进行训练和优化,例如GPT - 3模型拥有1750万参数,训练时需要大量的GPU计算资源;三是任务的多样性,NLP任务丰富多样,如文本分类、情感分析、机器翻译、问答等,每个任务都需要特定的模型结构和训练方法,针对特定任务进行模型设计和优化需要大量的时间和经验;四是语义理解的复杂性,人类语言中的语义丰富且模糊,同一个词在不同的上下文中可能有不同的含义,要让机器理解这些语义是一项艰巨的任务;五是缺乏标准化和开放性,NLP领域缺乏统一的标准和规范,不同的库和框架之间互操作性和兼容性较差,这使得在不同框架之间迁移模型和代码变得困难,同时也缺乏统一的评估标准,难以比较不同方法的性能;六是技术瓶颈,虽然深度学习在NLP领域取得了显著进展,但目前仍然面临着如何提高模型的泛化能力、如何处理长距离依赖关系、如何生成高质量的文本等挑战。
以机器翻译为例,我们使用各种翻译工具将英语翻译成汉语时,往往会得到比较生涩、不准确的结果,很多时候是逐个单词进行翻译,无法准确传达原文的语义和语境,这充分体现了自然语言处理在过去面临的困境。
然而,2017年是自然语言处理领域具有里程碑意义的一年。来自Google的八位工程师在论文《Attention Is All You Need》中提出了一种名为Transformer的模型,这一模型的出现彻底改变了自然语言处理的格局。Transformer模型的核心思想是“自注意力机制”(Self - Attention Mechanism),也被称为“自我注意力”或“注意力”。这种机制允许模型在处理一个词或短语时,同时考虑到与它相关的其他词或短语的信息,能够在输入序列中寻找全局信息并自适应地调整每个位置的表示。具体来说,自注意力机制通过三个步骤来计算每个位置的注意力权重:首先计算当前位置与序列中其他所有位置的相关性得分,通常使用点积、缩放点积等方式;接着利用相关性得分计算注意力权重,采用Softmax函数将相关性得分归一化为概率分布;最后根据注意力权重对序列中各个位置的表示进行加权求和,得到当前位置的输出表示。这种机制使得模型能够更好地理解语言的上下文,从而更准确地进行翻译或生成文本。
Transformer模型具有诸多显著优势。与传统的序列到序列(Seq2Seq)模型通常使用的循环神经网络(RNN)或卷积神经网络(CNN)相比,RNN通过逐步处理序列中的每个元素来捕捉序列中的依赖关系,但由于其顺序性,难以并行化,且在处理长序列时容易出现梯度消失或梯度爆炸问题;CNN通过卷积操作并行处理序列中的多个位置,但其计算复杂度仍然与序列长度相关,且需要多层卷积才能捕捉长距离依赖关系。而Transformer模型通过利用自注意力机制而非传统的递归网络,允许模型不考虑输入或输出序列中依赖关系的距离,克服了传统递归模型的局限性,从而实现了更高的效率和更好的性能,这对于需要处理大量数据和复杂模式识别的任务尤其重要,如自然语言处理中的文本生成、机器翻译等。
在Transformer模型提出之后,模型逐渐具备了预测下一个词的能力。在训练过程中,需要大量的人工干预来保障“预测”效果更好。人工干预主要体现在以下几个方面:一是数据清洗和预处理,通过对原始数据进行清洗和预处理,可以去除噪声、处理缺失值,以及将数据转换为适合模型训练的格式。例如,对于文本数据,可以进行分词、去除停用词、词干提取等操作,以减少数据的维度和噪声;二是特征工程,通过选择和提取合适的特征,可以提高模型的性能;三是标注和纠错,对数据进行标注可以为模型提供监督信息,同时对模型的输出进行纠错可以帮助模型更好地学习;四是主动学习和半监督学习的应用,通过主动选择有价值的数据进行标注和利用未标注的数据进行学习,可以提高模型的效率和性能。
OpenAI等公司基于Transformer模型,收集了大量的文本数据来训练这个模型。当训练到一定程度时,这个被称为生成式预训练转换器(Generative Pre - trained Transformer,简称GPT)的模型出现了显著的变化。其回答质量大幅提升,能够给出非常接近真人的回复,甚至具备推理复杂问题的能力,这种现象被称为“思维涌现”。
2018年,OpenAI推出了首款GPT模型,名为GPT - 1。此后,GPT系列不断发展,最新的GPT模型是GPT - 4,于2023年初发布。2024年5月,OpenAI宣布推出多语言和多模态GPT - 4o1,能够实时处理音频、视觉和文本输入。GPT模型以Transformer架构为基础,具有强大的文本生成能力和语言理解能力。它通过大量文本数据的预先训练,学习到了语言的模式和规律,能够生成流畅、合理、多样性的文本。其核心组件包括多头自注意力机制(Multi - head Self - Attention)和位置编码(Position Encoding),自注意力机制使得模型能够理解序列中不同位置的信息,提高生成能力;位置编码则解决了长文本输出的问题,为模型提供上下文信息。
2022年11月30日,OpenAI给普通用户提供了一个聊天(chat)界面,让普通用户也可以体验到GPT的能力,这就是ChatGPT的诞生。ChatGPT一经推出便迅速风靡全球,在发布仅一周的时间内就已拥有超100万用户,在推出仅两个月后的2023年1月末,其月活用户已经突破1亿,成为史上用户增长速度最快的消费级应用程序。它不仅擅长分析型或机械式的认知计算,还擅长创造或生成全新的、有意义甚至具备美感的内容,比如写诗、设计产品、制作游戏与编写程序代码等。ChatGPT的出现标志着人工智能技术发展进入新的时代,将深度影响整个经济社会的未来变革。它推动了内容生成、知识创造、信息分发与获取等系列模式的颠覆性变革,并以极其简单的自然语言交互方式解决了用户的诸多痛点需求,进一步打开了AI商业模式落地与知识服务产业数智化转型的新空间和想象力。