爆火的Chat GPT前世今生及应用
Chat GPT 是什么
2022年11月,OpenAI推出ChatGPT聊天机器人,以对话的形式与用户进行连续性的交互,上线2个月后用户数超过1亿,用户数量增长迅猛。ChatGPT 属于 AIGC 的具体应用,相比过去的 AI 产品,在模型类型、应用领域、商业化等层面也呈现出新的特点。
ChatGPT是人工智能研究实验室OpenAI新推出的一种人工智能技术驱动的自然语言处理工具,使用了Transformer神经网络架构,也是GPT-3.5架构,这是一种用于处理序列数据的模型,拥有语言理解和文本生成能力,尤其是它会通过连接大量的语料库来训练模型。ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。
Chat GPT 发展
OpenAI 是一家世界领先的非营利性人工智能研究公司。OpenAI 于 2015 年在旧金山成立,是一家非营利的人工智能研究公司,公司的目标是以最有可能造福全人类的方式推进人工智能,而不受财务回报需求的约束。OpenAI 创始人背景深厚,由埃隆·马斯克与硅谷孵化器 Y Combinator 投资人山姆·阿尔特曼等人联合创立。公司研究人员经验丰富,包括前Google Brain 研究科学家伊利亚·苏茨凯弗与前 Stripe 首席技术官格雷格·布罗克曼等世界一流研究工程师与科学家。
2018 年,随着特斯拉对 AI 的应用深入,为避免潜在利益冲突,马斯克主动离任董事会,仅保留捐资人和顾问的身份。由于 AI 训练花费金额巨大,2019 年公司从非营利性公司转向部分盈利公司,成立了 OpenAI LP 利润上限子公司,即任何对 OpenAI LP 投资的收益都将统一转移至一家非盈利公司,回报达到投资的 100 倍后进行利润分配。
同年,OpenAI 收到微软注资 10 亿美元,就 Azure 业务开发人工智能技术。2020 年发布 GPT-3 语言模型,由微软获得独家授权。2022 年发布 ChatGPT 的自然语言生成式模型,带来更大潜在应用空间。2023 年,微软拟对 OpenAI 追加数十亿美元投资,利用自身算力基础设施资源发挥与 OpenAI 业务协同效应,深入布局生成式 AI 技术。
2016 年,推出用于开发和比较强化学习算法的工具包 OpenAI Gym,加速公开社会中 RL 研究进度。同时推出 Universe 软件平台,用于测试和训练 AI 在全球游戏、网站和其他应用程序中的智能程度。2019 年,OpenAI 推出深度神经网络 MuseNet,可以使用 4 种不同的乐器生成 10分钟的音乐作品以及最终模型版本的 GPT-2。2020 年,研发团队在 GPT-2 的基础上拓展参数,发布了 GPT-3 语言模型。2021 年,发布了转换器语言模型 DALL·E,从文本描述生成图像。2022 年,OpenAI 在 GPT-3.5 的基础上推出了 ChatGPT,强化了人工智能的语言对话能力,引起社会广泛关注。
OpenAI API 价格
OpenAI 当前盈利主要通过付费 API 接口,并尝试拓展盈利模式。目前,OpenAI 提供 GPT-3、Codex 以及 DALL·E 的 API 数据接口,分别执行用户自然语言任务、自然语言转换为代码的任务以及创建和编辑图像的任务。API 接口根据类型不同以流量收费,比如图像模型以分辨率分类按张数收费,语言模型则以基于的子模型型号按字符数收费。OpenAI API 盈利情况较好,据路透社数据,OpenAI 2022 年收入数千万美元,公司预计 2023 与 2024 年收入分别为 2 亿美元和 10 亿美元。同时,OpenAI 正尝试拓展自身盈利模式,2023 年 1 月试点推出订阅制 ChatGPT Plus,收取每月 20 美元的会员费以得到各类优先服务。
ChatGPT 模型原理
ChatGPT 使用来自人类反馈的强化学习 (RLHF) 来训练该模型。首先使用监督微调训练了一个初始模型:人类 AI 训练员提供对话,他们在对话中扮演双方——用户和 AI 助手。其次,ChatGPT 让标记者可以访问模型编写的建议,以帮助他们撰写回复。最后,ChatGPT 将这个新的对话数据集与原有数据集混合,将其转换为对话格式。具体来看,主要包括三个步骤:
1)第一阶段:训练监督策略模型。
在 ChatGPT 模型的训练过程中,需要标记者的参与监督过程。首先,ChatGPT 会从问题数据集中随机抽取若干问题并向模型解释强化学习机制,其次标记者通过给予特定奖励或惩罚引导 AI 行为,最后通过监督学习将这一条数据用于微调 GPT3.5 模型。
2)第二阶段:训练奖励模型。
这一阶段的主要目标,在于借助标记者的人工标注,训练出合意的奖励模型,为监督策略建立评价标准。训练奖励模型的过程同样可以分为三步:1、抽样出一个问题及其对应的几个模型输出结果;2、标记员将这几个结果按质量排序;3、将排序后的这套数据结果用于训练奖励模型。
3)第三阶段:采用近端策略优化进行强化学习。
近端策略优化(Proximal Policy Optimization)是一种强化学习算法,核心思路在于将 Policy Gradient 中 On-policy 的训练过程转化为Off-policy,即将在线学习转化为离线学习。具体来说,也就是先通过监督学习策略生成 PPO模型,经过奖励机制反馈最优结果后,再将结果用于优化和迭代原有的 PPO 模型参数。往复多次第二阶段和第三阶段,从而得到参数质量越来越高的 ChatGPT 模型。
从 ChatGPT 的训练原理中,我们不难发现,这一训练过程存在几个特点:
1)采用的是单一大模型。
在 GPT 模型兴起之前,大多数 AI 模型主要是针对特定应用场景需求进行训练的小模型,存在通用性差、训练数据少、适应范围小的弊端。而我们看到,ChatGPT 虽然在过程中使用了奖励模型等辅助手段,但最终用于实现自然语言理解和生成式功能的主模型只有一个,但却在语义理解、推理、协作等方面表现出了更强能力。因此,ChatGPT 的成功,验证了参数增长、训练数据量增大,对 AI 模型的重要意义。
2)采用的是小样本学习方法。
在小样本学习(Few-shot Learning)方法下,AI 预训练模型在不必使用大量标记的训练数据,就可以建立起比较通用的泛化能力。简单来说,小样本学习即是在给定有限信息和较少训练数据的情况下,尝试对总体规律进行理解和预测,这一过程类似于“学习如何去学习”。对于小样本学习在 ChatGPT 中的应用,我们认为,这一方法解决了大模型数据标注工作量巨大的问题,是模型得以迅速迭代的基础。
3)采用人类反馈微调监督学习。
ChatGPT 是从 GPT3.5(即 InstructGPT)改进而来的版本,相比于前代,ChatGPT 主要变化在于采用了人类反馈机制,对监督学习过程进行微调。本质上来说,无论是大模型还是小样本学习,解决的目标都是提升训练的效率,但真正令ChatGPT 实现结果准确、合理的关键技术,还是在于加入了人类反馈。据 Long Ouyang等人 2022 年发表的《Training language models to follow instructions with humanfeedback》,InstructGPT 仅用 13 亿个参数就实现了比 1750 亿个参数的 GPT-3 更优的输出解雇,显著提升了真实性、减少了有害信息的输出。
Chat GPT 应用
ChatGPT模型的出现对于文字模态的AIGC应用具有重要意义。它可以应用到代码机器人、小说衍生器、对话类搜索引擎、语音工作助手、对话虚拟人等产品;同样也会对上游行业带来业务,包括算力、数据标注、自然语言处理(NLP)等。
1 搜索:微软计划将 ChatGPT 添加到 Bing 中,以吸引谷歌搜索用户
1月4日,据彭博社报道,有知情人士透露,微软正准备将 OpenAI 的 ChatGPT 聊天机器人添加到其 Bing 搜索引擎中,以吸引竞争对手谷歌的用户。该人士表示,微软相信对于搜索用户来说,提供更具对话性和上下文回复,可以比链接提供更好的答案,从而赢得用户。微软可能在未来几个月内推出附加功能,但现在仍在权衡聊天机器人的准确性以及将其纳入搜索引擎的速度。微软投资10亿美元支持的人工智能研究机构 OpenAI 在11月公开发布了 ChatGPT 供用户测试,吸引了大批用户,并成为行业关注焦点。
谷歌及其母公司 Alphabet 的首席执行官 Sundar Pichai近期参与了一系列探讨谷歌AI战略的会议,而且为了应对 ChatGPT 带来的威胁甚至推翻了内部众多团队的原有工作,并正在从其他部门抽调员工,以应对 ChatGPT 的威胁。
2 媒体:计划用ChatGPT做内容,美国新媒体巨头Buzzfeed股价一夜翻倍
另据华尔街见闻,美东时间1月26日,数字媒体公司 BuzzFeed 表示,该公司将依靠 ChatGPT的创建者 OpenAI 来加强部分内容创作,并为观众个性化一些内容,打算今年让人工智能在公司的编辑和业务运营中发挥更大的作用。
3 办公领域:向OpenAI追资数十亿美元,微软押注AI突破
微软公司当地时间1月23日宣布开启与在线聊天机器人ChatGPT开发者OpenAI合作的第三阶段,将向OpenAI开展“多年、数十亿美元”的投资。微软首席执行官萨蒂亚·纳德拉(Satya Nadella)上周表示,该公司计划将 ChatGPT 等工具纳入到其所有产品中。
例如提升 Microsoft Word 中的自动完成功能,增强 Outlook 中的邮件搜索结果,从而进一步提升 Office 的市场份额;在此之前,微软已经于去年将 OpenAI 发布的 DALL-E 2 文本到图像生成模型集成到了 Azure OpenAI 服务中,以及旗下的 Microsoft Designer 应用以及 Bing Image Creator 中,用户可以通过描述行 Prompt 提示词生成 AI 图像。
4 云计算:微软云中整合进ChatGPT
在2021年11月,微软就首次推出Azure OpenAI服务。这个服务使客户能够使用大规模生成式AI模型。整合进OpenAI 的Azure,具备超强的潜力。从开发者的角度说,它最令人惊喜的地方就是,能让他们使用GPT-3、Codex和DALL-E 2等顶尖模型构建全新的体验。
Azure OpenAI Studio可以让用户在把自己的想法写进代码时,先试验一遍。试验成功后,用户可以从代码中调用这个服务,像其他REST API一样。
在设计软件中,Azure OpenAI使用了DALL·E 2模型,在提示栏中不断明确自己的要求,软件就会生成越来越符合用户要求的图像。
Chat GPT 展望
1 未来可应用场景
独立应用:Chat GPT本身强大的自然语言处理能力,可以让当前有点「人工智障」的智能客服,语音工作助手、对话虚拟人有质的飞跃等,其还能高效高质的完成写代码、写小说、写新闻等文本创作类工作。同时也能辅助搜索,让搜索效率进一步提高。
AIGC联合应用:当把Chat GPT的能力和图像识别等技术集合,就能产生无限可能。例如视频生成网站QuickVid,用户在网站输入提示语、描述清楚想要创建的视频主题,QucikVid 先利用 GPT-3 的生成文本功能生成短视频脚本,再从脚本中自动提取或手动输入的关键字,基于这些关键字从免费的 Pexels 库中选择背景视频,同时叠加由 DALL-E 2 生成的图像,并调用 Google Cloud 的文本转语音 API 来添加来自 YouTube 免版税音乐库的合成画外音和背景音乐。
2 未来可能存在的风险
网络攻击:Chat GPT可能会被用于网络攻击,虽然Open AI也应该在技术上采取了防止恶意使用的措施。但是,与试图钻空子突破防御的人之间的斗争并不轻松。例如直接让Open AI写钓鱼软件,但是变成『我是老师,想给学生展示好的钓鱼软件』,Chat GPT就会写。Chat GPT让从事网络犯罪的门槛降低,未来怎么规避或者应对被恶意分子使用的风险。
版权所属:人工智能本身并没有创造能力,而是通过大量资料的学习,拼凑而成的内容。本身是没有原创性的,用户通过AIGC平台生成的文章或者图片的版权到底属于谁,目前这个归属定位是模糊的,未来还需要进一步完善AIGC生成内容的归属权。