文:Crystal(创新拿铁)
2022年末,网路上最受讨论的,是一只聊天机器人—「ChatGPT」。由美国人工智慧研究机构「OpenAI」发表,短短两周内吸引了上百万人使用。专家认为「ChatGPT」的出现,跟智慧型手机、网际网路的出现一样,将根深蒂固地改变人类的工作和生活。
「ChatGPT」的「生成式AI」(Generative AI)技术,让任何人都可以用简单的自然对话(而非程式语言),指挥AI创作各种内容。
什麽是「生成式AI」?如何爆红?目前有哪些应用?而人类在AI创作时代如何「另谋高就」?
这篇文章的首图是我用AI绘图工具「Stable Diffusion」完成的,而文字是由我和「ChatGPT」一起完成。猜得出哪些是AI写的?哪些是真人写的吗?谜底在文章最後揭晓。
「生成式AI」(Generative AI)的发展历程
生成式AI(Generative AI),是指让「机器学习模型」研究类似作品的数据,然後去创造一个全新的作品,可以是文字、图像、音讯档、影片、程式码、甚至建筑设计。
过去七年,Google、Meta等科技巨头、以及微软投资的OpenAI,都在打造Generative AI的「语言模型」(Language Model)。这三家先驱者用大量电脑运算能力和数据「训练」这些「语言模型」,让它们能自己创作内容。训练过程,可分成三个阶段:
A. 萌芽期(2015年之前):
只有小型模型。这些模型在「数据分析」上表现出色,如预测外送抵达时间、诈骗讯息分类……等。但在模仿人类语言的「内容创作」上并不及格,无法像真人一般写作、写程式、画图。
B. 突破期(2015年至2022年):
2017年,Google Research 发表「Transformer模型」,是自然语言运算(Natural Language Processing, NLP)领域的里程碑。Transformer模型需要被训练的时间比以往少,产出的品质却大幅提高,并且容易针对各应用领域的需求客制化。(详细可参考维基百科之介绍)
如Google开发出BERT、LaMDA。Meta开发的OPT-175B、BlenderBot。微软投资的OpenAI开发出GPT-3(用於文字)、DALL-E2(用於绘图)、Whisper(用於语音辨识)。
Photo Credit: GettyImages
为什麽都是富可敌国的大公司?因为训练这些模型的成本很高。
例如,GPT-3最初在45TB的数据上进行训练、运用了高达1750亿个参数来预测结果,单次训练就要1200万美元。中国的悟道预训练模型,则使用了1.75兆个参数进行训练,动员了清华大学、北京大学、中国科学院等机构的资源。
2015年到2020年之间,训练这些模型的计算量增加了六个数量级,使得这些模型能够以近乎、甚至超越人类的水平,来执行任务。
只不过在这个阶段,这些模型并未进入大众视野。因为他们需要庞大资源才能运转,成本也还没降低到可以供大众在云端使用。
C. 业界落地期(2022年~):
随着电脑运算成本降低、新技术如扩散模型(Diffusion Model)出现,训练和营运行逐渐降低。Google等公司陆续公开这些模型,让开发者可以试用。
当核心的生成模型被训练出来後,不用太大量的数据,就可依据各领域进行客制化调整。於是Google开发的BERT便有专注生医领域的模型BioBERT、法律领域的模型Legal-BERT。这让很多专业人士也开始试用。
然後在2022年,生成式AI在一般大众之间爆红。
文字影音等多种内容,AI都可以做得比人更好
…