

Impressionistic image of figures in a futuristic opera scene
太空歌剧院英语Théâtre D'opéra Spatial》(Théâtre D'opéra Spatial), 使用人工智慧生成的影像

生成式人工智慧(或稱生成式AI產生式AI;英語:Generative artificial intelligenceGenerative AIGenAIGAI)是一種人工智能系統,能夠產生文字、圖像或其他媒體以回應提示工程[1][2],比如ChatGPT。產生模型學習輸入數據的模式和結構,然後產生與訓練數據相似但具有一定程度新穎性的新內容,而不僅僅是分類或預測數據[3]。用於處理生成式人工智慧的最突出框架包括生成对抗网络基于转换器的生成式预训练模型[4][5]

基於Transformer模型深度神經網路,特別是大型语言模型 (LLM) 的改進,使得2020年代初期出現了生成式人工智慧系統的人工智能熱潮。其中包括ChatGPTCopilotGeminiLLaMA聊天機器人Stable DiffusionMidjourneyDALL-E文本到图像人工智慧影像生成系統;以及Sora等文字轉影片生成系統。[6][7][8][9]OpenAIAnthropic微软Google百度等公司以及許多規模較小的公司都已開發出生成式人工智慧模型。[1][10][11]

生成式人工智慧在藝術、寫作[12]、軟體開發、醫療保健、金融、遊戲、客戶服務[13]、行銷[14]和時尚[15]等各行各業都有潛在的應用。 然而,也有人擔心產生式人工智能可能會被濫用,包括肆無忌憚地使用有版權的材料來訓練生成式人工智慧,以及製造假新聞深伪技术來欺騙和操縱人們,以及大規模取代人類工作,目前正在討論法律規範,包括歐盟的《人工智能法案》(英語:Artificial Intelligence Act, AI Act)。[16][17]有效加速主義(英語:effective Accelerationism, e/acc)等科技思想的關係也被提出。[18]





自創立以來,該領域的研究人員就人類心智的本質以及創造具有類似人類智慧的人工生物的後果提出了哲學和倫理上的爭論;自古以來,神話、小說哲學都曾探討過這些問題。[19] 自動化藝術的概念至少可以追溯到古希臘文明自動機,在古希臘文明中,代达洛斯 (Daedalus) 和亚历山大的海伦 (Hero of Alexandria) 等發明家被描述為設計出能夠書寫文字、發出聲音和演奏音樂的機器。[20][21]創造性自動化的傳統在歷史上蓬勃發展,以19世紀初瑞士工程師亨利·梅拉代英语Henri Maillardet(Henri Maillardet) 設計的梅拉代自動機英语Maillardet Automaton(Maillardet Automaton)就是一例。[22]自俄羅斯數學家安德烈·马尔可夫 (Andrey Markov) 在20世紀初提出马尔可夫链以來,马尔可夫链長期以來一直被用來建立自然語言模型。[23][24]马尔可夫在1906年發表了第一篇相關論文,並使用马尔可夫链分析了小說《叶甫盖尼·奥涅金》 (Eugeny Onegin) 中元音和輔音的模式。马尔可夫链一旦在文字语料库上學習完成,就可以用來當作概率文字產生器。[25][26]



人工智慧學術學科是在1956年於達特茅斯學院 (Dartmouth College) 舉辦的达特矛斯会议上成立的,並在此後的幾十年間經歷了數次進步與樂觀的浪潮。[27]人工智慧研究始於1950年代,作品包括 Computing Machinery and Intelligence (1950) 和1956年Dartmouth Summer Research Project on AI。自1950年代起,藝術家和研究人員開始使用人工智能創作藝術作品。到了1970年代早期,藝術家哈羅德·科恩英语Harold Cohen開始創作並展出由AARON英语AARON所創作的生成式人工智慧作品,AARON英语AARON是科恩為了生成繪畫而創作的電腦程式。[28]





2017年,Transformer網路使生成式模型相較於較舊的長短期記憶 (Long-Short Term Memory) 模型有了進步,[30]從而在2018年推出了第一個基于转换器的生成式预训练模型 (GPT),即GPT-1。隨後在2019年,GPT-2展示了作為基礎模型在無監督的情況下泛化到許多不同任務的能力。[31]


生成式人工智慧熱潮 (2020-)


2020年3月,由一位匿名的麻省理工學院研究員所創造的15.ai,是一個免費的网络应用程序,可以使用最少的訓練資料,產生令人信服的角色語音。 [33]該平台被認為是第一個在網路迷因和內容創作中普及AI語音克隆(音訊深度偽造)的主流服務,影響了語音AI技術的後續發展。[34][35]


2023年3月,GPT-4的發布代表著生成式人工智能能力的又一次躍進。來自微軟研究院的一個團隊有爭議地認為,它 「可以合理地被視為通用人工智慧(AGI)系統的早期版本(但仍不完整)」。[38]然而,這項評估受到其他學者的質疑,他們認為截至2023年,生成式人工智能「仍遠未達到「一般人類智慧」的基準」。[39]2023年晚些時候,Meta發表了ImageBind,這是一個結合了多種模式的人工智能模型,包括文字、影像、視訊、熱資料、3D資料、音訊和動作,為更身歷其境的生成式人工智能應用鋪路。[40]

2023年12月,谷歌 (Google) 推出Gemini,這是一種多模式AI模型,共有四種版本: Ultra、Pro、Flash 和 Nano。[41]該公司將Gemini Pro整合到其Bard聊天機器人中,並宣佈計劃推出由更大的 Gemini Ultra 機型驅動的「Bard Advanced」。[42]2024年2月,谷歌將 Bard和Duet AI統一為Gemini品牌,在Android上推出行動應用程式,並將服務整合至iOS上的Google應用程式。[43]

2024年3月,Anthropic發布了Claude 3系列大型語言模型,其中包括Claude 3 Haiku、Sonnet和Opus。[44]這些模型在各種基準測試中都表現出了顯著的能力提升,其中Claude 3 Opus的表現明顯優於OpenAIGoogle的領先模型。[45] 2024年6月,Anthropic發布了Claude 3.5 Sonnet,與更大的Claude 3 Opus相比,其性能有所提升,特別是在編碼、多步驟工作流程和圖像分析等領域。[46]

AI (粉紅色) 和生成式AI (綠色) 的私人投資。

根據人工智慧和分析軟體公司SAS和科爾曼·帕克斯研究公司 (Coleman Parkes Research) 的調查,中國已經成為生成式人工智能應用的全球領導者,83%的中國受訪者使用該技術,超過54%的全球平均水平和65%的美國比率。中國在該領域的智慧財產發展進一步證明了這一領導地位,一份聯合國報告顯示,從2014年到2023年,中國實體申請了超過38,000項生成式人工智能專利,在專利申請量上大幅超越美國。[47]



生成式人工智能系统是通过将无监督或自监督机器学习应用于数据集来构建的。生成式人工智能系统的功能取决于所使用的数据集的模式或类型。生成式人工智能可以是单模态的,也可以是多模态的;单模态系统仅接受一种类型的输入,而多模态系统可以接受多种类型的输入。[48]例如,OpenAI 的 GPT-4 的一种版本接受文本和图像输入。[49]



基于单词或单词标记训练的生成式AI系统包括GPT-3LaMDALLaMA、BLOOM、GPT-4等(请参阅大型语言模型列表)。 它们能够进行自然语言处理、机器翻译和自然语言生成,并且可以用作其他任务的基础模型


Stable Diffusion根据文本提示“a photograph of an astronaut riding a horse”生成的图像




歌詞的音訊深度偽造已經產生,例如歌曲Savages就使用AI來模仿饒舌歌手杰斯 (Jay-Z) 的歌聲。音樂創作人的樂器和歌詞擁有版權,但他們的聲音尚未受到再生人工智能的保護,這引起了藝術家是否應該從音訊deepfakes中取得版稅的爭論。[51]



Sora生成的視訊,提示詞Borneo wildlife on the Kinabatangan River

以註解視訊為基礎訓練的生成式人工智能可以產生時間上連貫、細緻且逼真的視訊片段。範例包括OpenAISora、Runway 的Gen-1和Gen-2[53]以及Meta Platforms的Make-A-Video。[54]










ChatGPTMidjourney等生成式人工智能系統是在大型、公開可用的資料集上進行訓練的,這些資料集包含了受版權保護的作品。AI 開發者認為這種訓練受到合理使用的保護,而著作權人則認為這侵犯了他們的權利。[62]







生成式人工智慧的發展已引起政府、企業和個人的關注,導致抗議、法律行動、要求暫停人工智慧實驗,以及多國政府的行動。在2023年7月聯合國安全理事會的簡報會中,联合国秘书长安东尼奥·古特雷斯 (António Guterres) 表示「生成式人工智慧在規模上具有巨大的善惡潛力」,人工智慧可能會「為全球發展注入動力」,並在2030年前為全球經濟貢獻$10到$15兆美元,但其惡意使用「可能會造成可怕程度的死亡與破壞、廣泛的創傷,以及無法想像規模的深度心理傷害」。[65]


一名參加2023年美國作家協會罷工的糾察員。雖然不是最優先的事項,但2023年美国编剧协会大罢工的要求之一是「有關使用 (生成式) AI 的法規」。[66]

從人工智慧發展的早期開始,ELIZA的創造者约瑟夫·维森鲍姆 (Joseph Weizenbaum) 及其他人士就一直在爭論,考慮到電腦與人類之間的差異,以及定量計算與定性、價值判斷之間的差異,那些可以由電腦完成的任務實際上是否應該由電腦來完成。[67] 2023年4月,據報導,圖像生成AI已導致中國70%的電子遊戲插畫師職位流失。[68][69] 2023年7月,語音生成AI的發展促成了2023年好莱坞劳资纠纷。美國電影演員協會 (Screen Actors Guild) 主席法蘭·卓雪 (Fran Drescher) 在2023年SAG-AFTRA大罷工期間宣稱,「人工智慧對創意專業構成生存威脅」。 [70] 語音生成AI已被視為對配音演員領域的潛在挑戰。[71][72]

AI與全球代表性不足族群的就業問題之間的交集,仍然是一個重要的層面。雖然AI有望提升效率並獲得技能,但這些族群對於工作轉移和有偏見的招募程序的憂慮仍然存在,快公司 (Fast Company) 的調查也概述了這一點。為了善用人工智慧創造更公平的社會,前瞻性的步驟包括減少偏見、提倡透明度、尊重隱私權與同意權,以及接納多元團隊與道德考量。策略包括將政策重點轉移到法規、包容性設計,以及教育的個人化教學潛力上,以達到利益最大化,傷害最小化。[73]



生成式AI模型可以反映並放大基礎資料中存在的任何文化偏误。例如,語言模型可能會假設醫生和法官是男性,而秘書或護士是女性,如果這些偏見在訓練資料中很常見的話。[74] 同樣地,如果在有種族偏見的資料集上進行訓練,以「一張 CEO 的照片」為文字提示的圖像模型可能會不成比例地產生白人男性CEO的圖像。[75]我們嘗試了許多減輕偏差的方法,例如改變輸入提示和重新加權訓練資料。[76]



深伪技术 (Deepfakes) (「深度學習」"deep learning" 與「偽造」"fake"的混成詞[77]) 是人工智能產生的媒體,利用人工神經網路,將現有圖像或視訊中的人物換成其他人的肖像。[78] 深伪技术因其在深伪技术名流色情視頻復仇式色情假新聞钓鱼式恶作剧、健康谣言、金融詐騙和秘密的外國选举操控干擾中的使用而引起了廣泛的關注和關注。[79][80][81][82][83][84][85] 這引起了業界和政府的回應,以偵測和限制其使用。[86][87]

2023年7月,事實檢查公司Logically發現,流行的生成式人工智慧模型MidjourneyDALL-E 2和Stable Diffusion在受到提示時會產生似是而非的假消息圖像,例如美國选举操控舞弊和穆斯林婦女支持印度的印度教民族主義印度人民党的圖像。[88][89]









生成式人工智能創造逼真虛假內容的能力已被許多類型的網路犯罪所利用,包括網路钓鱼式攻击[104]Google點擊欺詐主管Shuman Ghosemajumder曾預言,雖然深伪技术影片最初在媒體上引起轟動,但很快就會變得司空見慣,也因此變得更危險。[105] 此外,大型語言模型和其他形式的文字生成式人工智慧已廣泛地在電子商務網站上製造虛假評論,以提高評價。[106]網路罪犯已建立專注於詐欺的大型語言模型,包括WormGPT和FraudGPT。[107]




訓練前沿的AI模型需要大量的運算能力。通常只有科技巨擘 (Big Tech) 才有財力進行這樣的投資。CohereOpenAI等小型新創公司最終分別向GoogleMicrosoft購買資料中心的使用權。[109]




