跳转到内容

生成式人工智慧

本页使用了标题或全文手工转换
维基百科,自由的百科全书
(重定向自生成式AI
Impressionistic image of figures in a futuristic opera scene
太空歌剧院英语Théâtre D'opéra Spatial》(Théâtre D'opéra Spatial), 使用人工智慧生成的影像

生成式人工智慧(或稱生成式AI產生式AI;英語:Generative artificial intelligenceGenerative AIGenAIGAI)是一種人工智能系統,能夠產生文字、圖像或其他媒體以回應提示工程[1][2],比如ChatGPT。產生模型學習輸入數據的模式和結構,然後產生與訓練數據相似但具有一定程度新穎性的新內容,而不僅僅是分類或預測數據[3]。用於處理生成式人工智慧的最突出框架包括生成对抗网络基于转换器的生成式预训练模型[4][5]

歷史

[编辑]

早期歷史

[编辑]

自創立以來,該領域的研究人員就人類心智的本質以及創造具有類似人類智慧的人工生物的後果提出了哲學和倫理上的爭論;自古以來,神話、小說哲學都曾探討過這些問題。[6] 自動化藝術的概念至少可以追溯到古希臘文明自動機,在古希臘文明中,代达洛斯 (Daedalus) 和亚历山大的海伦 (Hero of Alexandria) 等發明家被描述為設計出能夠書寫文字、發出聲音和演奏音樂的機器。[7][8]創造性自動化的傳統在歷史上蓬勃發展,19世紀初創造的Maillardet自動化 (Maillardet's automaton)就是一例。[9]自俄羅斯數學家安德烈·马尔可夫 (Andrey Markov) 在20世紀初提出马尔可夫链以來,马尔可夫链長期以來一直被用來建立自然語言模型。[10][11]马尔可夫在1906年發表了第一篇相關論文,並使用马尔可夫链分析了小說《叶甫盖尼·奥涅金》 (Eugeny Onegin) 中元音和輔音的模式。馬爾科夫鏈一旦在文字语料库上學習完成,就可以用來當作概率文字產生器。[12][13]

人工智能學術

[编辑]

人工智慧學術學科是在1956年於達特茅斯學院 (Dartmouth College) 舉辦的达特矛斯会议上成立的,並在此後的幾十年間經歷了數次進步與樂觀的浪潮。[14]人工智慧研究始於1950年代,作品包括 Computing Machinery and Intelligence (1950) 和1956年Dartmouth Summer Research Project on AI。自1950年代起,藝術家和研究人員開始使用人工智能創作藝術作品。到了1970年代早期,藝術家Harold Cohen開始創作並展出由AARON所創作的生成式人工智慧作品,AARON是Cohen為了生成繪畫而創作的電腦程式。[15]

生成神經網路(2014-2019)

[编辑]
上圖:影像分類器,一個使用判別目標訓練的神經網路的範例。下圖:文本到图像生成模型,一個使用生成目標訓練的網路的範例。

自從機器學習領域誕生以來,它既使用了判别模型也使用了生成模型來建模和預測資料。自2000年代後期以來,深度學習的出現促進了影像分類語音辨識自然語言處理等任務的進展與研究。在這個時代,神經網路通常被作為判別模型進行訓練,由於生成建模的難度,這導致了它們在生成模型建模方面的應用受限。[16]

2014年,变分自编码器生成對抗網絡等進步產生了第一個實用的深度神經網絡,該網絡能夠針對圖像等複雜數據學習生成模型(而非判別模型)。這些深度生成模型是第一個不僅輸出影像的類別標籤而且輸出整個影像的模型。

2017年,Transformer網路使生成式模型相較於較舊的長短期記憶 (Long-Short Term Memory) 模型有了進步,[17]從而在2018年推出了第一個基于转换器的生成式预训练模型 (GPT),即GPT-1。隨後在2019年,GPT-2展示了作為基礎模型在無監督的情況下泛化到許多不同任務的能力。[18]

在此期间引入的新生成模型允许使用无监督学习或半监督学习来训练大型神经网络,而不是典型的判别模型监督学习無監督學習消除了人類手動標籤資料的需要,允許訓練更大的網路。[19]

生成式人工智慧熱潮 (2020-)

[编辑]
AI產生的影像已變得更先進。

2020年3月,由一位匿名的麻省理工學院研究員所創造的15.ai,是一個免費的网络应用程序,可以使用最少的訓練資料,產生令人信服的角色語音。 [20]該平台被認為是第一個在網路迷因和內容創作中普及AI語音克隆(音訊深度偽造)的主流服務,影響了語音AI技術的後續發展。[21][22]

2022年末,ChatGPT的公開發佈徹底改變了生成式人工智能在通用文本任務中的可及性和應用。[23]該系統能夠進行自然對話產生創意內容、協助編碼以及執行各種分析任務,吸引了全球的關注,並引發了有關人工智能對工作、教育和創造力的潛在影響的廣泛討論。[24]

2023年3月,GPT-4的發布代表著生成式人工智能能力的又一次躍進。來自微軟研究院的一個團隊有爭議地認為,它 「可以合理地被視為通用人工智慧(AGI)系統的早期版本(但仍不完整)」。[25]然而,這項評估受到其他學者的質疑,他們認為截至2023年,生成式人工智能「仍遠未達到「一般人類智慧」的基準」。[26]2023年晚些時候,Meta發表了ImageBind,這是一個結合了多種模式的人工智能模型,包括文字、影像、視訊、熱資料、3D資料、音訊和動作,為更身歷其境的生成式人工智能應用鋪路。[27]

2023年12月,谷歌 (Google) 推出Gemini (语言模型),這是一種多模式AI模型,共有四種版本: Ultra、Pro、Flash 和 Nano。[28]該公司將Gemini Pro整合到其Bard聊天機器人中,並宣佈計劃推出由更大的 Gemini Ultra 機型驅動的「Bard Advanced」。[29]2024年2月,谷歌將 Bard和Duet AI統一為Gemini品牌,在Android上推出行動應用程式,並將服務整合至iOS上的Google應用程式。[30]

2024年3月,Anthropic發布了Claude 3系列大型語言模型,其中包括Claude 3 Haiku、Sonnet和Opus。[31]這些模型在各種基準測試中都表現出了顯著的能力提升,其中Claude 3 Opus的表現明顯優於OpenAIGoogle的領先模型。[32] 2024年6月,Anthropic發布了Claude 3.5 Sonnet,與更大的Claude 3 Opus相比,其性能有所提升,特別是在編碼、多步驟工作流程和圖像分析等領域。[33]

AI (粉紅色) 和生成式AI (綠色) 的私人投資。

根據人工智慧和分析軟體公司SAS和科爾曼·帕克斯研究公司 (Coleman Parkes Research) 的調查,中國已經成為生成式人工智能應用的全球領導者,83%的中國受訪者使用該技術,超過54%的全球平均水平和65%的美國比率。中國在該領域的智慧財產發展進一步證明了這一領導地位,一份聯合國報告顯示,從2014年到2023年,中國實體申請了超過38,000項生成式人工智能專利,在專利申請量上大幅超越美國。[34]

模态

[编辑]

生成式人工智能系统是通过将无监督或自监督机器学习应用于数据集来构建的。生成式人工智能系统的功能取决于所使用的数据集的模式或类型。生成式人工智能可以是单模态的,也可以是多模态的;单模态系统仅接受一种类型的输入,而多模态系统可以接受多种类型的输入。[35] 例如,OpenAI 的 GPT-4 的一种版本接受文本和图像输入。[36]

文本

[编辑]

基于单词或单词标记训练的生成式 AI 系统包括 GPT-3、LaMDA、LLaMA、BLOOM、GPT-4 等(请参阅大型语言模型列表)。 它们能够进行自然语言处理、机器翻译和自然语言生成,并且可以用作其他任务的基础模型

图像

[编辑]
Stable Diffusion, prompt a photograph of an astronaut riding a horse

制作高质量的视觉艺术是生成式人工智能的一个突出应用。[37]

音樂

[编辑]

歌詞的音訊深度偽造已經產生,例如歌曲Savages就使用AI來模仿饒舌歌手杰斯 (Jay-Z) 的歌聲。音樂創作人的樂器和歌詞擁有版權,但他們的聲音尚未受到再生人工智能的保護,這引起了藝術家是否應該從音訊deepfakes中取得版稅的爭論。[38]

許多AI音樂產生器已經被創造出來,可以使用文字詞組、音乐类型選項以及重复小節和旋律庫來產生。[39]

視訊

[编辑]
Sora生成的視訊,提示詞Borneo wildlife on the Kinabatangan River

以註解視訊為基礎訓練的生成式人工智能可以產生時間上連貫、細緻且逼真的視訊片段。範例包括OpenAISora、Runway 的Gen-1和Gen-2[40]以及Meta Platforms的Make-A-Video。[41]

参见

[编辑]

參考資料

[编辑]
  1. ^ Griffith, Erin; Metz, Cade. Anthropic Said to Be Closing In on $300 Million in New A.I. Funding. The New York Times. 2023-01-27 [2023-03-14]. (原始内容存档于2023-03-14). 
  2. ^ Lanxon, Nate; Bass, Dina; Davalos, Jackie. A Cheat Sheet to AI Buzzwords and Their Meanings. Bloomberg News. March 10, 2023 [March 14, 2023]. (原始内容存档于2023-03-26). 
  3. ^ Pasick, Adam. Artificial Intelligence Glossary: Neural Networks and Other Terms Explained. The New York Times. 2023-03-27 [2023-04-22]. ISSN 0362-4331. (原始内容存档于2023-09-01) (美国英语). 
  4. ^ 存档副本. [2023-05-06]. (原始内容存档于2023-06-05). 
  5. ^ 存档副本. [2023-05-06]. (原始内容存档于2023-04-28). 
  6. ^ Newquist, H. P. The Brain Makers: Genius, Ego, And Greed In The Quest For Machines That Think. New York: Macmillan/SAMS. 1994: 45–53. ISBN 978-0-672-30412-5 (美国英语). 
  7. ^ Sharkey, Noel, A programmable robot from 60 AD 2611, New Scientist, July 4, 2007 [October 22, 2019], (原始内容存档于January 13, 2018) 
  8. ^ Brett, Gerard, The Automata in the Byzantine "Throne of Solomon", Speculum, July 1954, 29 (3): 477–487, ISSN 0038-7134, JSTOR 2846790, S2CID 163031682, doi:10.2307/2846790. 
  9. ^ kelinich. Maillardet's Automaton. The Franklin Institute. 2014-03-08 [2023-08-24]. (原始内容存档于August 24, 2023) (英语). 
  10. ^ Grinstead, Charles Miller; Snell, James Laurie. Introduction to Probability. American Mathematical Society. 1997: 464–466. ISBN 978-0-8218-0749-1 (美国英语). 
  11. ^ Bremaud, Pierre. Markov Chains: Gibbs Fields, Monte Carlo Simulation, and Queues. Springer Science & Business Media. 9 March 2013: ix. ISBN 978-1-4757-3124-8. (原始内容存档于23 March 2017). 
  12. ^ Hayes, Brian. First Links in the Markov Chain. American Scientist. 2013, 101 (2): 92 [September 24, 2023]. ISSN 0003-0996. doi:10.1511/2013.101.92. (原始内容存档于May 7, 2024). 
  13. ^ Fine, Shai; Singer, Yoram; Tishby, Naftali. The Hierarchical Hidden Markov Model: Analysis and Applications. Machine Learning. 1998-07-01, 32 (1): 41–62. ISSN 1573-0565. S2CID 3465810. doi:10.1023/A:1007469218079可免费查阅 (英语). 
  14. ^ Crevier, Daniel. AI: The Tumultuous Search for Artificial Intelligence.. New York, New York: BasicBooks. 1993: 109. ISBN 0-465-02997-3 (美国英语). 
  15. ^ Bergen, Nathan; Huang, Angela. A Brief History of Generative AI (PDF). Dichotomies: Generative AI: Navigating Towards a Better Future. 2023, (2): 4 [August 8, 2023]. (原始内容存档 (PDF)于August 10, 2023). 
  16. ^ Jebara, Tony. Machine learning: discriminative and generative 755. Springer Science & Business Media. 2012. 
  17. ^ Cao, Yihan; Li, Siyu; Liu, Yixin; Yan, Zhiling; Dai, Yutong; Yu, Philip S.; Sun, Lichao. A Comprehensive Survey of AI-Generated Content (AIGC): A History of Generative AI from GAN to ChatGPT. 7 March 2023. arXiv:2303.04226可免费查阅 [cs.AI]. 
  18. ^ Radford, Alec; Wu, Jeffrey; Child, Rewon; Luan, David; Amodei, Dario; Sutskever, Ilya. Language models are unsupervised multitask learners (PDF). OpenAI Blog. 2019. 
  19. ^ Radford, Alec. Improving language understanding with unsupervised learning. OpenAI. June 11, 2018 [October 6, 2024]. 
  20. ^ Chandraseta, Rionaldi. Generate Your Favourite Characters' Voice Lines using Machine Learning需要免费注册. Towards Data Science. January 21, 2021 [December 18, 2024]. 
  21. ^ Temitope, Yusuf. 15.ai Creator reveals journey from MIT Project to internet phenomenon. The Guardian. December 10, 2024 [December 25, 2024]. (原始内容存档于December 28, 2024). 
  22. ^ Anirudh VK. Deepfakes Are Elevating Meme Culture, But At What Cost?. Analytics India Magazine. March 18, 2023 [December 18, 2024]. (原始内容存档于December 26, 2024). While AI voice memes have been around in some form since '15.ai' launched in 2020, [...] 
  23. ^ Lock, Samantha. What is AI chatbot phenomenon ChatGPT and could it replace humans?. The Guardian. 2022-12-05 [2023-03-15] (英国英语). 
  24. ^ Huang, Haomiao. How ChatGPT turned generative AI into an "anything tool". Ars Technica. August 23, 2023 [September 21, 2024]. 
  25. ^ Bubeck, Sébastien; Chandrasekaran, Varun; Eldan, Ronen; Gehrke, Johannes; Horvitz, Eric; Kamar, Ece; Lee, Peter; Lee, Yin Tat; Li, Yuanzhi; Lundberg, Scott; Nori, Harsha; Palangi, Hamid; Ribeiro, Marco Tulio; Zhang, Yi. Sparks of Artificial General Intelligence: Early experiments with GPT-4. March 22, 2023. arXiv:2303.12712可免费查阅 [cs.CL]. 
  26. ^ Schlagwein, Daniel; Willcocks, Leslie. ChatGPT et al: The Ethics of Using (Generative) Artificial Intelligence in Research and Science. Journal of Information Technology. September 13, 2023, 38 (2): 232–238. S2CID 261753752. doi:10.1177/02683962231200411可免费查阅. 
  27. ^ Meta open-sources multisensory AI model that combines six types of data. May 9, 2023 [March 14, 2024]. 
  28. ^ Kruppa, Miles. Google Announces AI System Gemini After Turmoil at Rival OpenAI需要付费订阅. The Wall Street Journal. December 6, 2023 [December 6, 2023]. ISSN 0099-9660. (原始内容存档于December 6, 2023). 
  29. ^ Edwards, Benj. Google launches Gemini—a powerful AI model it says can surpass GPT-4. Ars Technica. December 6, 2023 [December 6, 2023]. 
  30. ^ Metz, Cade. Google Releases Gemini, an A.I.-Driven Chatbot and Voice Assistant. The New York Times. February 8, 2024 [February 8, 2024]. 
  31. ^ Introducing the next generation of Claude. [4 March 2024]. 
  32. ^ Nuñez, Michael. Anthropic unveils Claude 3, surpassing GPT-4 and Gemini Ultra in benchmark tests. Venture Beat. 2024-03-04 [2024-04-09]. 
  33. ^ Pierce, David. Anthropic has a fast new AI model — and a clever new way to interact with chatbots. The Verge. 2024-06-20 [2024-06-22] (英语). 
  34. ^ Baptista, Eduardo. China leads the world in adoption of generative AI, survey shows. Reuters. 9 July 2024 [14 July 2024]. 
  35. ^ A History of Generative AI: From GAN to GPT-4. 21 March 2023 [2023-09-19]. (原始内容存档于2023-06-10). 
  36. ^ Explainer: What is Generative AI, the technology behind OpenAI's ChatGPT?. Reuters. March 17, 2023 [March 17, 2023]. (原始内容存档于2023-03-30). 
  37. ^ Epstein, Ziv; Hertzmann, Aaron; Akten, Memo; Farid, Hany; Fjeld, Jessica; Frank, Morgan R.; Groh, Matthew; Herman, Laura; Leach, Neil; Mahari, Robert; Pentland, Alex “Sandy”; Russakovsky, Olga; Schroeder, Hope; Smith, Amy. Art and the science of generative AI. Science. 2023, 380 (6650): 1110–1111. arXiv:2306.04141可免费查阅. doi:10.1126/science.adh4451. 
  38. ^ Jay-Z's Delaware producer sparks debate over AI rights. [February 27, 2024]. (原始内容存档于February 27, 2024). 
  39. ^ 10 "Best" AI Music Generators (April 2024) - Unite.AI. October 19, 2022 [February 27, 2024]. (原始内容存档于January 29, 2024). 
  40. ^ Metz, Cade. Instant Videos Could Represent the Next Leap in A.I. Technology. The New York Times. April 4, 2023 [April 5, 2023]. (原始内容存档于April 5, 2023) (英语). 
  41. ^ Wong, Queenie. Facebook Parent Meta's AI Tool Can Create Artsy Videos From Text. cnet.com. September 29, 2022 [Apr 4, 2023]. (原始内容存档于April 5, 2023).