注冊(cè) | 登錄讀書(shū)好,好讀書(shū),讀好書(shū)!
讀書(shū)網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)新聞資訊書(shū)摘

真正讓ChatGPT發(fā)揮作用的是什么

人類(lèi)語(yǔ)言,及其生成所涉及的思維過(guò)程,一直被視為復(fù)雜性的巔峰。人類(lèi)大腦“僅”有約1000億個(gè)神經(jīng)元(及約100萬(wàn)億個(gè)連接),卻能夠做到這一切,確實(shí)令人驚嘆。

人類(lèi)語(yǔ)言,及其生成所涉及的思維過(guò)程,一直被視為復(fù)雜性的巔峰。人類(lèi)大腦“僅”有約1000億個(gè)神經(jīng)元(及約100萬(wàn)億個(gè)連接),卻能夠做到這一切,確實(shí)令人驚嘆。人們可能會(huì)認(rèn)為,大腦中不只有神經(jīng)元網(wǎng)絡(luò),還有某種具有尚未發(fā)現(xiàn)的物理特性的新層。但是有了ChatGPT之后,我們得到了一條重要的新信息:一個(gè)連接數(shù)與大腦神經(jīng)元數(shù)量相當(dāng)?shù)募兇獾娜斯ど窠?jīng)網(wǎng)絡(luò),就能夠出色地生成人類(lèi)語(yǔ)言。

這仍然是一個(gè)龐大而復(fù)雜的系統(tǒng),其中的神經(jīng)網(wǎng)絡(luò)權(quán)重幾乎與當(dāng)前世界上可用文本中的詞一樣多。但在某種程度上,似乎仍然很難相信語(yǔ)言的所有豐富性和它能談?wù)摰氖挛锒伎梢员环庋b在這樣一個(gè)有限的系統(tǒng)中。這里面的部分原理無(wú)疑反映了一個(gè)普遍現(xiàn)象(這個(gè)現(xiàn)象最早在規(guī)則30[1]的例子中變得顯而易見(jiàn)):即使基礎(chǔ)規(guī)則很簡(jiǎn)單,計(jì)算過(guò)程也可以極大地放大系統(tǒng)的表面復(fù)雜性。但是,正如上面討論的那樣,ChatGPT使用的這種神經(jīng)網(wǎng)絡(luò)實(shí)際上往往是特別構(gòu)建的,以限制這種現(xiàn)象(以及與之相關(guān)的計(jì)算不可約性)的影響,從而使它們更易于訓(xùn)練。

那么,ChatGPT是如何在語(yǔ)言方面獲得如此巨大成功的呢?我認(rèn)為基本答案是,語(yǔ)言在根本上比它看起來(lái)更簡(jiǎn)單。這意味著,即使是具有簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的ChatGPT,也能夠成功地捕捉人類(lèi)語(yǔ)言的“本質(zhì)”和背后的思維方式。此外,在訓(xùn)練過(guò)程中,ChatGPT 已經(jīng)通過(guò)某種方式“隱含地發(fā)現(xiàn)”了使這一切成為可能的語(yǔ)言(和思維)規(guī)律。

我認(rèn)為,ChatGPT的成功為一個(gè)基礎(chǔ)而重要的科學(xué)事實(shí)向我們提供了證據(jù):它表明我們?nèi)匀豢梢云诖軌虬l(fā)現(xiàn)重大的新“語(yǔ)言法則”,實(shí)際上是“思維法則”。在ChatGPT中,由于它是一個(gè)神經(jīng)網(wǎng)絡(luò),這些法則最多只是隱含的。但是,如果我們能夠通過(guò)某種方式使這些法則變得明確,那么就有可能以更直接、更高效和更透明的方式做出ChatGPT所做的那些事情。

這些法則可能是什么樣子的呢?最終,它們必須為我們提供某種關(guān)于如何組織語(yǔ)言及其表達(dá)方式的指導(dǎo)。我們稍后將討論“在ChatGPT內(nèi)部”可能如何找到一些線(xiàn)索,并根據(jù)構(gòu)建計(jì)算語(yǔ)言的經(jīng)驗(yàn)探索前進(jìn)的道路。但首先,讓我們討論兩個(gè)早已知曉的“語(yǔ)言法則”的例子,以及它們與ChatGPT的運(yùn)作有何關(guān)系。

第一個(gè)是語(yǔ)言的語(yǔ)法。語(yǔ)言不僅僅是把一些詞隨機(jī)拼湊在一起。相反,不同類(lèi)型的詞之間有相當(dāng)明確的語(yǔ)法規(guī)則。例如,在英語(yǔ)中,名詞的前面可以有形容詞、后面可以有動(dòng)詞,但是兩個(gè)名詞通常不能挨在一起。這樣的語(yǔ)法結(jié)構(gòu)可以通過(guò)一組規(guī)則來(lái)(至少大致地)捕捉,這些規(guī)則定義了如何組織所謂的“解析樹(shù)”。

ChatGPT并不明確地“了解”這些規(guī)則。但在訓(xùn)練過(guò)程中,它隱含地發(fā)現(xiàn)了這些規(guī)則,并且似乎擅長(zhǎng)遵守它們。這里的原理是什么呢?在“宏觀”上還不清楚。但是為了獲得一些見(jiàn)解,也許可以看看一個(gè)更簡(jiǎn)單的例子。

考慮一種由“(”和“)”的序列組成的“語(yǔ)言”,其語(yǔ)法規(guī)定括號(hào)應(yīng)始終保持平衡,就像下面的解析樹(shù)一樣。

我們能訓(xùn)練神經(jīng)網(wǎng)絡(luò)來(lái)生成“語(yǔ)法正確”的括號(hào)序列嗎?在神經(jīng)網(wǎng)絡(luò)中,有各種處理序列的方法,但是這里像ChatGPT一樣使用Transformer網(wǎng)絡(luò)。給定一個(gè)簡(jiǎn)單的Transformer網(wǎng)絡(luò),我們可以首先向它饋送語(yǔ)法正確的括號(hào)序列作為訓(xùn)練樣例。一個(gè)微妙之處(實(shí)際上也出現(xiàn)在ChatGPT的人類(lèi)語(yǔ)言生成中)是,除了我們的“內(nèi)容標(biāo)記”[這里是“(”和“)”]之外,還必須包括一個(gè)“End”標(biāo)記,表示輸出不應(yīng)繼續(xù)下去了(即對(duì)于ChatGPT來(lái)說(shuō),已經(jīng)到達(dá)了“故事的結(jié)尾”)。

如果只使用一個(gè)有8個(gè)頭的注意力塊和長(zhǎng)度為128的特征向量來(lái)設(shè)置Transformer網(wǎng)絡(luò)(ChatGPT也使用長(zhǎng)度為128的特征向量,但有96個(gè)注意力塊,每個(gè)塊有96個(gè)頭),似乎不可能讓它學(xué)會(huì)括號(hào)語(yǔ)言。但是使用2個(gè)注意力塊,學(xué)習(xí)過(guò)程似乎會(huì)收斂——至少在給出1000萬(wàn)個(gè)樣例之后(并且,與Transformer網(wǎng)絡(luò)一樣,展示更多的樣例似乎只會(huì)降低其性能)。

通過(guò)這個(gè)網(wǎng)絡(luò),我們可以做類(lèi)似于ChatGPT所做的事情,詢(xún)問(wèn)括號(hào)序列中下一個(gè)符號(hào)是什么的概率。

在第一種情況下,網(wǎng)絡(luò)“非常確定”序列不能在此結(jié)束——這很好,因?yàn)槿绻诖私Y(jié)束,括號(hào)將不平衡。在第二種情況下,網(wǎng)絡(luò)“正確地識(shí)別出”序列可以在此結(jié)束,盡管它也“指出”可以“重新開(kāi)始”:下一個(gè)標(biāo)記是“(”,后面可能緊接著一個(gè)“)”。但糟糕的是,即使有大約400000個(gè)經(jīng)過(guò)繁重訓(xùn)練的權(quán)重,它仍然說(shuō)下一個(gè)標(biāo)記是“)”的概率是15%——這是不正確的,因?yàn)檫@必然會(huì)導(dǎo)致括號(hào)不平衡。

如果要求網(wǎng)絡(luò)以最高概率補(bǔ)全逐漸變長(zhǎng)的“(”序列,結(jié)果將如下所示。

在一定長(zhǎng)度內(nèi),網(wǎng)絡(luò)是可以正常工作的。但是一旦超出這個(gè)長(zhǎng)度,它就開(kāi)始出錯(cuò)。這是在神經(jīng)網(wǎng)絡(luò)(或廣義的機(jī)器學(xué)習(xí))等“精確”情況下經(jīng)常出現(xiàn)的典型問(wèn)題。對(duì)于人類(lèi)“一眼就能解決”的問(wèn)題,神經(jīng)網(wǎng)絡(luò)也可以解決。但對(duì)于需要執(zhí)行“更算法式”操作的問(wèn)題(例如明確計(jì)算括號(hào)是否閉合),神經(jīng)網(wǎng)絡(luò)往往會(huì)“計(jì)算過(guò)淺”,難以可靠地解決。順便說(shuō)一句,即使是當(dāng)前完整的ChatGPT在長(zhǎng)序列中也很難正確地匹配括號(hào)。

對(duì)于像ChatGPT這樣的程序和英語(yǔ)等語(yǔ)言的語(yǔ)法來(lái)說(shuō),這意味著什么呢?括號(hào)語(yǔ)言是“嚴(yán)謹(jǐn)”的,而且是“算法式”的。而在英語(yǔ)中,根據(jù)局部選詞和其他提示“猜測(cè)”語(yǔ)法上合適的內(nèi)容更為現(xiàn)實(shí)。是的,神經(jīng)網(wǎng)絡(luò)在這方面做得要好得多——盡管它可能會(huì)錯(cuò)過(guò)某些“形式上正確”的情況,但這也是人類(lèi)可能會(huì)錯(cuò)過(guò)的。重點(diǎn)是,語(yǔ)言存在整體的句法結(jié)構(gòu),而且它蘊(yùn)含著規(guī)律性。從某種意義上說(shuō),這限制了神經(jīng)網(wǎng)絡(luò)需要學(xué)習(xí)的內(nèi)容“多少”。一個(gè)關(guān)鍵的“類(lèi)自然科學(xué)”觀察結(jié)果是,神經(jīng)網(wǎng)絡(luò)的Transformer架構(gòu),就像ChatGPT中的這個(gè),好像成功地學(xué)會(huì)了似乎在所有人類(lèi)語(yǔ)言中都存在(至少在某種程度上是近似的)的嵌套樹(shù)狀的句法結(jié)構(gòu)。

語(yǔ)法為語(yǔ)言提供了一種約束,但顯然還有更多限制。像“Inquisitive electrons eat blue theories for fish”(好奇的電子為了魚(yú)吃藍(lán)色的理論)這樣的句子雖然在語(yǔ)法上是正確的,但不是人們通常會(huì)說(shuō)的話(huà)。ChatGPT即使生成了它,也不會(huì)被認(rèn)為是成功的——因?yàn)橛闷渲械脑~的正常含義解讀的話(huà),它基本上是毫無(wú)意義的。

有沒(méi)有一種通用的方法來(lái)判斷一個(gè)句子是否有意義呢?這方面沒(méi)有傳統(tǒng)的總體理論。但是可以認(rèn)為,在用來(lái)自互聯(lián)網(wǎng)等處的數(shù)十億個(gè)(應(yīng)該有意義的)句子對(duì)ChatGPT進(jìn)行訓(xùn)練后,它已經(jīng)隱含地“發(fā)展出”了一個(gè)這樣的“理論”。

這個(gè)理論會(huì)是什么樣的呢?它的冰山一角基本上已經(jīng)為人所知了2000多年,那就是邏輯。在亞里士多德發(fā)現(xiàn)的三段論(syllogistic)形式中,邏輯基本上用來(lái)說(shuō)明遵循一定模式的句子是合理的,而其他句子則不合理。例如,說(shuō)“所有X都是Y。這不是Y,所以它不是X”(比如“所有的魚(yú)都是藍(lán)色的。這不是藍(lán)色的,所以它不是魚(yú)”)是合理的。就像可以異想天開(kāi)地想象亞里士多德是通過(guò)(“機(jī)器學(xué)習(xí)式”地)研究大量修辭學(xué)例子來(lái)發(fā)現(xiàn)三段論邏輯一樣,也可以想象ChatGPT在訓(xùn)練中通過(guò)查看來(lái)自互聯(lián)網(wǎng)等的大量文本能夠“發(fā)現(xiàn)三段論邏輯”。(雖然可以預(yù)期ChatGPT會(huì)基于三段論邏輯等產(chǎn)生包含“正確推理”的文本,但是當(dāng)涉及更復(fù)雜的形式邏輯時(shí),情況就完全不同了。我認(rèn)為可以預(yù)期它在這里失敗,原因與它在括號(hào)匹配上失敗的原因相同。)

除了邏輯的例子之外,關(guān)于如何系統(tǒng)地構(gòu)建(或識(shí)別)有合理意義的文本,還有什么其他可說(shuō)的嗎?有,比如像Mad Libs?這樣使用非常具體的“短語(yǔ)模板”的東西。但是,ChatGPT似乎有一種更一般的方法來(lái)做到這一點(diǎn)。也許除了“當(dāng)你擁有1750億個(gè)神經(jīng)網(wǎng)絡(luò)權(quán)重時(shí)就會(huì)這樣”,就沒(méi)有什么別的可以說(shuō)了。但是我強(qiáng)烈懷疑有一個(gè)更簡(jiǎn)單、更有力的故事。

注釋

1.規(guī)則30是一個(gè)由本書(shū)作者在1983年提出的單維二進(jìn)制元胞自動(dòng)機(jī)規(guī)則。這個(gè)簡(jiǎn)單、已知的規(guī)則能夠產(chǎn)生復(fù)雜且看上去隨機(jī)的模式?!幷咦?/p>

本文摘自《這就是ChatGPT》。

《這就是ChatGPT》,【美】斯蒂芬·沃爾弗拉姆/著 WOLFRAM傳媒漢化小組/譯,人民郵電出版社,2023年7月版



熱門(mén)文章排行

掃描二維碼
Copyright ? 讀書(shū)網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)