再一次回到了學(xué)校,周淮拿出了梁峰交給他的那個(gè)U盤,然后插入電腦,開始查看這個(gè)他們所謂的內(nèi)部成果。
老實(shí)說,他其實(shí)也并不在意他們的內(nèi)部成果能有多好。
畢竟,就算是再好的成果,也不可能比小芙更厲害。
只要有小芙在,那么像是CRA架構(gòu)的后續(xù)更新升級都完全不是問題。
對他來說,現(xiàn)在的主要問題就是要如何保證他從小芙那里獲得的技術(shù)是當(dāng)前科學(xué)界能夠接受的。至于這個(gè)梁峰公司的內(nèi)部成果,對他來說主要就是看看他們團(tuán)隊(duì)是不是真的如梁峰說的那樣,質(zhì)量高。很快,打開了里面的內(nèi)容,其中包含了差不多十來個(gè)文件。
其中有些已經(jīng)有了一定的成果,有的則是初步的構(gòu)想。
周淮的表情很平靜,他隨手點(diǎn)開了幾個(gè)已經(jīng)有一定成果的項(xiàng)目。
一個(gè)是金融輿情分析系統(tǒng),利用當(dāng)時(shí)主流的BERT模型,對海量新聞和社交媒體信息進(jìn)行情感分析,以輔助交易決策。
另一個(gè)是自動化交易框架,能夠?qū)⒔灰讍T的策略轉(zhuǎn)化為高效的執(zhí)行代碼。
“嗯,很不錯(cuò)?!敝芑丛谛闹性u價(jià)道。
看得出來,這個(gè)團(tuán)隊(duì)的技術(shù)功底確實(shí)相當(dāng)扎實(shí),工程能力出色,能將學(xué)術(shù)界的模型,快速、高效地落地到商業(yè)場景中。
不愧是管理上百億資金規(guī)模的私募,在這方面的技術(shù)上面的確厲害。
但這,也僅此而已了。
在周淮眼中,這些都只是在現(xiàn)有Transformer架構(gòu)框架下的精巧應(yīng)用,是“術(shù)”的層面,并未觸及“道”的根本。
與小芙構(gòu)建出的CRA架構(gòu)相比,這些成果確實(shí)……不值一提。
他靠在椅子上,心中略微有些失望,但又覺得這在情理之中。
他本就沒指望能在這里看到什么驚天動地的東西。
“看來,主要還是看中他們的資金和算力了?!彼贿呄胫?,一邊準(zhǔn)備關(guān)掉文件夾。
然而就在這時(shí),他的目光被一個(gè)名為【推理引擎路線圖】的文件夾吸引住了。
與其他項(xiàng)目不同,這個(gè)文件夾里沒有太多成型的代碼,大部分都是PPT、設(shè)計(jì)文檔和理論草案。他好奇地點(diǎn)了進(jìn)去,打開了這個(gè)文件夾,看見了里面的一些檔案資料。
而隨著他打開了其中的一些資料,簡單看了幾眼之后,他就不由得坐直了身體。
這些資料里面,沒有去暢想如何做一個(gè)包羅萬象的通用大模型。
恰恰相反,它提出了一條極其“刁鉆”和“務(wù)實(shí)”的技術(shù)路線。
第一,他們放棄了“通用”的幻想,將第一個(gè)目標(biāo),鎖定在了“代碼生成”這個(gè)最具體、最考驗(yàn)邏輯的領(lǐng)域。
文檔中的原話是:【自然語言充滿了模糊性和歧義性,而代碼是人類創(chuàng)造的最嚴(yán)謹(jǐn)、最無歧義的邏輯語言。我們相信,一個(gè)真正能夠“理解’代碼并生成代碼的AI,才算得上是邁出了從“模式匹配’到“邏輯推理’的第一步。我們不打算教AI“聊天’,我們想先教它“思考’?!?/p>
然后他們將這種想法也直接命名為【deepthink模型】,或者是【深度思考模型】。而后在后面他們還提供了一些數(shù)學(xué)模型。
周淮看了一眼,順便也模擬了一遍,雖然僅僅只是一些基礎(chǔ)的想法,但是他也能夠看出其中的一些潛力如果讓他來親自操刀,也許能夠?qū)⑦@個(gè)模型修改的更好一些。
當(dāng)然,亮點(diǎn)也并不只是這一個(gè)。
除了這個(gè)深度思考模型之外,他們還提出了一個(gè)或許可以解決大模型巨大的算力和推理成本問題。眾所周知,GPT這個(gè)模型,最重要的就是堆算力。
龐大的算力,使得GPT達(dá)到了現(xiàn)在的這種程度。
但是算力的堆疊需要大量的成本,畢競這需要購買大量的算力卡。
因此,如果能夠降低這方面的成本,毫無疑問就能夠?yàn)榇竽P蛶硪淮魏芫薮蟮耐黄啤?/p>
而在這份文檔中,梁峰和他的團(tuán)隊(duì)提出了一種MoE模型。
MoE模型又叫做混合專家模型,是一種上個(gè)世紀(jì)就已經(jīng)提出的模型,不過后來計(jì)算機(jī)界通過對這個(gè)玩意兒的研究,已經(jīng)發(fā)展出了相當(dāng)多的變體,而這份文檔中,梁峰他們就提出了一種動態(tài)稀疏化的MoE模型,從而試圖降低推理能耗。
這個(gè)模型他們倒是已經(jīng)完成了有七七八八,周淮看了一眼,也不由暗自點(diǎn)頭,非常不錯(cuò)的一個(gè)模型。而后,他繼續(xù)向后面看去,里面還提出了其他的一些構(gòu)想,比如一種層級注意力機(jī)制,從而有效緩解長文本中的信息衰減問題。
等等。
就這樣,周淮將這個(gè)文件夾中的內(nèi)容看完之后,便不由長長地吐出了一口氣。
他不得不承認(rèn),梁峰的這個(gè)團(tuán)隊(duì)……還真是有點(diǎn)東西!
雖然從技術(shù)層面上,他們提出的MoE構(gòu)想,在小芙所掌握的知識體系里,或許只是一個(gè)基礎(chǔ)的模塊。他們對“邏輯”的理解,也遠(yuǎn)沒有CRA架構(gòu)那么深刻。
但是,這份文檔中所展現(xiàn)出的那些潛力,就能夠讓他意識到梁峰這個(gè)團(tuán)隊(duì)的確是一個(gè)值得重視的團(tuán)隊(duì)。雖然不清楚未來他們能夠干出怎樣的成果出來,但是單從這份文檔來