更多

網(wǎng)易伏羲:讓生成式AI與中國用戶心有靈犀

2023-03-31 16:49:53    來源:官方    編輯:浮夢    瀏覽量:加載中...
標(biāo)簽:獵天使魔女

前言

       從臨近中國的兔年開始,生成式AI(又稱AIGC)的發(fā)展可謂“兔”飛猛進。幾乎每周都有許多新的消息和成果發(fā)布,更低的門檻和更好的效果不斷沖擊大眾認知,讓越來越多的人認知到生成式AI已經(jīng)成為推進下一輪技術(shù)革新的重要動力。同時,也有越來越多的人開始思考一些問題,比如:為什么最好的生成效果不在中國?中國的生成式AI離國外有多遠?要做出最好的生成式AI,除了模型,我們還需要建設(shè)哪些東西?

       網(wǎng)易伏羲作為國內(nèi)首個專注數(shù)字文娛領(lǐng)域的人工智能研究機構(gòu),從17年成立之初開始關(guān)注生成式AI的發(fā)展和落地可能,這些問題在過去的幾年內(nèi)不斷在團隊內(nèi)部被提及、討論,并驅(qū)動一系列工作的開展和推進。本文將介紹網(wǎng)易伏羲對這些問題的思考,以及當(dāng)前的一些進展。

自然語言與生成式AI

       這一輪生成式AI的爆發(fā),需要從自然語言處理技術(shù)的突破說起,17年谷歌提出Transformer架構(gòu),使得計算機可以更加高效地進行文本內(nèi)容知識的學(xué)習(xí),從而推動BERT、GPT等一些列大規(guī)模文本模型的誕生,從理解和生成的維度都獲得了巨大突破。而自然語言處理這門連接人類和計算機交流的基礎(chǔ)學(xué)科,也成為驅(qū)動包括文本、圖像、音頻、視頻、三維模型等各個維度生成式AI爆發(fā)的核心基座。一方面人們從海量的互聯(lián)網(wǎng)數(shù)據(jù)當(dāng)中整理可以用于生成式AI訓(xùn)練的數(shù)據(jù),另外一方面通過自然語言來對齊各個模態(tài)的信息,使得這些知識可以互通。這也可以很好的解釋為什么英文生態(tài)的公司和機構(gòu)在這一輪技術(shù)熱潮中更容易占據(jù)先機 -- 當(dāng)前規(guī)模最大、內(nèi)容最豐富、質(zhì)量最高的機器學(xué)習(xí)語料是由英文構(gòu)成的。

       例如文本下游微調(diào)數(shù)據(jù),英文領(lǐng)域有像T0-SF,Muffin等大量優(yōu)質(zhì)的數(shù)據(jù)集,圖文領(lǐng)域也有像LAION-2B,MSCOCO等開源數(shù)據(jù)集。相比于國內(nèi),中文領(lǐng)域雖然這兩年也有多個相關(guān)數(shù)據(jù)集的建設(shè),如200G悟道文本預(yù)訓(xùn)練數(shù)據(jù)集,“悟空”1億圖文對數(shù)據(jù)集等,但是無論從數(shù)量還是質(zhì)量上來比,與海外的數(shù)據(jù)還是存在著一定的差距。

       除此之外,英文生態(tài)本身也具備非常明確的先天優(yōu)勢,其包含了大量其他語種不具備的優(yōu)質(zhì)的內(nèi)容。比如說全球最頂尖的學(xué)術(shù)論文、編程代碼、多個行業(yè)領(lǐng)域的規(guī)范標(biāo)準(zhǔn)。這些構(gòu)成了英文的獨天得天獨厚的優(yōu)勢,也使得基于英文生態(tài)的研究方案可以更好的去推動和落地。

如何走出數(shù)據(jù)困境

       面對這樣的數(shù)據(jù)困境,國內(nèi)的研究者和機構(gòu)又采取了哪些辦法?歸結(jié)來看大概有4種策略

???????       1、直接用開源模型,走API翻譯

       這可能是最直接的方案,尤其在圖文生成領(lǐng)域,去年stable diffusion模型開源之后國內(nèi)有不少創(chuàng)業(yè)公司嘗試直接基于該模型進行適配訓(xùn)練和推理生成,同時利用 API的翻譯接口將中文的輸入轉(zhuǎn)化成英文實現(xiàn)對中文用戶的支持。這條路線的好處是可以快速地將最新的英文生態(tài)的工作應(yīng)用到國內(nèi)。缺點也非常明顯,一方面是中文翻譯可能引起語義的缺失,很多英文這個領(lǐng)域當(dāng)中常用的說法在中文當(dāng)中是沒有辦法很好的表達的,比如說中國的許多成語以及諺語:

游俠網(wǎng)1

飛流直下三千尺 from Mid Journel

游俠網(wǎng)2

竹杖芒鞋輕勝馬 from Mid Journel

???????       海外數(shù)據(jù)的內(nèi)容組成也大多由當(dāng)?shù)氐娜宋牡乩恚顨v史構(gòu)成,對于中文的知識缺乏很好的理解,比如說中國的歷史古跡、名人、美食和生活習(xí)俗。

游俠網(wǎng)3

西湖斷橋 from midjournel

游俠網(wǎng)4

過橋米線 from mid journel

???????       第三點也是最核心的一點:已有開源模型數(shù)的數(shù)據(jù)據(jù)存在偏見,合規(guī)性和安全性都留有風(fēng)險。舉例說,這些模型在種族問題上不平等,也存在大量裸露、暴力的內(nèi)容。直接將這些數(shù)據(jù)模型用于國內(nèi)的生產(chǎn),存在著巨大的隱患,所以從年初開始,相關(guān)部門對生成式AI的能力構(gòu)成加大了審核力度。

???????       2、海外數(shù)據(jù)翻譯

???????       這種方案是第一種方案的改進版。具備一定研究能力的機構(gòu),會選擇將海外數(shù)據(jù)整理下來之后進行英文到中文的翻譯,借助英文數(shù)據(jù)已有的成果,構(gòu)建更加可靠的自有模型,目前國內(nèi)有不少研究機構(gòu)和企業(yè)采取了這條路線。優(yōu)點是可以繼承英文的豐富的數(shù)據(jù)生態(tài),同時可以對涉黃、涉政的數(shù)據(jù)進行系統(tǒng)性篩選。

???????       缺點還是存在領(lǐng)域差異,包括對一些特定的中文表述、生態(tài)、文化習(xí)俗的缺失,以及數(shù)據(jù)本身還是帶有非常強的偏見,甚至是歧視。即使去除了不合規(guī)的數(shù)據(jù),這些隱性的問題還是很難解決的。比如“穿旗袍的女孩”,“七夕節(jié)日”等等。

???????       3、中文數(shù)據(jù)構(gòu)建

       這是一條相對難走的道路,需要大量前期的積累。數(shù)據(jù)的整理的工作往往在短期內(nèi)難以獲得成效,其階段性價值也難以衡量。但完善的高質(zhì)量數(shù)據(jù)的建設(shè),將對生成式AI后期的工作推進帶來可靠的助力。所以在伏羲以往的討論當(dāng)中,這也被認定為是一條難走卻又正確的道路。自建中文數(shù)據(jù)集的好處在于可以解決中文場景的一系列基礎(chǔ)性問題,彌補模型對中文知識的欠缺,更好的去控制數(shù)據(jù)安全,從而對數(shù)據(jù)的合規(guī)性進行有效審核。

???????       國內(nèi)目前也有一些做了中文數(shù)據(jù)構(gòu)建的這些工作,高質(zhì)量對齊數(shù)量例如coco-cn,數(shù)據(jù)量級別在十萬級別,數(shù)據(jù)量較少。wukong數(shù)據(jù)集是目前較大規(guī)模的開源圖文數(shù)據(jù)集,但相比海外的對標(biāo)數(shù)據(jù)集目前還是存在一定差距。許多場景之下,相關(guān)的研究人員也開始呼吁國內(nèi)的政府和企業(yè)可以推進高質(zhì)量的中文數(shù)據(jù)集的共建,我們也看到有許多國內(nèi)同行開始加入到這個行列。

???????       4、多語言兼容

???????       自建數(shù)據(jù)集雖好,但依然無法解決其他語言優(yōu)質(zhì)內(nèi)容缺乏的問題。所以多語言兼容是目前看起來大規(guī)模預(yù)訓(xùn)練模型技術(shù)比較切實可行的方案。當(dāng)然,這個方案目前依舊在驗證當(dāng)中,當(dāng)前已經(jīng)有一些相關(guān)的工作,通過多語言的方案,將英文場景下圖文理解,文圖生成功能,擴展到其他的語種中,打通了英文體系和其他語種的障礙。

???????       在ChatGPT的訓(xùn)練過程當(dāng)中,已經(jīng)體現(xiàn)展現(xiàn)出跨語言的可行性以及潛力。由于有大量的多元數(shù)據(jù)融合,目前GPT的中文能力已經(jīng)比許多純中文預(yù)訓(xùn)練模型更加出色。在圖文生成領(lǐng)域,Niji模型的跨語言能力和生成效果都是不錯的。

伏羲的破境之舉

       從生成式AI的整體效果考慮,伏羲選擇了一條比較長期的技術(shù)路線。在兼容開源數(shù)據(jù)的同時,又分為4步推進,首先是建設(shè)高質(zhì)量的大規(guī)模中文數(shù)據(jù)集;其次構(gòu)建中文領(lǐng)域的優(yōu)質(zhì)理解模型;然后基于數(shù)據(jù)集和理解模型重構(gòu)圖文生成算法,做到語義的有效提升;最后引入專家和人類的反饋引導(dǎo)模型生成用戶更加需要的高質(zhì)量內(nèi)容。

???????       1、建設(shè)大規(guī)模中文數(shù)據(jù)

       伏羲聯(lián)合網(wǎng)易多個部門,包括網(wǎng)易雷火、傳媒、云音樂等核心業(yè)務(wù),從用戶和業(yè)務(wù)維度提供對數(shù)據(jù)的理解和需求,完成對于優(yōu)質(zhì)數(shù)據(jù)的定義,建設(shè)包括文本質(zhì)量,圖像美觀度,版權(quán)合規(guī)性以及倫理評估等評價標(biāo)準(zhǔn)。以此框架作為約束共同推進數(shù)據(jù)構(gòu)建,同時設(shè)計了一套基于分布式任務(wù)的數(shù)據(jù)可信系統(tǒng),各專家團隊各自提供數(shù)據(jù)質(zhì)量評審模型,完成共同打分后再交由數(shù)據(jù)治理引擎統(tǒng)一管理。

???????       2、構(gòu)建中文領(lǐng)域的理解模型

       基于伏羲自研千億文本模型的技術(shù)積累,“玉言”系列理解模型先后登頂知名中文榜單FewCLUE和CLUE分類榜單,在CLUE1.1分類任務(wù)排行榜(包含AFQMC[文本相似度]、TNEWS[短文本分類]、IFLYTEK[長文本分類]、OCNLI[自然語言推理]、WSC[代詞消歧]、CSL[關(guān)鍵詞識別]6個理解任務(wù))上超過人類水平。玉言系列中的百億生成模型與對話模型已完成開源,理解模型也會在近期開源。

游俠網(wǎng)5

???????       在文本理解的基礎(chǔ)之上,伏羲自2021年起著力打造“玉知”多模態(tài)圖文理解大模型,采用圖片-文本雙塔結(jié)構(gòu)和模塊化的訓(xùn)練思想,基于億級別的中文圖文數(shù)據(jù)對,先后迭代了三種規(guī)格的模型版本,在中文圖文理解水平上達到業(yè)界領(lǐng)先水平,并具有良好的泛化性,在下游各類任務(wù)如分類,檢索,推薦等方面表現(xiàn)優(yōu)異;并且,在圖文模型的預(yù)訓(xùn)練過程中,針對包含不同文本長度的圖文對采用不同的訓(xùn)練策略,這使得“玉知”模型對語義具有較強的理解能力。同時,利用網(wǎng)易伏羲開源的EET高效推理框架,對模型壓縮、算法適配、硬件底層等方面進行優(yōu)化,使其推理速度提升4倍,滿足了線上的高并發(fā)需求,降低了部署資源的損耗。

游俠網(wǎng)6

在業(yè)務(wù)數(shù)據(jù)集的zero-shot評測中

“玉知”多模態(tài)理解大模型優(yōu)于Chinese-CLIP的CN-CLIPViT-H/14

???????       玉知模型也成功在網(wǎng)易的多個業(yè)務(wù)中得到驗證,如網(wǎng)易新聞和網(wǎng)易云音樂的搜索、推薦、智能標(biāo)注等場景。網(wǎng)易新聞通過圖文大模型構(gòu)建的圖文內(nèi)容表征,在推薦環(huán)節(jié)采用基于該圖文向量的dropoutnet召回優(yōu)化,對召回源、列表頁視頻試投、列表頁試投整體等效果明顯改進,實現(xiàn)視頻和整體大盤的業(yè)務(wù)指標(biāo)提升,已在線上業(yè)務(wù)中落地使用。網(wǎng)易云音樂通過圖文大模型構(gòu)建的內(nèi)容表征引擎和內(nèi)容相似檢索引擎,已成功應(yīng)用于云音樂視頻、長音頻、廣告等多個內(nèi)容業(yè)務(wù),對內(nèi)容冷啟動效率、CTR預(yù)估模型等,帶來顯著的線上收益。同時進一步聯(lián)合華為團隊,充分分析互聯(lián)網(wǎng)行業(yè)數(shù)據(jù)集特性,對多模態(tài)模型結(jié)構(gòu)進行優(yōu)化,優(yōu)選合適編碼器并采用多階段訓(xùn)練模式,共建玉知-悟空模型,進一步構(gòu)建伏羲在中文跨模態(tài)理解領(lǐng)域的領(lǐng)先優(yōu)勢。

???????       3、圖文生成算法重構(gòu)

       在圖文理解預(yù)訓(xùn)練模型的基礎(chǔ)上,伏羲進一步推進自研文圖生成模型——“丹青”的研發(fā),一種語義增強的文圖生成擴散模型。依托于擴散模型的原理,在廣泛的(8億)圖文數(shù)據(jù)上訓(xùn)練以達到較好的生成結(jié)果。不同于常見的基于擴散模型的文圖生成方法,伏羲自研的模型還具備以下特點:

???????       1.模型創(chuàng)新:文圖生成的語義能力,非常強依賴對用戶輸入文本的表征能力,依托于伏羲自研的”玉知”模型在中文語境下的表征能力,自研生成模型在中文場景下具有的超強語義表征能力。此外,伏羲自研模型還側(cè)重文本與圖片交互的,強化了在文圖引導(dǎo)部分的參數(shù)作用,能夠讓文本更好地引導(dǎo)圖片的生成,因此生成的結(jié)果也更加貼近用戶意圖。

???????       2.圖片多尺度的訓(xùn)練:在廣泛的數(shù)據(jù)集中,自研模型在充分考慮圖片的不同尺寸和清晰度問題,將不同尺寸和分辨率的圖片進行分桶,從而進行的多尺度訓(xùn)練。在充分保證訓(xùn)練圖片訓(xùn)練的不失真的前提下,保留盡可能多的信息,自研模型能夠適應(yīng)不同分辨率的生成。

???????       3.數(shù)據(jù)策略:多階段的訓(xùn)練能夠保證模型既具有廣泛性,又保證生成結(jié)果的質(zhì)量。初始階段,使用億級別的廣泛分布的數(shù)據(jù),讓模型不僅在語義理解上具有廣泛性,可以很好的理解一些成語,古文詩句,例如夫妻肺片,名花傾國等等。同時在生成的畫風(fēng)上也具有多樣性,可以生成多種風(fēng)格。在之后的階段分別從圖文關(guān)聯(lián)度,圖片清晰度,圖片美觀度等多個層面進行數(shù)據(jù)篩選,以優(yōu)化生成能力,生成高質(zhì)量圖片。

???????       中文場景下超強的語義理解能力: 能夠充分理解用戶的輸入,并且返回給用戶想要的東西。尤其在成語,俗語,詩句的理解和生成具備一定優(yōu)勢。

游俠網(wǎng)7

???????       風(fēng)格的多樣性 & 純正性  :覆蓋的風(fēng)格廣泛,例如年輕人熱愛的二次元,動漫風(fēng)格,傳統(tǒng)的山水國畫風(fēng)格,以及知名畫家的特殊風(fēng)格等。

游俠網(wǎng)8

游俠網(wǎng)9

游俠網(wǎng)10

游俠網(wǎng)11

???????       中文場景的領(lǐng)域優(yōu)勢:善于生成中國元素的作品,例如宋代美女,傳統(tǒng)佳節(jié)等場景

游俠網(wǎng)12

游俠網(wǎng)13

游俠網(wǎng)14???????

游俠網(wǎng)15

游俠網(wǎng)16

4、人機協(xié)同增強的數(shù)據(jù)閉環(huán)

???????       依賴于機器進行數(shù)據(jù)篩選,不可避免存在諸多缺陷和不完美。依托于網(wǎng)易伏羲的aop眾包能力,我們從不同角度引入了人工。在訓(xùn)練階段,人工從多個維度的評估,篩選出來大批高質(zhì)量圖文匹配、高美觀度數(shù)據(jù),以補足自動流程缺失能力,幫助基礎(chǔ)模型獲得更好的效果。同時,我們在模型的生成階段,也引入人工的反饋,對模型的語義生成能力和圖片美觀度進行評分,篩選出大批量優(yōu)質(zhì)生成的結(jié)果,引入模型當(dāng)做正反饋,實現(xiàn)數(shù)據(jù)閉環(huán)。更好提升了模型的理解能力和生成能力。

游俠網(wǎng)17

游俠網(wǎng)18

后續(xù)工作與展望

       以上四個維度的建設(shè),使得網(wǎng)易伏羲的圖文生成式AI具備較好的中文理解及美觀度表達能力,在做到與中國用戶“心有靈犀”的工作道路上邁出了第一步。生成式AI技術(shù)革新的序幕剛剛開始拉起,隨著生產(chǎn)力的不斷釋放和新的開源生態(tài)建立,在聯(lián)通算法、數(shù)據(jù)、算力和人的工作上還有很多事情要做。除了持續(xù)優(yōu)化生成效果,對于AI在將來工作流當(dāng)中的價值、已有知識產(chǎn)權(quán)的保護、AI倫理的規(guī)范遵守等一些問題,也需要持續(xù)的思考和完善。

???????       目前,網(wǎng)易伏羲正在推進中文領(lǐng)域的生成式人工智能平臺-“丹青約”的建設(shè),并攜手集團內(nèi)部生態(tài)共同參與藝術(shù)風(fēng)格和算法模型的設(shè)計和訓(xùn)練。為行業(yè)用戶提供高效微調(diào)適配、低成本模塊化推斷、開源生態(tài)快速集成、生成模型定制加速等完整解決方案,為藝術(shù)家們提供更加靈活的生產(chǎn)力工具,尋找更新的藝術(shù)形態(tài),為推動中文語義理解和科技創(chuàng)新注入新的力量。

0
分享至
掃描關(guān)注游俠網(wǎng)
推薦閱讀

推薦閱讀

《生化4RE》是系列史上首發(fā)兩周內(nèi)銷售第二快作品!

《生化4RE》是系列史上首發(fā)兩周內(nèi)銷售第二快作品!
卡普空已宣布《生化危機4 重制版》已售出400萬份,據(jù)推主Alex Aniel統(tǒng)計,《生化4RE》是《生化》系列游戲史上發(fā)售前兩周內(nèi)銷售第二快的作品。第一名是《生化6》,在同期售出 450 萬套,略高于《生化4RE》。
04-09 22993人已看過

好久都沒玩到這么“對味兒”的國產(chǎn)種田游戲了

好久都沒玩到這么“對味兒”的國產(chǎn)種田游戲了
這款國產(chǎn)種田新作可真是對我胃口。
04-13 28990人已看過

Steam每日特惠:《死亡擱淺:導(dǎo)演剪輯版》新史低

Steam每日特惠:《死亡擱淺:導(dǎo)演剪輯版》新史低
春季特惠、夏季特賣、冬季特賣,每周特惠、限時特惠,對于游弋于Steam平臺的正版玩家來說,一定要熟練掌握了解各類游戲折扣的關(guān)鍵技能。每天逛一回Steam每日特價信息,省錢就是超輕松。一起來看看特惠佳作吧!
04-11 147212人已看過

巴黎最美女子被囚25年!讓你大開眼界的25張對比照

巴黎最美女子被囚25年!讓你大開眼界的25張對比照
俗話說“沒有對比就沒有傷害”,對比是最容易顯示出事物的差異和前后變化的方法之一,通過照片來對比,則可以讓這些差異一目了然,下面就是一組震撼的對比照,清晰地展示出了我們這個奇妙世界的變化。
04-07 69696人已看過

《小美人魚》新劇照公布 黑清道夫公主與王子親密互動

《小美人魚》新劇照公布 黑清道夫公主與王子親密互動
《小美人魚》最新劇照來咯!小美人魚愛麗兒與王子親密互動,但是王子看起來卻一點也不高興,怎么回事呢?還有更多小美人魚的畫面,一起欣賞一下吧!
04-11 28801人已看過

悄悄隱藏實力的甜妹!美女偶像“中川美優(yōu)”美照賞

悄悄隱藏實力的甜妹!美女偶像“中川美優(yōu)”美照賞
今天跟大家分享是美女“中川美優(yōu)”的美照,雖然是甜妹但是身材卻一點都不“甜”,一起來看看她的美照吧。
04-06 39262人已看過

《萊莎3》第三彈DLC推出!服裝組合&配方擴充包推出

《萊莎3》第三彈DLC推出!服裝組合&配方擴充包推出
《萊莎的煉金工房3:終結(jié)之煉金術(shù)士與秘密鑰匙》第三彈DLC今日(4月13日)正式上線,包含了三個付費DLC:服裝組合“遠東旅人”、配方擴充包“煉金術(shù)之神秘”、配方擴充包“冒險之精髓”,可以單獨購買,也可以通過季票獲得。
04-13 26392人已看過

AI繪制《火影忍者》女角色真人化!雛田變身火辣御姐

AI繪制《火影忍者》女角色真人化!雛田變身火辣御姐
AI繪畫隨著時間的推移已經(jīng)變得越來越智能和完善了。近日,網(wǎng)友“Yohu213f”帶來了AI繪制《火影忍者》女角色真人化,讓我們一起來看看吧。
04-06 47183人已看過

林俊杰買虛擬地產(chǎn)浮虧91%:元宇宙房地產(chǎn)價格崩盤!

林俊杰買虛擬地產(chǎn)浮虧91%:元宇宙房地產(chǎn)價格崩盤!
林俊杰曾在2021年底購買三塊虛擬土地,涉足元宇宙房產(chǎn)界。不過今年以來,隨著虛擬貨幣價格下跌、多家平臺爆雷,元宇宙房地產(chǎn)的價格也跟著“崩”了。
04-09 59190人已看過

猛男是怎么跟妹子一起健身的 動圖 黃金圣女戰(zhàn)衣!

猛男是怎么跟妹子一起健身的 動圖 黃金圣女戰(zhàn)衣!
掏出來比我大多了,我一個男的都覺得好看,什么中世紀(jì)酷刑,猛男是怎么跟妹子一起健身的,火車遭遇攔路虎,黃金圣女戰(zhàn)衣!
04-10 269573人已看過
返回首頁 查看更多

熱門美圖

動漫壁紙
軟萌小妹妹
二次元妹子
美腿軟妹
關(guān)于游俠 | 廣告合作 | 人才招聘 | 聯(lián)系我們 | 網(wǎng)站地圖 | 投訴建議 | 我要投稿 | 版權(quán)保護投訴指引
CopyRight ? 1999-2023 ALi213.Net All Right Reserved 游俠網(wǎng) 版權(quán)所有 | 蘇ICP備2023007791號