通過(guò)UP主的介紹,要實(shí)現(xiàn)和AI“奶奶”對(duì)話并不是那么麻煩,只需要使用幾個(gè)現(xiàn)有的AI工具即可:
首先,UP主將自己和奶奶的照片上傳到AI繪畫工具Midjourney上,生成具有個(gè)人特征的AI畫像。
剛剛經(jīng)過(guò)5.0更新的Midjourney顯然能夠勝任這項(xiàng)任務(wù),在生成了多個(gè)圖像之后,這張無(wú)論是從皮膚細(xì)節(jié)還是神態(tài)來(lái)看,都是最合適的。
在人像處理好之后,聲音的處理也是必不可少的一環(huán)。
UP主接著將奶奶的錄音利用音頻處理軟件切割成3-15秒的短句,繼而通過(guò)AI Studio平臺(tái)的語(yǔ)音合成項(xiàng)目中,使用這些錄音切片訓(xùn)練并合成屬于奶奶的AI語(yǔ)音包。
在對(duì)話方面,為了讓“奶奶”的話語(yǔ)更接近真實(shí),UP主選擇了當(dāng)前最優(yōu)秀的AI對(duì)話模型——ChatGPT。
通過(guò)訓(xùn)練ChatGPT學(xué)習(xí)奶奶的家庭背景和生活習(xí)慣,嘗試讓它以奶奶的口吻進(jìn)行交流。
UP主使用的是3.5版本的ChatGPT,4.0版本表現(xiàn)會(huì)更好
最后一步,則是將這些畫面和語(yǔ)音合成到一起,輸出一個(gè)既能夠用自己的聲音說(shuō)話,還能根據(jù)對(duì)話內(nèi)容產(chǎn)生面部和嘴部變化的視頻。
當(dāng)然依照目前現(xiàn)有的AI技術(shù),想要一直和“奶奶”交流是不太可能的。
就像在我之前所寫的一篇“將ChatGPT調(diào)教成二次元老婆后,技術(shù)宅決定給她安樂(lè)死”中,就提到過(guò)ChatGPT只能夠記憶大約3000個(gè)單詞。
而即便是目前GPT已經(jīng)升級(jí)到4.0,能夠記憶大概2.5w個(gè)單詞,但長(zhǎng)期對(duì)話之后,它依舊有可能缺乏上下文的連貫性,并且失去“奶奶”本身的說(shuō)話習(xí)慣。
但是以目前AI技術(shù)的迭代速度來(lái)看,或許在未來(lái)真的能夠利用這些技術(shù),塑造出一個(gè)真人在虛擬世界的完美映照。
玩家和粉絲買賬才是硬道理。
君の偽中國(guó)語(yǔ)本當(dāng)上手
大伙真是不管多少歲都有一顆叛逆的心啊。