首頁(yè) > 宏觀 >

醫(yī)療等垂直領(lǐng)域語(yǔ)料數(shù)據(jù)稀缺能讓倆ChatGPT對(duì)聊出來(lái)嗎？青年科學(xué)家這樣認(rèn)為_(kāi)短訊

2023-05-30 15:20:31 新民晚報(bào)

都說(shuō)醫(yī)療、金融等專(zhuān)業(yè)領(lǐng)域的語(yǔ)料數(shù)據(jù)稀缺，這會(huì)制約AI大模型的發(fā)展——那能不能讓兩個(gè)ChatGPT對(duì)聊，聊出點(diǎn)數(shù)據(jù)出來(lái)？

(相關(guān)資料圖)

近日，天橋腦科學(xué)研究院（TCCI）主辦了AI For Brain Science系列會(huì)議第二期—— “面向AI模型的數(shù)據(jù)生成方法及其對(duì)醫(yī)療領(lǐng)域的啟示”。

在上海交通大學(xué)計(jì)算機(jī)科學(xué)與工程系副教授吳夢(mèng)玥主持下，三名青年科學(xué)家分享了關(guān)于破解大規(guī)模語(yǔ)言模型數(shù)據(jù)瓶頸的看法和實(shí)踐。

快速構(gòu)建專(zhuān)屬GPT

國(guó)際上一項(xiàng)研究評(píng)估指出，ChatGPT回答癌癥相關(guān)問(wèn)題的水平已經(jīng)與美國(guó)國(guó)家癌癥研究所的回答持平。不過(guò)，ChatGPT只能通過(guò)受限的應(yīng)用程序編程接口訪(fǎng)問(wèn)；并且涉及到個(gè)人醫(yī)療，人們也普遍不希望將自己的隱私信息分享給第三方公司。

針對(duì)這樣的難題，加州大學(xué)圣迭戈分校博士生許燦文和中山大學(xué)團(tuán)隊(duì)的合作者提出了一種能自動(dòng)生成高質(zhì)量多輪聊天語(yǔ)料庫(kù)的流程，利用ChatGPT與其自身進(jìn)行對(duì)話(huà)，生成對(duì)話(huà)數(shù)據(jù)，再基于產(chǎn)生的對(duì)話(huà)數(shù)據(jù)調(diào)優(yōu)、增強(qiáng)開(kāi)源的大型語(yǔ)言模型。他們從而獲得了高質(zhì)量的專(zhuān)屬模型“白澤”，并在數(shù)天前推出了2.0版本。這個(gè)名字的靈感來(lái)源是中國(guó)古代傳說(shuō)中的一種神獸，“能言語(yǔ)，達(dá)知萬(wàn)物之情”。

許燦文介紹，“白澤”在這個(gè)過(guò)程中并沒(méi)有學(xué)會(huì)新的知識(shí)，只是提取了大模型中的特定數(shù)據(jù)，并且保留了ChatGPT “分點(diǎn)作答”“拒絕回答”等語(yǔ)言能力。這在專(zhuān)業(yè)上被比喻為一種“蒸餾”。進(jìn)一步地，他們提出了反饋?zhàn)哉麴s的概念，即利用ChatGPT當(dāng)教官，對(duì)“白澤”回答的結(jié)果進(jìn)行評(píng)分排序，從而進(jìn)一步提高了“白澤”模型的性能。

許燦文認(rèn)為，“白澤”通過(guò)自動(dòng)化的知識(shí)蒸餾，在特定領(lǐng)域達(dá)到ChatGPT的能力，成本卻遠(yuǎn)遠(yuǎn)低于ChatGPT，兼具經(jīng)濟(jì)意義和實(shí)用意義。在醫(yī)療領(lǐng)域，本地化或私有化建構(gòu)的模型將有利于消除隱私顧慮，輔助患者診療。

大模型優(yōu)化醫(yī)療文本挖掘

萊斯大學(xué)博士生唐瑞祥和合作者同樣基于大模型提出了一種新的數(shù)據(jù)生成策略，并在命名實(shí)體識(shí)別、關(guān)系提取等經(jīng)典的醫(yī)療文本挖掘任務(wù)上取得了更佳表現(xiàn)。

ChatGPT具有創(chuàng)造性的寫(xiě)作能力，在醫(yī)療、金融、法律等標(biāo)注數(shù)據(jù)很少的領(lǐng)域以及知識(shí)密集型領(lǐng)域表現(xiàn)出色。然而，具體到醫(yī)療文本挖掘，他們發(fā)現(xiàn)將ChatGPT直接應(yīng)用大型模型處理醫(yī)療文本的下游任務(wù)，表現(xiàn)并不總是優(yōu)秀，也可能引發(fā)隱私問(wèn)題。

唐瑞祥等提出了一種新策略：利用大型模型生成大量醫(yī)療數(shù)據(jù)，再通過(guò)小型模型對(duì)這些數(shù)據(jù)進(jìn)行訓(xùn)練。實(shí)驗(yàn)結(jié)果顯示，相較于直接利用大型模型執(zhí)行下游任務(wù)，這一新策略能夠取得更出色的效果，同時(shí)因?yàn)槟Ｐ蛿?shù)據(jù)在本地，也大幅降低了潛在的隱私風(fēng)險(xiǎn)。

他們進(jìn)一步指出，隨著開(kāi)源大模型數(shù)量的增加和大模型能力的提升，其產(chǎn)生的文本數(shù)據(jù)與人類(lèi)產(chǎn)生的文本數(shù)據(jù)的差別將越來(lái)越小，發(fā)展檢測(cè)二者差別的技術(shù)手段將是一項(xiàng)富有挑戰(zhàn)性的工作?，F(xiàn)有的兩種檢測(cè)手段，無(wú)論是黑盒檢測(cè)——直接比較大模型生成的文本數(shù)據(jù)與人類(lèi)生成的文本數(shù)據(jù)（比如比較高頻詞分布），還是白盒檢測(cè)——開(kāi)發(fā)者在生成文本上做標(biāo)簽，在未來(lái)都可能失效。能否有效地檢測(cè)出數(shù)據(jù)是不是GPT生成的，將影響到廣大用戶(hù)對(duì)大模型AI的信任程度。

大模型時(shí)代數(shù)據(jù)生成不一樣

從歷史演變的角度來(lái)看，在沒(méi)有GPT的時(shí)代，科學(xué)家們?nèi)绾谓鉀Q數(shù)據(jù)稀缺難題？大模型又帶來(lái)了哪些新趨勢(shì)？

上海交通大學(xué)博士生曹瑞升總結(jié)了數(shù)據(jù)生成在大模型時(shí)代的幾大新趨勢(shì)：首先是構(gòu)建更加通用的模型，以確保其能夠應(yīng)用于多樣化的任務(wù)——這意味著模型需要具備廣泛的適應(yīng)性和泛化能力；其次是從特定任務(wù)出發(fā)，進(jìn)一步精細(xì)化地處理，例如在醫(yī)療領(lǐng)域，甚至可以針對(duì)特定類(lèi)型的抑郁癥進(jìn)行專(zhuān)業(yè)化的任務(wù)處理，提供更加精準(zhǔn)和個(gè)性化的解決方案；最后，數(shù)據(jù)生成和模型訓(xùn)練的過(guò)程將從分離走向融合，而為了保證數(shù)據(jù)質(zhì)量的硬性過(guò)濾也將逐漸被軟性控制所取代。

“數(shù)據(jù)生成研究與應(yīng)用的發(fā)展，為大模型AI走向各個(gè)專(zhuān)業(yè)領(lǐng)域，尤其是醫(yī)療領(lǐng)域提供廣闊的可能性?！辈苋鹕f(shuō)。

記者獲悉，TCCI致力于支持全球范圍內(nèi)的腦科學(xué)交流。AI For Brain Science系列會(huì)議致力于促進(jìn)AI與腦科學(xué)研究人員的討論合作，將持續(xù)聚焦領(lǐng)域內(nèi)的數(shù)據(jù)瓶頸和關(guān)鍵痛點(diǎn)，促進(jìn)前沿AI技術(shù)在腦科學(xué)領(lǐng)域發(fā)揮更大的價(jià)值。

18禁美女黄网站色大片免费看,铁矿石期货实时行情,猛烈h继攵禁忌h,乱人伦人妻精品一区二区

醫(yī)療等垂直領(lǐng)域語(yǔ)料數(shù)據(jù)稀缺能讓倆ChatGPT對(duì)聊出來(lái)嗎？青年科學(xué)家這樣認(rèn)為_(kāi)短訊

相關(guān)推薦

每日推薦

圖片新聞

48小時(shí)頻道點(diǎn)擊排行

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

18禁美女黄网站色大片免费看,铁矿石期货实时行情,猛烈h继攵禁忌h,乱人伦人妻精品一区二区

醫(yī)療等垂直領(lǐng)域語(yǔ)料數(shù)據(jù)稀缺 能讓倆ChatGPT對(duì)聊出來(lái)嗎？青年科學(xué)家這樣認(rèn)為_(kāi)短訊

相關(guān)推薦

每日推薦

圖片新聞

48小時(shí)頻道點(diǎn)擊排行

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

0

醫(yī)療等垂直領(lǐng)域語(yǔ)料數(shù)據(jù)稀缺能讓倆ChatGPT對(duì)聊出來(lái)嗎？青年科學(xué)家這樣認(rèn)為_(kāi)短訊