醫(yī)療等垂直領(lǐng)域語(yǔ)料數(shù)據(jù)稀缺 能讓倆ChatGPT對(duì)聊出來(lái)嗎?青年科學(xué)家這樣認(rèn)為_(kāi)短訊
都說(shuō)醫(yī)療、金融等專(zhuān)業(yè)領(lǐng)域的語(yǔ)料數(shù)據(jù)稀缺,這會(huì)制約AI大模型的發(fā)展——那能不能讓兩個(gè)ChatGPT對(duì)聊,聊出點(diǎn)數(shù)據(jù)出來(lái)?
(相關(guān)資料圖)
近日,天橋腦科學(xué)研究院(TCCI)主辦了AI For Brain Science系列會(huì)議第二期—— “面向AI模型的數(shù)據(jù)生成方法及其對(duì)醫(yī)療領(lǐng)域的啟示”。
在上海交通大學(xué)計(jì)算機(jī)科學(xué)與工程系副教授吳夢(mèng)玥主持下,三名青年科學(xué)家分享了關(guān)于破解大規(guī)模語(yǔ)言模型數(shù)據(jù)瓶頸的看法和實(shí)踐。
快速構(gòu)建專(zhuān)屬GPT
國(guó)際上一項(xiàng)研究評(píng)估指出,ChatGPT回答癌癥相關(guān)問(wèn)題的水平已經(jīng)與美國(guó)國(guó)家癌癥研究所的回答持平。不過(guò),ChatGPT只能通過(guò)受限的應(yīng)用程序編程接口訪(fǎng)問(wèn);并且涉及到個(gè)人醫(yī)療,人們也普遍不希望將自己的隱私信息分享給第三方公司。
針對(duì)這樣的難題,加州大學(xué)圣迭戈分校博士生許燦文和中山大學(xué)團(tuán)隊(duì)的合作者提出了一種能自動(dòng)生成高質(zhì)量多輪聊天語(yǔ)料庫(kù)的流程,利用ChatGPT與其自身進(jìn)行對(duì)話(huà),生成對(duì)話(huà)數(shù)據(jù),再基于產(chǎn)生的對(duì)話(huà)數(shù)據(jù)調(diào)優(yōu)、增強(qiáng)開(kāi)源的大型語(yǔ)言模型。他們從而獲得了高質(zhì)量的專(zhuān)屬模型“白澤”,并在數(shù)天前推出了2.0版本。這個(gè)名字的靈感來(lái)源是中國(guó)古代傳說(shuō)中的一種神獸,“能言語(yǔ),達(dá)知萬(wàn)物之情”。
許燦文介紹,“白澤”在這個(gè)過(guò)程中并沒(méi)有學(xué)會(huì)新的知識(shí),只是提取了大模型中的特定數(shù)據(jù),并且保留了ChatGPT “分點(diǎn)作答”“拒絕回答”等語(yǔ)言能力。這在專(zhuān)業(yè)上被比喻為一種“蒸餾”。進(jìn)一步地,他們提出了反饋?zhàn)哉麴s的概念,即利用ChatGPT當(dāng)教官,對(duì)“白澤”回答的結(jié)果進(jìn)行評(píng)分排序,從而進(jìn)一步提高了“白澤”模型的性能。
許燦文認(rèn)為,“白澤”通過(guò)自動(dòng)化的知識(shí)蒸餾,在特定領(lǐng)域達(dá)到ChatGPT的能力,成本卻遠(yuǎn)遠(yuǎn)低于ChatGPT,兼具經(jīng)濟(jì)意義和實(shí)用意義。在醫(yī)療領(lǐng)域,本地化或私有化建構(gòu)的模型將有利于消除隱私顧慮,輔助患者診療。
大模型優(yōu)化醫(yī)療文本挖掘
萊斯大學(xué)博士生唐瑞祥和合作者同樣基于大模型提出了一種新的數(shù)據(jù)生成策略,并在命名實(shí)體識(shí)別、關(guān)系提取等經(jīng)典的醫(yī)療文本挖掘任務(wù)上取得了更佳表現(xiàn)。
ChatGPT具有創(chuàng)造性的寫(xiě)作能力,在醫(yī)療、金融、法律等標(biāo)注數(shù)據(jù)很少的領(lǐng)域以及知識(shí)密集型領(lǐng)域表現(xiàn)出色。然而,具體到醫(yī)療文本挖掘,他們發(fā)現(xiàn)將ChatGPT直接應(yīng)用大型模型處理醫(yī)療文本的下游任務(wù),表現(xiàn)并不總是優(yōu)秀,也可能引發(fā)隱私問(wèn)題。
唐瑞祥等提出了一種新策略:利用大型模型生成大量醫(yī)療數(shù)據(jù),再通過(guò)小型模型對(duì)這些數(shù)據(jù)進(jìn)行訓(xùn)練。實(shí)驗(yàn)結(jié)果顯示,相較于直接利用大型模型執(zhí)行下游任務(wù),這一新策略能夠取得更出色的效果,同時(shí)因?yàn)槟P蛿?shù)據(jù)在本地,也大幅降低了潛在的隱私風(fēng)險(xiǎn)。
他們進(jìn)一步指出,隨著開(kāi)源大模型數(shù)量的增加和大模型能力的提升,其產(chǎn)生的文本數(shù)據(jù)與人類(lèi)產(chǎn)生的文本數(shù)據(jù)的差別將越來(lái)越小,發(fā)展檢測(cè)二者差別的技術(shù)手段將是一項(xiàng)富有挑戰(zhàn)性的工作?,F(xiàn)有的兩種檢測(cè)手段,無(wú)論是黑盒檢測(cè)——直接比較大模型生成的文本數(shù)據(jù)與人類(lèi)生成的文本數(shù)據(jù)(比如比較高頻詞分布),還是白盒檢測(cè)——開(kāi)發(fā)者在生成文本上做標(biāo)簽,在未來(lái)都可能失效。能否有效地檢測(cè)出數(shù)據(jù)是不是GPT生成的,將影響到廣大用戶(hù)對(duì)大模型AI的信任程度。
大模型時(shí)代數(shù)據(jù)生成不一樣
從歷史演變的角度來(lái)看,在沒(méi)有GPT的時(shí)代,科學(xué)家們?nèi)绾谓鉀Q數(shù)據(jù)稀缺難題?大模型又帶來(lái)了哪些新趨勢(shì)?
上海交通大學(xué)博士生曹瑞升總結(jié)了數(shù)據(jù)生成在大模型時(shí)代的幾大新趨勢(shì):首先是構(gòu)建更加通用的模型,以確保其能夠應(yīng)用于多樣化的任務(wù)——這意味著模型需要具備廣泛的適應(yīng)性和泛化能力;其次是從特定任務(wù)出發(fā),進(jìn)一步精細(xì)化地處理,例如在醫(yī)療領(lǐng)域,甚至可以針對(duì)特定類(lèi)型的抑郁癥進(jìn)行專(zhuān)業(yè)化的任務(wù)處理,提供更加精準(zhǔn)和個(gè)性化的解決方案;最后,數(shù)據(jù)生成和模型訓(xùn)練的過(guò)程將從分離走向融合,而為了保證數(shù)據(jù)質(zhì)量的硬性過(guò)濾也將逐漸被軟性控制所取代。
“數(shù)據(jù)生成研究與應(yīng)用的發(fā)展,為大模型AI走向各個(gè)專(zhuān)業(yè)領(lǐng)域,尤其是醫(yī)療領(lǐng)域提供廣闊的可能性?!辈苋鹕f(shuō)。
記者獲悉,TCCI致力于支持全球范圍內(nèi)的腦科學(xué)交流。AI For Brain Science系列會(huì)議致力于促進(jìn)AI與腦科學(xué)研究人員的討論合作,將持續(xù)聚焦領(lǐng)域內(nèi)的數(shù)據(jù)瓶頸和關(guān)鍵痛點(diǎn),促進(jìn)前沿AI技術(shù)在腦科學(xué)領(lǐng)域發(fā)揮更大的價(jià)值。
新民晚報(bào)記者 郜陽(yáng)
相關(guān)推薦
- (2023-05-30)醫(yī)療等垂直領(lǐng)域語(yǔ)料數(shù)據(jù)稀缺 能讓倆ChatGPT對(duì)聊出來(lái)嗎?青年科學(xué)家這樣認(rèn)為_(kāi)短訊
- (2023-05-30)收評(píng):A股三大指數(shù)探底回升,創(chuàng)業(yè)板指終結(jié)5連陰,人工智能主題持續(xù)爆發(fā)
- (2023-05-30)費(fèi)城簽新援兼任職,哈登離隊(duì)?_天天觀速訊
- (2023-05-30)100美元換多少人民幣(2023年5月30日)_世界訊息
- (2023-05-30)楊千嬅全新巡演廣州首秀 萬(wàn)人合唱《少女的祈禱》
- (2023-05-30)孟良崮下,“兵支書(shū)”讓后進(jìn)村變先進(jìn)
- (2023-05-30)一張圖:2023/05/30黃金原油外匯股指"樞紐點(diǎn)+多空占比"一覽-環(huán)球頭條
- (2023-05-30)最憶江南_對(duì)于最憶江南簡(jiǎn)單介紹
- (2023-05-30)媽祖廟在哪里_媽祖廟
- (2023-05-30)14:37 新一線(xiàn)城市的《城市商業(yè)魅力排行榜》發(fā)布 頭條
- (2023-05-30)張歆藝袁弘曬照慶祝結(jié)婚七周年 甜蜜對(duì)視挽手臂滿(mǎn)滿(mǎn)愛(ài)意
- (2023-05-30)14:40 萬(wàn)科又要再融資?公司回應(yīng):例行授權(quán)
- (2023-05-30)【全球新視野】投資機(jī)會(huì)整體呈現(xiàn)出結(jié)構(gòu)性特征 重點(diǎn)關(guān)注三大投資方向
- (2023-05-30)時(shí)訊:安東·奇奇坎
- (2023-05-30)每日熱議!2500億債務(wù)懸頂,跌至退市邊緣,千億“西南王”還有轉(zhuǎn)機(jī)嗎?
- (2023-05-30)神十六發(fā)射任務(wù)圓滿(mǎn)成功
- (2023-05-30)全球最新:河南鄭州:對(duì)誤入市區(qū)的收割機(jī)司機(jī)一律不處罰
- (2023-05-30)全球今亮點(diǎn)!車(chē)禍人傷保險(xiǎn)公司如何理賠
- (2023-05-30)環(huán)球快播:13:07 光刻膠概念股震蕩走低,新萊應(yīng)材跌超10%
- (2023-05-30)全球訊息:13:23 A股午后下挫,滬指、深成指午后均跌超1%
- (2023-05-30)環(huán)球資訊:中航無(wú)人機(jī):董事兼職信披現(xiàn)羅生門(mén) 審計(jì)機(jī)構(gòu)頻因執(zhí)業(yè)問(wèn)題“栽跟頭”
- (2023-05-30)天天速遞!全區(qū)統(tǒng)一命題!解讀桂林2023年中考方案
- (2023-05-30)泰嘉股份: 公司控股子公司雅達(dá)電子一直與消費(fèi)電子行業(yè)的主流品牌廠(chǎng)商保持密切合作
- (2023-05-30)環(huán)球微速訊:地鐵上女子充電寶突然爆炸,煙霧彌漫!地鐵上充電寶為什么容易爆炸?
- (2023-05-30)午評(píng):滬指再度失守3200點(diǎn) 腦機(jī)接口概念逆勢(shì)大漲
- (2023-05-30)鮑家街43號(hào)樂(lè)隊(duì)歌曲_鮑家街43號(hào)同名專(zhuān)輯相關(guān)內(nèi)容簡(jiǎn)介介紹
- (2023-05-30)迪阿股份:暫未涉及培育鉆石業(yè)務(wù)
- (2023-05-30)五家理財(cái)子公司利潤(rùn)翻番,“一哥”招銀理財(cái)大賺35.9億,剛換了高管 訊息
- (2023-05-30)恒信東方5月30日盤(pán)中漲幅達(dá)5%
- (2023-05-30)全球新動(dòng)態(tài):蟬聯(lián)三年!四川財(cái)經(jīng)職業(yè)學(xué)院財(cái)稅學(xué)院學(xué)子再獲省級(jí)一等獎(jiǎng)
每日推薦
- ETF聯(lián)接基金是什么意思?ETF基金和ETF聯(lián)
- 貨幣基金的收益高嗎?貨幣基金一般年收益
- 基金賣(mài)出了怎么還有收益顯示?基金已經(jīng)贖
- 投資的基金買(mǎi)了幾天可以賣(mài)掉?基金入手多
- 基金終于回本了該不該贖回?基金終于回本
- 二月出境復(fù)飛航線(xiàn)超40條 節(jié)后部分機(jī)票價(jià)
- 重大事項(xiàng)變更!網(wǎng)易寶獲批增加注冊(cè)資本至
- 信達(dá)證券上市首日漲幅44%
- 總投資約486億元 北京今年首批50個(gè)重大
- 新年北京首月二手住宅網(wǎng)簽量再探底 價(jià)格
- 股價(jià)大漲 博云新材股東高創(chuàng)投擬趁機(jī)減持
- 2019華人歌曲音樂(lè)盛典在澳門(mén)舉行
- 喜迎十九大?歡度中秋節(jié)—傳統(tǒng)文化進(jìn)社區(qū)
- 突發(fā)!吳敏霞夫婦挑婚戒被曝光!兩百萬(wàn)鉆
- 《鐘山說(shuō)事》 熱點(diǎn)聚焦:胡鵬飛的最美鄉(xiāng)
- 湖南御福天益生物公司被指涉嫌傳銷(xiāo)進(jìn)行非
- 大同市城投公司劉建婷遭群眾舉報(bào)
- 魯能集團(tuán) “一帶一路”履責(zé)行動(dòng)暨“海南
圖片新聞
48小時(shí)頻道點(diǎn)擊排行
-
0
1醫(yī)療等垂直領(lǐng)域語(yǔ)料數(shù)據(jù)稀缺 能讓倆 -
0
2楊千嬅全新巡演廣州首秀 萬(wàn)人合唱《 -
0
3一張圖:2023/05/30黃金原油外匯股指 -
0
4時(shí)訊:安東·奇奇坎 -
0
5全球今亮點(diǎn)!車(chē)禍人傷保險(xiǎn)公司如何理 -
0
6天天速遞!全區(qū)統(tǒng)一命題!解讀桂林20 -
0
7恒信東方5月30日盤(pán)中漲幅達(dá)5% -
0
8全球新動(dòng)態(tài):蟬聯(lián)三年!四川財(cái)經(jīng)職業(yè) -
0
92023年法語(yǔ)詩(shī)歌朗誦大賽全國(guó)總決賽在 -
0
10天天新資訊:記者調(diào)查:孩子沒(méi)完沒(méi)了 -
0
11卡片機(jī)和微單的區(qū)別大嗎_卡片機(jī)和微 -
0
12動(dòng)態(tài)焦點(diǎn):記新冠感染(2023-5-29一陽(yáng)) -
0
13【快播報(bào)】黨的十八屆召開(kāi)時(shí)間-黨的 -
0
14李俠清:讓地下生產(chǎn)“更綠色” 當(dāng)前 -
0
15環(huán)球微頭條丨有關(guān)堅(jiān)持的故事及感悟_ -
0
16世界快看:合同無(wú)效糾紛律師如何收費(fèi) -
0
17微博限流怎么看出來(lái)的_微博限流是什 -
0
18【世界報(bào)資訊】5月29日基金凈值:廣 -
0
19每日看點(diǎn)!放大招!9600億美元芯片龍 -
0
20世界速讀:吉林省部署2023年高考安保