問診好伴AI 測試AI幻覺

【byb.cn XJ】上周,我曾經(jīng)寫了一篇文章《元寶千問豆包看CT片哪家強(qiáng)?》的文章,受到網(wǎng)友們的關(guān)注。文中,我用兩張我自己頸動(dòng)脈CTA的對(duì)比圖來發(fā)問,測試了上述三款A(yù)PP,結(jié)果,元寶有點(diǎn)放飛自我,在不了解全面情況的狀態(tài)下,強(qiáng)行給出了我做過手術(shù)的答案,甚至說在片中看到了網(wǎng)狀金屬結(jié)構(gòu)這么肯定的結(jié)論,令人捧腹大笑.....,而事實(shí)上,我根本就沒做過手術(shù),兩張圖像之所以會(huì)發(fā)生變化,完全是靠藥物控制的結(jié)果,而AI之所以給出我做過手術(shù)這種結(jié)論經(jīng),這就是典型的“AI幻覺”,我們今天就來討論這個(gè)問題。
在這里,咱們先有必要科普一下什么是AI幻覺?AI幻覺,是指大語言模型編造它認(rèn)為是真實(shí)存在的甚至看起來合理或可信的信息。 簡而言之就是AI在“胡說八道”。 模型生成的內(nèi)容與現(xiàn)實(shí)世界事實(shí)或用戶輸入不一致的現(xiàn)象。那么,這種情況,在醫(yī)療問診時(shí)就比較麻煩了,有時(shí)會(huì)給用戶完全錯(cuò)誤的結(jié)果,讓人對(duì)它的信任度大打折扣,下次再用的可能性就少了很多。
最近這幾天,我在刷手機(jī)時(shí),看到了一博主(哈佛老徐抓AI趨勢)介紹一款名為“好伴AI”的醫(yī)療問診APP(小程序同名,且賬號(hào)資料共享),它不像前面我們介紹的那三款知名度很高的通用人工智能(AGI)這種跨領(lǐng)域啥都能干的多面手,而是在醫(yī)療這一特定領(lǐng)域里的專家,很多醫(yī)院的醫(yī)生都用它,而我們普通用戶反而知道的很少,像我這種專注健康領(lǐng)域10多年的準(zhǔn)業(yè)內(nèi)人士也才知道。然而,我用同樣的問題和好伴AI聊了聊,感覺它確實(shí)像是在與一位真人對(duì)話。在它不完全掌握你的基本情況時(shí),絕對(duì)不擅自給結(jié)論,而是要求你進(jìn)一步補(bǔ)充資料,也就是說,它沒有那么明顯的“AI幻覺”,大家不妨看看我與它的對(duì)話。
大家看我畫的紅框沒有,也就是說好伴看到了變化,但它并沒有馬上下結(jié)論,只是表示“說明可能采取了有效的干預(yù)措施”,這個(gè)結(jié)論,非常準(zhǔn)確和嚴(yán)謹(jǐn),進(jìn)而讓我補(bǔ)充的第一個(gè)信息就是,我有沒有服藥,這簡直就是問到點(diǎn)子上了,并且明確了“他汀類降脂藥、抗血小板藥”,這簡直就是人類專業(yè)醫(yī)生的回答,我給它點(diǎn)贊。這一下子激起了我的興趣,然后就接著聊。
雖然它有讓我驚喜的地方,但也出現(xiàn)了非常明顯的低級(jí)錯(cuò)誤,因?yàn)樗盐业牟∽兾恢酶惴戳?,我是左?cè),它卻說成了右側(cè),既然讓我補(bǔ)充,那就先糾正它的錯(cuò)誤,看他如何回答:
既然它認(rèn)可了錯(cuò)誤,說明態(tài)度還是不錯(cuò)的。不過,我用同樣問題問過千問,千問就沒出現(xiàn)這樣位置搞反的“低級(jí)錯(cuò)誤”,下面咱們繼續(xù)聊。
由于我給了它肯定的結(jié)論,此時(shí)它也有點(diǎn)放飛自我了,表現(xiàn)在“逆轉(zhuǎn)斑塊”的回答中是這樣說的:“研究顯示,使用他汀3個(gè)月后,頸動(dòng)脈斑塊的脂質(zhì)核心即可縮?。ㄈ缛鹗娣ニ≈委?個(gè)月后脂質(zhì)核心平均下降7.3%)這與您兩次檢查時(shí)間間隙高度吻合。”
我就服了,明明它已經(jīng)把我兩張圖片的拍攝時(shí)間給準(zhǔn)確標(biāo)記出來了,分別是2024年11月19日和2024年12月11日,這時(shí)它回答的時(shí)間間隔成反而變成3個(gè)月了?三周還差不多,不過,我也沒打算糾正它的錯(cuò)誤了,這肯定也屬于“AI幻覺”范疇,這和它把我的圖片看反了類似。
不過,下面才是這次問答的最關(guān)鍵的點(diǎn),我就是想讓它看看我這個(gè)斑塊的性質(zhì),是否是“動(dòng)脈瘤”或“夾層”,因?yàn)锳醫(yī)院和C醫(yī)院的CTA報(bào)告上,都顯示有這種可能,我就是想看看好伴的能力如何,好在它給了我比較滿意的答案。
在這一輪問答中,我想要的最關(guān)鍵答案“潰瘍性斑塊”始終沒有出現(xiàn)在它的回答中,只是說,從不穩(wěn)定變成了穩(wěn)定,其實(shí)這只是結(jié)果,而非原因。也就是說,是什么原因?qū)е碌膹牟环€(wěn)定變成了穩(wěn)定?當(dāng)然不只是他汀的作用,咱們再看下一輪,最終當(dāng)我點(diǎn)破了謎底之后,它是如何回答的?
在這一輪回答中,好伴AI的回答顯得有些中規(guī)中矩,沒有太多出彩的地方。它只是解釋了什么是潰瘍性斑塊,并且藥物是如何讓易損的變成穩(wěn)定的。但并沒有說明為什么在短短三周的時(shí)間(好伴給算成三個(gè)月了),會(huì)有這么明顯的變化,其實(shí),這絕對(duì)不單單是藥物起的作用,而是這個(gè)大潰瘍斑塊破了,里邊的“餃子餡掉出來了”(這是B醫(yī)院B醫(yī)生的最終最權(quán)威的結(jié)論),好在我通過同時(shí)服用阿司匹林,把有可能發(fā)生的血栓給抑制住了,才沒有發(fā)生TIA和腦梗。不過,你指望AI能回答出線下權(quán)威醫(yī)生的最終結(jié)論,也有點(diǎn)難為它了。
總結(jié)一下,好伴AI,作為醫(yī)療垂直類的專業(yè)AI工具,總體回答還是比較嚴(yán)謹(jǐn)?shù)?,并且是遞進(jìn)性質(zhì)的,就是說一步一步獲取信息,然后再一步步回答,很少會(huì)在不了解情況的時(shí)候放飛自我出現(xiàn)AI幻覺,這點(diǎn)做的還是不錯(cuò)的。尤其是它明確否定了A和C醫(yī)院的動(dòng)脈瘤和動(dòng)脈夾層的結(jié)論,還是讓我有點(diǎn)刮目相看,也正因?yàn)槿绱耍医o它打了85分(雖然它沒有回答出潰瘍性斑塊這個(gè)詞)。
另外,它之所以能回答這么準(zhǔn)確,和事先你的注冊信息有關(guān),就是你的性別和年齡。當(dāng)你咨詢的問題時(shí),它會(huì)關(guān)聯(lián)是否是你本人,還是其他人,這非常重要。比如,我今天同時(shí)問了元寶幾個(gè)問題,包括我本人,還有老婆、孩子,結(jié)果,元寶把它統(tǒng)統(tǒng)混在一起回答了,當(dāng)我指出它的錯(cuò)誤時(shí),元寶也感覺很無辜。但這種情況絕對(duì)不會(huì)在好伴上發(fā)生。
總之,現(xiàn)在通用人工智能AGI發(fā)展很多,競爭很激烈,我手機(jī)上就有5~6個(gè)APP,但常用的也就1~2個(gè),其它的只是偶爾用。因此,相比較,像這種醫(yī)療垂直領(lǐng)域里的AI,用起來就更得心應(yīng)手了,大家不妨試試,小程序和APP,都叫“好伴AI”。
- [事件]單身者分為四類03-13
- [事件]怎么發(fā)現(xiàn)自己的天賦03-13
- [事件]父親接觸微塑料女兒代謝功能...03-13
- [本站]問診好伴AI 測試AI幻覺03-12
- [事件]飯后血糖飆升易患癡呆03-12
- [事件]睡眠少于7小時(shí)影響壽命03-12
- [事件]“最年長美容顧問”的長壽心...03-12
- [事件]照護(hù)重壓一人扛不住03-11

