研究人員評估 ChatGPT 在總結醫學摘要方面的表現

在《家庭醫學年鑑》最近發表的一項研究中,研究人員評估了聊天產生預訓練變壓器 (ChatGPT) 在總結醫學摘要以協助醫生方面的功效。該研究旨在確定 ChatGPT 產生的摘要的品質、準確性和偏差,深入了解其作為醫療保健專業人員在時間有限的情況下消化大量醫學文獻的工具的潛力。

品質和準確性高評價

該研究利用 ChatGPT 壓縮了來自 140 種不同期刊的 14 篇醫學摘要,平均減少了 70% 的內容。儘管在一小部分摘要中發現了一些不準確和幻覺,但醫生對這些摘要的品質和準確性給予了高度評價。研究結果表明,ChatGPT 有潛力幫助醫生有效審查醫學文獻,在海量資訊中提供簡潔準確的總結。

研究人員從 10 種期刊中各挑選了 14 篇文章,涵蓋各種醫學主題和結構。他們要求 ChatGPT 總結這些文章,並評估產生的摘要的品質、準確性、偏見和十個醫學領域的相關性。研究發現,ChatGPT 成功地將醫學摘要平均壓縮了 70%,在品質和準確性方面獲得了醫生審查人的高度評價。

對醫療的影響

儘管收視率很高,但該研究在少數摘要中發現了嚴重的錯誤和幻覺。這些錯誤包括遺漏關鍵數據和對研究設計的誤解,這可能會改變對研究結果的解釋。然而,ChatGPT 在總結醫學摘要方面的表現被認為是可靠的,觀察到的偏差很小。

雖然 ChatGPT 在期刊層面表現出與人類評估的高度一致性,但其在找出單篇文章與特定醫學專業的相關性方面的表現並不那麼令人印象深刻。這種差異凸顯了 ChatGPT 在更廣泛的醫學專業背景下準確識別單一文章相關性的能力的局限性。

該研究為人工智慧(尤其是 ChatGPT)在幫助醫生有效審查醫學文獻方面的潛力提供了寶貴的見解。雖然 ChatGPT 在高品質和準確地總結醫學摘要方面表現出了良好的前景,但仍需要進一步的研究來解決局限性並提高其在特定醫學環境中的表現。

未來的研究可能集中在提高 ChatGPT 識別個別文章與特定醫學專業相關性的能力。此外,減少生成的摘要中的不準確和幻覺的努力可以進一步增強人工智慧工具在醫療保健環境中的實用性。

資料來源:https://www.cryptopolitan.com/chatgpt-in-summarizing-medical-abstracts/