استفاده از ChatGPT برای ارزیابی مشکل قلبی عاقلانه نیست!

پژوهشگران «دانشگاه ایالتی واشنگتن» در یک آزمایش جدید دریافتند که ChatGPT نمی‌تواند عملکرد خوبی را در ارزیابی مشکل قلبی داشته باشد.

۱۳ اردیبهشت ۱۴۰۳

استفاده از ChatGPT برای ارزیابی مشکل قلبی عاقلانه نیست!

به گزارش چابک آنلاین به نقل از ایسنا، به رغم توانایی‌های گزارش‌ شده درباره ChatGPT برای قبول شدن در آزمون‌های پزشکی، یک پژوهش جدید نشان می‌دهد که اتکا به این فناوری برای برخی ارزیابی‌های سلامتی مانند بررسی نیاز بیمار مبتلا به درد قفسه سینه به بستری شدن در بیمارستان عاقلانه نیست.

در پژوهش جدیدی که شامل هزاران وضعیت شبیه‌سازی شده از بیماران مبتلا به درد قفسه سینه است، ChatGPT نتایج متناقضی را ارائه کرد و سطوح متفاوتی را از ارزیابی خطر مشکل قلبی در داده‌های به‌دست‌آمده از بیماران نشان داد. همچنین، این سیستم هوش مصنوعی مولد نتوانست با روش‌های سنتی مطابقت داشته باشد که پزشکان از آنها برای قضاوت درباره خطر مشکل قلبی بیمار استفاده می‌کنند.

«توماس هستون»(Thomas Heston) پژوهشگر دانشکده پزشکی «دانشگاه ایالتی واشنگتن»(WSU) گفت: ChatGPT به یک شیوه ثابت عمل نمی‌کرد. با توجه به داده‌های مشابه، ChatGPT رتبه خطر پایینی را ارائه می‌دهد. دفعه بعد یک رتبه متوسط را پیش‌بینی می‌کند و گهگاه تا افزایش خطر پیش می‌رود.

هستون گفت: پژوهشگران باور دارند این مشکل احتمالا به دلیل سطح تصادفی بودن نسخه کنونی نرم‌افزار ChatGPT۴ است که به آن کمک می‌کند تا پاسخ‌هایی را برای شبیه‌سازی زبان طبیعی ارائه دهد. با وجود این، همین تصادفی بودن باعث می‌شود نرم‌افزار برای کاربردهای حوزه سلامت که به یک پاسخ منسجم نیاز دارند، به خوبی کارآیی نداشته باشد.

هستون ادامه داد: ما متوجه شدیم که تنوع زیادی وجود دارد و این تنوع در رویکرد می‌تواند خطرناک باشد. این فناوری می‌تواند برنامه سودمندی باشد اما من معتقدم که فناوری بسیار سریع‌تر از درک ما پیش می‌رود. بنابراین، بسیار مهم است که پژوهش‌های بسیاری را به ‌ویژه در موقعیت‌های بالینی پرخطر انجام دهیم.

درد قفسه سینه، یکی از شکایت‌های رایج در اورژانس است که پزشکان را ملزم می‌کند تا فوریت وضعیت بیمار را مورد ارزیابی قرار دهند. هستون گفت: برخی از موارد بسیار جدی را به راحتی می‌توان با توجه به علائم آنها شناسایی کرد اما موارد کم‌خطر ممکن است پیچیده‌تر باشند؛ به ویژه هنگام تعیین اینکه آیا بیماری باید برای بررسی بیشتر در بیمارستان بستری شود یا به خانه برود و مراقبت‌های سرپایی را دریافت کند.

متخصصان پزشکی در حال حاضر اغلب از یکی از دو معیار موسوم به TIMI و HEART برای ارزیابی خطر مشکل قلبی استفاده می‌کنند. هستون این مقیاس‌ها را به ماشین‌حساب‌هایی تشبیه کرد که متغیرهای انگشت‌شمار را مانند علائم، سابقه سلامت و سن استفاده می‌کنند.

در مقابل، یک شبکه عصبی هوش مصنوعی مانند ChatGPT می‌تواند میلیاردها متغیر را به سرعت ارزیابی کند. این بدان معناست که شاید ChatGPT بتواند یک موقعیت پیچیده را سریع‌تر و دقیق‌تر تحلیل کند.

برای این پژوهش، هستون و همکارش «لارنس لوئیس»(Lawrence Lewis) پژوهشگر «دانشگاه واشنگتن در سنت لوئیس»(WashU) ابتدا سه مجموعه داده را از ۱۰ هزار مورد تصادفی و شبیه‌سازی‌شده ایجاد کردند.

یک مجموعه داده دارای هفت متغیر مقیاس TIMI، مجموعه دوم شامل پنج متغیر مقیاس HEART و مجموعه سوم دارای ۴۴ متغیر تصادفی سلامت بود. در دو مجموعه داده اول، ChatGPT ارزیابی خطر متفاوتی را در ۴۵ تا ۴۸ درصد مواقع نسبت به امتیاز ثابت TIMI یا HEART ارائه کرد.

پژوهشگران برای آخرین مجموعه داده، موارد را چهار بار اجرا کردند و دریافتند که ChatGPT اغلب با خودش موافق نیست و در ۴۴ درصد مواقع، سطوح ارزیابی متفاوتی را برای موارد مشابه ارائه می‌دهد.

به رغم یافته‌های منفی این پژوهش، هستون پتانسیل زیادی را برای هوش مصنوعی مولد در مراقبت‌های بهداشتی پیش‌بینی می‌کند.

به عنوان مثال، با فرض رعایت استانداردهای حفظ حریم خصوصی، کل سوابق پزشکی را می‌توان در برنامه بارگذاری کرد و در شرایط اضطراری، پزشک می‌تواند از ChatGPT بخواهد تا سریع‌ترین حقایق را درباره یک بیمار ارائه دهد.

همچنین، پزشکان برای موارد دشوار و پیچیده می‌توانند از برنامه بخواهند تا چندین تشخیص احتمالی را ارائه دهد.

هستون گفت: ChatGPT می‌تواند در ارائه دادن تشخیص افتراقی عالی باشد و این احتمالا یکی از بزرگ‌ترین نقاط قوت آن است.

اگر کاملا نمی‌دانید که درباره یک بیمار چه می‌گذرد، می‌توانید از ChatGPT بخواهید تا پنج تشخیص اصلی و استدلال خود را برای هر یک از آنها ارائه دهد. بنابراین، ChatGPT می‌تواند به شما کمک کند تا درباره یک مشکل فکر کنید اما در پاسخ دادن خوب نیست.