ผลการศึกษาชี้คำแนะนำด้านสุขภาพจากแชทบอท AI มักผิดพลาด

22 ก.พ. 2569 - 16:30

  •   แชทบอท AI กลายเป็นแหล่งข้อมูลด้านสุขภาพที่สำคัญอย่างรวดเร็ว

  • ในช่วง 3 ปีนับตั้งแต่มีการเปิดตัวแชทบอท AI คำถามด้านสุขภาพกลายเป็นหนึ่งในหัวข้อที่ผู้ใช้ถามบ่อยที่สุด

  • ผู้เชี่ยวชาญบอกว่า แชทบอทควรตั้งคำถามเพิ่มเติมในลักษณะเดียวกับที่แพทย์รวบรวมข้อมูลจากผู้ป่วย

ผลการศึกษาชี้คำแนะนำด้านสุขภาพจากแชทบอท AI มักผิดพลาด

การศึกษาที่ตีพิมพ์เมื่อเร็วๆ นี้ได้เปิดเผยให้เห็นถึงข้อเท็จจริงที่ว่า แชทบอท AI ซึ่งกลายเป็นแหล่งข้อมูลด้านสุขภาพที่สำคัญอย่างรวดเร็วนั้น สามารถให้คำแนะนำทางการแพทย์แก่ประชาชนทั่วไปได้ดีจริงหรือไม่

การทดลองพบว่า แชทบอทไม่ได้ดีไปกว่ากูเกิล ซึ่งเป็นแหล่งข้อมูลด้านสุขภาพที่มีข้อบกพร่องอยู่แล้ว ในการแนะนำผู้ใช้ไปสู่การวินิจฉัยที่ถูกต้อง หรือช่วยให้พวกเขาตัดสินใจว่าควรทำอะไรต่อไป และเทคโนโลยีนี้มีความเสี่ยงเฉพาะตัว บางครั้งอาจให้ข้อมูลที่ผิดพลาด หรือเปลี่ยนแปลงคำแนะนำอย่างมาก ขึ้นอยู่กับการเปลี่ยนแปลงเล็กน้อยในถ้อยคำของคำถาม

นักวิจัยสรุปในบทความ ซึ่งเป็นการศึกษาแบบสุ่มครั้งแรกในลักษณะนี้ว่า ไม่มีแบบจำลองใดที่ประเมินในการทดลอง “พร้อมสำหรับการใช้งานในการดูแลผู้ป่วยโดยตรง”

ในช่วง 3 ปีนับตั้งแต่มีการเปิดตัวแชทบอท AI สู่สาธารณะ คำถามด้านสุขภาพกลายเป็นหนึ่งในหัวข้อที่ผู้ใช้ถามบ่อยที่สุด

แพทย์บางคนพบผู้ป่วยที่ปรึกษาโมเดล AI เพื่อขอความเห็นเป็นประจำ การสำรวจพบว่า ผู้ใหญ่ประมาณ 1 ใน 6 คนใช้แชทบอทเพื่อค้นหาข้อมูลด้านสุขภาพอย่างน้อยเดือนละครั้ง โดยบริษัท AI ชั้นนำ รวมถึง Amazon และ OpenAI ได้เปิดตัวผลิตภัณฑ์ที่มุ่งเน้นการตอบคำถามด้านสุขภาพของผู้ใช้โดยเฉพาะ

เครื่องมือเหล่านี้สร้างความตื่นเต้นด้วยเหตุผลที่ดีคือ ผ่านการสอบใบอนุญาตทางการแพทย์และมีประสิทธิภาพเหนือกว่าแพทย์ในปัญหาการวินิจฉัยที่ซับซ้อน

แต่ อดัม มาห์ดี ศาสตราจารย์จาก Oxford Internet Institute และผู้เขียนหลักของการศึกษาใหม่ใน Nature Medicine ตั้งข้อสังเกตว่า คำถามทางการแพทย์ที่ตรงไปตรงมานั้นไม่ใช่ตัวชี้วัดที่ดีว่าคำถามเหล่านั้นได้ผลดีเพียงใดกับผู้ป่วยจริง

มาห์ดีเผยว่า “การแพทย์ไม่ได้เป็นแบบนั้น การแพทย์นั้นยุ่งเหยิง ไม่สมบูรณ์ และเป็นแบบสุ่ม”

มาห์ดีและเพื่อนร่วมงานจึงลงมือทดลอง ผู้เข้าร่วมชาวอังกฤษมากกว่า 1,200 คน ซึ่งส่วนใหญ่ไม่เคยได้รับการฝึกอบรมทางการแพทย์ ได้รับข้อมูลสถานการณ์ทางการแพทย์โดยละเอียด พร้อมด้วยอาการ รายละเอียดเกี่ยวกับวิถีชีวิตทั่วไป และประวัติทางการแพทย์ นักวิจัยบอกให้ผู้เข้าร่วมสนทนากับบอทเพื่อหาแนวทางที่เหมาะสม เช่น ควรโทรเรียกรถพยาบาลหรือรักษาตัวเองที่บ้าน พวกเขาได้ทดสอบบอทที่มีอยู่ทั่วไป เช่น ChatGPT ของ OpenAI และ Llama ของ Meta

นักวิจัยพบว่า ผู้เข้าร่วมเลือกแนวทางการรักษาที่ “ถูกต้อง” ซึ่งกำหนดไว้ล่วงหน้าโดยคณะแพทย์ น้อยกว่าครึ่งหนึ่งของทั้งหมด และผู้ใช้ระบุอาการที่ถูกต้อง เช่น นิ่วในถุงน้ำดี หรือเลือดออกในช่องใต้เยื่อหุ้มสมอง ประมาณ 34%

กลุ่มแรกไม่ได้ดีไปกว่ากลุ่มควบคุม ซึ่งได้รับคำสั่งให้ทำงานเดียวกันโดยใช้วิธีการค้นคว้าข้อมูลใดๆ ที่พวกเขาใช้ตามปกติที่บ้าน ซึ่งส่วนใหญ่คือการค้นหาในกูเกิล

ดร. อีธาน โกห์ หัวหน้าเครือข่ายการวิจัยและประเมินวิทยาศาสตร์ด้านปัญญาประดิษฐ์แห่งมหาวิทยาลัยสแตนฟอร์ด กล่าวว่า การทดลองนี้ไม่ใช่ภาพสะท้อนที่สมบูรณ์แบบว่าแชทบอทตอบคำถามทางการแพทย์ในโลกแห่งความเป็นจริงอย่างไร ผู้ใช้ที่เข้าร่วมการทดลองถามเกี่ยวกับสถานการณ์สมมติ ซึ่งอาจแตกต่างจากวิธีที่พวกเขาจะโต้ตอบกับแชทบอทเกี่ยวกับสุขภาพของตัวเอง

และเนื่องจากบริษัท AI มักเปิดตัวโมเดลเวอร์ชันใหม่บ่อยครั้ง แชทบอทที่ผู้เข้าร่วมใช้เมื่อ 1 ปีก่อนในระหว่างการทดลองจึงน่าจะแตกต่างจากโมเดลที่ผู้ใช้โต้ตอบด้วยในปัจจุบัน โฆษกของ OpenAI กล่าวว่า โมเดลที่ใช้ใน ChatGPT ในปัจจุบัน ตอบคำถามด้านสุขภาพได้ดีกว่าโมเดลที่ทดสอบในการศึกษา ซึ่งได้ถูกยกเลิกไปแล้ว

แต่การศึกษานี้ยังคงให้ความกระจ่างเกี่ยวกับวิธีการที่การโต้ตอบกับแชทบอทอาจผิดพลาดได้

เมื่อนักวิจัยตรวจสอบการทำงานของแชทบอทก็พบว่า ประมาณครึ่งหนึ่งของความผิดพลาดนั้นเกิดจากความผิดพลาดของผู้ใช้ ผู้เข้าร่วมไม่ได้ป้อนข้อมูลที่เพียงพอหรืออาการที่เกี่ยวข้องมากที่สุด ทำให้แชทบอทต้องให้คำแนะนำโดยมีข้อมูลปัญหาที่ไม่สมบูรณ์

ตัวอย่างเช่น แชทบอทตัวหนึ่งแนะนำผู้ใช้ว่า “อาการปวดท้องอย่างรุนแรง” ที่กินเวลานาน 1 ชั่วโมงอาจเกิดจากอาหารไม่ย่อย แต่ผู้เข้าร่วมไม่ได้ระบุรายละเอียดเกี่ยวกับความรุนแรง ตำแหน่ง และความถี่ของอาการปวด ซึ่งทั้งหมดนี้จะช่วยให้แชทบอทวินิจฉัยได้อย่างถูกต้องว่าอาจเป็นนิ่วในถุงน้ำดี

ในทางตรงกันข้าม เมื่อนักวิจัยป้อนสถานการณ์ทางการแพทย์ทั้งหมดลงในแชทบอทโดยตรง แชทบอทสามารถวินิจฉัยปัญหาได้อย่างถูกต้องถึง 94%

แอนดรูว์ บีน นักศึกษาปริญญาโทจากมหาวิทยาลัยออกซ์ฟอร์ดและผู้เขียนหลักของบทความ กล่าวว่า ภาระในการสร้างคำถามที่สมบูรณ์แบบนั้นไม่จำเป็นต้องตกอยู่กับผู้ใช้เสมอไป เขากล่าวว่า แชทบอทควรตั้งคำถามเพิ่มเติมในลักษณะเดียวกับที่แพทย์รวบรวมข้อมูลจากผู้ป่วย

“เป็นความรับผิดชอบของผู้ใช้จริง ๆ หรือที่จะต้องรู้ว่าควรเน้นอาการใดบ้าง หรือเป็นความรับผิดชอบส่วนหนึ่งของโมเดลที่จะต้องรู้ว่าจะถามอะไร?” บีนตั้งคำถาม

จุดนี้เป็นพื้นที่ที่บริษัทเทคโนโลยีกำลังพยายามปรับปรุง ตัวอย่างเช่น โมเดล ChatGPT รุ่นปัจจุบันมีแนวโน้มที่จะถามคำถามเพิ่มเติมมากกว่ารุ่นก่อนหน้าถึงประมาณ 6 เท่า ตามข้อมูลที่ได้รับจากโฆษกของ OpenAI

อย่างไรก็ดี แม้ว่านักวิจัยจะพิมพ์สถานการณ์ทางการแพทย์ลงไปโดยตรง แต่ก็พบว่า แชทบอทยังคงมีปัญหาในการแยกแยะว่าอาการชุดใดควรได้รับการดูแลทางการแพทย์ทันทีหรือการดูแลที่ไม่เร่งด่วน

ดร. แดเนียล บิตเตอร์แมน ผู้ศึกษาปฏิสัมพันธ์ระหว่างผู้ป่วยกับ AI ที่ Mass General Brigham กล่าวว่า นั่นอาจเป็นเพราะโมเดลได้รับการฝึกฝนเป็นหลักจากตำราทางการแพทย์และรายงานกรณีศึกษาจำนวนมาก แต่ได้รับประสบการณ์น้อยกว่ามากในการตัดสินใจแบบอิสระที่แพทย์เรียนรู้จากประสบการณ์

ในหลายครั้ง แชทบอทยังให้ข้อมูลที่บิดเบือนอีกด้วย ในกรณีหนึ่ง โมเดลแนะนำให้ผู้เข้าร่วมโทรไปยังสายด่วนฉุกเฉินซึ่งมีตัวเลขเบอร์โทรไม่ครบ

นักวิจัยยังพบปัญหาอีกอย่างหนึ่งคือ แม้วิธีที่ผู้เข้าร่วมอธิบายอาการหรือตั้งคำถามจะแตกต่างเล็กน้อย แต่กลับเปลี่ยนคำแนะนำของบอทอย่างมาก

ตัวอย่างเช่น ผู้เข้าร่วม 2 คนในการศึกษาครั้งนี้มีข้อมูลเริ่มต้นเหมือนกันคือ ปวดหัวอย่างรุนแรง แพ้แสง และคอแข็ง แต่ได้อธิบายปัญหาลงในแชทบอทแตกต่างกันเล็กน้อย

ในกรณีหนึ่ง แชทบอทถือว่าเป็นปัญหาเล็กน้อยที่ไม่จำเป็นต้องได้รับการดูแลทางการแพทย์ในทันที แต่ในอีกกรณีหนึ่ง แชทบอทพิจารณาว่าอาการเหล่านั้นเป็นสัญญาณของปัญหาสุขภาพที่ร้ายแรงและบอกให้ผู้ใช้ไปห้องฉุกเฉิน

“คำพูดเพียงเล็กน้อยก็สร้างความแตกต่างอย่างมาก” บีนกล่าว

เรื่องเด่นประจำสัปดาห์