สรุปเนื้อหา
OpenAI เปิดตัว SWE-Bench Verified ชุดทดสอบปัญญาประดิษฐ์ที่ได้รับการตรวจสอบจากโปรแกรมเมอร์เพื่อแก้ปัญหาคุณภาพของชุดข้อมูลเดิม โดยผลการทดสอบพบว่า GPT-4o มีประสิทธิภาพสูงขึ้นในด้านการแก้ไขปัญหา แม้จะยังมีข้อจำกัดในปัญหาที่ซับซ้อนกว่า 1 ชั่วโมง
2 บทเรียน ที่ควรรู้
1. ความสำคัญของคุณภาพข้อมูล
การตรวจสอบคุณภาพของข้อมูลในชุดทดสอบมีผลโดยตรงต่อประสิทธิภาพของปัญญาประดิษฐ์ ดังนั้นการลงทุนในกระบวนการตรวจสอบจึงเป็นสิ่งจำเป็น
2. พัฒนาความสามารถของ AI
การมีข้อมูลที่ชัดเจนและครบถ้วนสามารถเพิ่มประสิทธิภาพในการแก้ปัญหาของ AI ได้สูงขึ้น
2 ปัญหา และ วิธีการแก้ไข
1. ข้อมูลไม่ครบถ้วน
วิธีการแก้ไข: จ้างโปรแกรมเมอร์ตรวจสอบและปรับปรุงคำถามเพื่อให้มีความชัดเจนและครบถ้วน
2. ปัญหาที่ไม่สามารถแก้ไขได้
วิธีการแก้ไข: ทำการทดลองและปรับปรุงชุดทดสอบโดยอ้างอิงจากผลลัพธ์ที่ได้
3 คำถามที่ถามบ่อย
1. SWE-Bench Verified คืออะไร?
SWE-Bench Verified เป็นชุดทดสอบปัญญาประดิษฐ์ที่ได้รับการตรวจสอบแล้วว่ามีคุณภาพสูงในการสร้างปัญหาซอฟต์แวร์
2. ทำไมการตรวจสอบชุดทดสอบถึงสำคัญ?
การตรวจสอบชุดทดสอบช่วยให้นักพัฒนามั่นใจได้ว่าคำถามที่ใช้ในการทดสอบมีความถูกต้องและสามารถช่วยให้ AI เรียนรู้ได้ดียิ่งขึ้น
3. GPT-4o ดีขึ้นอย่างไร?
GPT-4o แสดงความสามารถในการแก้ไขปัญหาได้ดีขึ้นจากการใช้ SWE-Bench Verified โดยปรับปรุงจาก 16% เป็น 33.2%
5 เว็บไซต์ที่เกี่ยวข้อง
- OpenAI – แหล่งข้อมูลเกี่ยวกับการพัฒนาปัญญาประดิษฐ์
- GitHub – แหล่งพื้นที่รวมโปรเจคซอฟต์แวร์และชุดข้อมูล
- Kaggle – แพลตฟอร์มในการแข่งขันเกี่ยวกับข้อมูลและ AI
- AI.gov – ข้อมูลจากรัฐบาลเกี่ยวกับการพัฒนาปัญญาประดิษฐ์
- ResearchGate – อนุญาตให้เข้าถึงงานวิจัยด้าน AI และข้อมูลล่าสุด
5 คำค้นหาที่เกี่ยวข้อง
- SWE-Bench: ชุดสอบที่เน้นการทดสอบความสามารถในการเขียนโปรแกรม
- GPT-4o: เวอร์ชันพัฒนาของโมเดลภาษา AI จาก OpenAI
- การประเมินผลปัญญาประดิษฐ์: วิธีการวัดประสิทธิภาพโมเดล AI
- การเขียนโปรแกรมอัตโนมัติ: การใช้ AI ในการเขียนโค้ด
- ซอฟต์แวร์ที่มีบั๊ก: ซอฟต์แวร์ที่มีข้อผิดพลาดแม้จะทำงานได้
สรุป
OpenAI ได้พัฒนา SWE-Bench Verified เพื่อแก้ไขปัญหาเกี่ยวกับคุณภาพข้อมูลในการทดสอบ AI ซึ่งทำให้ปัญญาประดิษฐ์มีศักยภาพที่ดีขึ้นในการแก้ไขปัญหาซอฟต์แวร์ แต่ยังมีข้อจำกัดในปัญหาที่ซับซ้อน ดังนั้น การลงทุนในการปรับปรุงข้อมูลและชุดทดสอบยังคงเป็นสิ่งสำคัญต่อการพัฒนา AI ในอนาคต
OpenAI เปิดตัวชุดทดสอบปัญญาประดิษฐ์ SWE-Bench Verified ที่สร้างต่อจาก SWE-Bench ชุดทดสอบการเขียนโปรแกรมที่ได้รับความนิยมสูง โดยแก้ปัญหาคุณภาพของชุดข้อมูลเดิมที่อาศัยการกวาด GitHub Issue มาเป็นโจทย์ให้ปัญญาประดิษฐ์
SWE-Bench อาศัยคำถามและชุดทดสอบซอฟต์แวร์เท่านั้น ในการทดสอบตัว AI จะมองไม่เห็นชุดทดสอบแต่เห็นเฉพาะปัญหา และต้องพยายามเขียนโปรแกรมให้รันผ่านชุดทดสอบให้ได้ แบบเดียวกับการสอบเขียนโปรแกรม แต่เป็นปัญหาจริงในการทำงาน
ปัญหาคือชุดทดสอบนี้ไม่สมบูรณ์เพราะข้อมูลบางส่วนในปัญหากลับไม่ครบถ้วน คำถามกำกวม หรือบางทีชุดทดสอบก็มีปัญหา ทำให้ต่อให้ปัญญาประดิษฐ์เขียนโปรแกรมได้ดีก็ยังไม่สามารถทำโจทย์เหล่านั้นได้ ทาง OpenAI จ้างโปรแกรมเมอร์มืออาชีพมาตรวจคำถาม 500 ข้อใน SWE-Bench แล้วออกเป็นชุดทดสอบ SWE-Bench Verified ที่ยืนยันว่าได้รับการตรวจสอบว่ามีคุณภาพสูง สามารถแก้ปัญหาได้จริง พร้อมกับแยกระดับความยากของปัญหา โดยรวมใช้โปรแกรมเมอร์ 93 คน สร้างชุดข้อมูล 1,699 ชุด ผลการตรวจสอบพบว่าสเปคซอฟต์แวร์ไม่ครบถ้วน 38.3% และชุดทดสอบ 61.1% ระบุว่าซอฟต์แวร์มีบั๊กแม้จะทำงานถูกต้องแล้ว
หลังจากนั้นทาง OpenAI ทดสอบ GPT-4o ด้วย SWE-Bench Verified แล้วพบว่าจำนวนปัญหาที่แก้ไขได้สูงขึ้นเป็น 33.2% จากเดิม 16% ใน SWE-Bench แสดงให้เห็นว่า GPT-4o มีความสามารถมากกว่าที่เคยเชื่อกัน หากเราสามารถแจ้งปัญหาได้ครบถ้วน อย่างไรก็ดีปัญหาที่แก้ไขได้ส่วนใหญ่เป็นปัญหาอย่างง่ายที่มนุษย์น่าจะใช้เวลาแก้น้ำกว่า 15 นาที สำหรับปัญหาที่ใช้เวลาเกิน 1 ชั่วโมงนั้นยังแก้ได้น้อยมาก สำหรับการวัดผลโดยรวมตอนนี้ Amazon Q Developer Agent ทำคะแนนได้สูงสุดถึง 38.8%
ทาง OpenAI ชี้ว่าวงการปัญญาประดิษฐ์ควรลงทุนกับการวัดประสิทธิภาพของปัญญาประดิษฐ์ให้มากขึ้น
ที่มา – OpenAI
Source link
https://www.blognone.com/node/141507