Opus 4.7 กับ 4.6 ต่างกันอย่างไรในทางปฏิบัติ?

ความแตกต่างที่จับต้องได้มากที่สุดคือ visual reasoning ที่ดีขึ้น 13 จุด เหมาะสำหรับงานวิเคราะห์ภาพและ document analysis และ software engineering ที่แม่นขึ้น 10 จุด สำหรับงาน text-based ทั่วไป ความแตกต่างอาจไม่ชัดนักในทางปฏิบัติ

Mythos preview คืออะไร ทำไม Anthropic ถึงไม่ปล่อยให้ใช้ทั่วไป?

Mythos preview เป็น model รุ่นที่ฉลาดที่สุดของ Anthropic แต่ยังไม่เปิดสาธารณะ เนื่องจากความสามารถด้าน cybersecurity ที่สูงมากจนอาจเป็นความเสี่ยงได้ Anthropic จึงจำกัดการเข้าถึงเฉพาะองค์กรที่ผ่านการคัดกรอง

ถ้าใช้ Claude API อยู่ควรเปลี่ยนไปใช้ Opus 4.7 ไหม?

ถ้า workflow ปัจจุบันทำงานได้ดีอยู่แล้ว ไม่จำเป็นต้องรีบเปลี่ยน ลองทดสอบ 4.7 กับ use case จริงก่อน เพราะ personality shift ระหว่าง model เวอร์ชันอาจทำให้ prompt ที่ใช้อยู่ต้องปรับใหม่

Claude Opus 4.7 ดีขึ้นจริง แต่ควร migrate ไหม

Opus 4.7 ดีขึ้นแทบทุก benchmark — visual reasoning กระโดด 13 จุด SWE-bench เพิ่ม 10% แต่ทำไมผู้ใช้ส่วนใหญ่ยังไม่ควรรีบ migrate และ AI ทุกวันนี้สร้างอะไรใหม่ได้จริงแค่ไหน

Claude Opus 4.7 เพิ่งปล่อยออกมา และเหมือนทุกครั้งที่ Anthropic ปล่อย model ใหม่ กระแสในโซเชียลก็ระเบิดทันที บางคนบอกว่า "นี่คือก้าวกระโดดใหม่" บางคนบอก "แค่ตัวเลขขยับนิดหน่อย" Nick Saraev นักพัฒนาและ AI practitioner จากช่อง @nicksaraev หยิบเรื่องนี้มาวิเคราะห์อย่างตรงไปตรงมา ว่าสิ่งที่ตัวเลขบอก กับสิ่งที่มันหมายถึงในทางปฏิบัติจริงนั้นต่างกันมากกว่าที่หลายคนคิด

เรื่องนี้สำคัญโดยตรงสำหรับคนที่ใช้ AI ในงานจริง ไม่ว่าจะเป็นนักการตลาด เจ้าของธุรกิจ หรือนักพัฒนา เพราะคำถามที่ตามมาหลัง model ใหม่ปล่อยทุกครั้งคือ "ควร migrate ไหม?" และคำตอบของครั้งนี้ซับซ้อนกว่าเดิม

สรุปสั้น ๆ

Opus 4.7 ดีกว่า 4.6 แทบทุก benchmark โดยเฉพาะ visual reasoning ที่กระโดดจาก 69.1% ไปถึง 82.1%
ประสิทธิภาพอยู่กึ่งกลางระหว่าง 4.6 กับ Mythos preview — น่าจะเป็น Mythos ที่ถูก distill ลงมาใช้บน hardware ที่เร็วกว่า
benchmark บางตัวอย่าง agentic search กลับต่ำกว่า 4.6 น่าจะตั้งใจลดเรื่องความปลอดภัย
AI ทุกวันนี้ไม่ได้สร้างโอกาสใหม่จากศูนย์ แต่ทำให้งานที่เคยไม่คุ้มทุนกลายเป็นคุ้มทุน
อย่า migrate แค่เพราะ benchmark สูงขึ้น 3-4% — โอกาสเสียเวลา rejig ระบบมากกว่าได้ผลลัพธ์

ตำแหน่งของ Opus 4.7 ในแผนที่ model ปัจจุบัน

Opus 4.7 ไม่ใช่การก้าวกระโดด แต่มองได้ว่าเป็น "ก้าวครึ่ง" ถ้า Opus 4.6 อยู่ที่จุดเริ่มต้น และ Mythos preview — model ที่ Anthropic เก็บไว้ใช้กับองค์กรใหญ่เนื่องจากความสามารถด้าน cybersecurity ที่เข้มข้นมาก — อยู่ที่ปลายทาง Opus 4.7 ก็อยู่ตรงกลางพอดี

ทฤษฎีที่น่าสนใจคือ 4.7 น่าจะเกิดจากการ distill Mythos preview ลงมา ทำให้ได้ model ที่ฉลาดขึ้นแต่รันได้เร็วกว่าและถูกกว่า สิ่งที่ชี้ให้เห็นคือ benchmark หลายตัวขยับขึ้นมาเกือบพอดีครึ่งทางระหว่าง 4.6 กับ Mythos ซึ่งไม่น่าจะเป็นเรื่องบังเอิญ แม้จะยืนยันไม่ได้ว่า Anthropic ทำงานอย่างไรใต้ฝากระโปรงกันแน่

ในขณะเดียวกัน GPT รุ่นใหม่ก็น่าจะตามมาอีกไม่นาน ซึ่งหมายความว่า landscape ของ model กำลังเคลื่อนตัวเร็วขึ้นกว่าเดิม สิ่งที่ดีที่สุดวันนี้อาจกลายเป็น mid-tier ภายในไม่กี่เดือน และนั่นคือเหตุผลที่การมีระบบที่แข็งแรงสำคัญกว่าการไล่ตาม model ล่าสุด

ตัวเลข benchmark ที่ควรรู้ — ไม่ใช่ทุกตัวที่เพิ่มขึ้น

SWE-bench Pro ซึ่งวัดความสามารถด้าน software engineering ขยับจาก 53.4% ไปที่ 64.3% เพิ่มขึ้นประมาณ 10 จุด ฟังดูน่าประทับใจ แต่ถ้าดู Mythos preview ที่ทำได้ไกลกว่านั้นอีกเท่าตัว ก็จะเห็นชัดว่านี่คือ "ครึ่งทาง" ไม่ใช่ปลายทาง Humanity's Last Exam ซึ่งออกแบบมาทดสอบงานที่ยากที่สุดเท่าที่จินตนาการได้ก็ขยับจาก 40% ไปที่ 46.9% ในขณะที่ Mythos ทำได้ 56.8% น่าสังเกตว่าเมื่อ model ทำ benchmark นี้ได้ถึง 50% แล้ว ช่องว่างที่เหลือไปถึง 100% นั้นแคบกว่าที่ตัวเลขบอกมาก เพราะ capability แบบ exponential จะปิด gap ช่วงท้ายได้เร็วมาก

สิ่งที่กระโดดใหญ่ที่สุดในรอบนี้คือ Visual Reasoning ที่ขยับจาก 69.1% ไปถึง 82.1% ซึ่งเป็นการปรับปรุงที่จับต้องได้จริงสำหรับงานที่เกี่ยวกับภาพ การอ่านกราฟ ตีความ UI หรือ multimodal task ต่าง ๆ ถ้าใครใช้ AI ใน workflow ประเภทนี้ นี่คือ upgrade ที่มีนัยสำคัญ

แต่มี benchmark สองตัวที่กลับต่ำกว่า Opus 4.6 ได้แก่ agentic search และ cybersecurity vulnerability reproduction ทั้งสองเชื่อมโยงกับความสามารถในการควบคุม terminal และหาช่องโหว่ระบบ Anthropic น่าจะตั้งใจลดความสามารถในส่วนนี้ลง โดยเฉพาะหลัง Mythos preview โชว์ให้เห็นว่า model ที่ฉลาดมากพอสามารถแทรกซึมระบบได้จริง การปล่อยความสามารถนั้นให้สาธารณะใช้โดยไม่มีการควบคุมจึงเป็นประเด็นความปลอดภัยที่ต้องชั่งน้ำหนักอย่างจริงจัง

AI ไม่ได้สร้างสิ่งที่เป็นไปไม่ได้ให้เป็นไปได้อีกต่อไป

นี่คือประเด็นที่สำคัญที่สุดในการวิเคราะห์รอบนี้ และเป็นสิ่งที่ควรอ่านช้า ๆ สักรอบ

AI ทุกวันนี้ไม่ได้ทำให้อะไรที่เป็นไปไม่ได้กลายเป็นไปได้ มันแค่ทำให้สิ่งที่เคยทำแล้วไม่คุ้มทุนกลายเป็นคุ้มทุนขึ้น

สิ่งที่เราใช้ AI ทำอยู่ทุกวันนี้ ไม่ว่าจะเป็น personalized outreach, การวิเคราะห์ข้อมูลการเงิน, หรือการสร้างคอนเทนต์ ล้วนเป็นสิ่งที่ทำได้มาหลายปีแล้ว ความแตกต่างคือเมื่อ 3 ปีก่อนต้องสร้าง scaffolding ที่ซับซ้อน เขียน prompt อย่างแม่นยำ และทำซ้ำแล้วซ้ำเล่าเพื่อให้ได้ผลลัพธ์ที่ต้องการ แต่วันนี้โยนคำสั่งแบบหลวม ๆ เข้าไปแล้วก็ได้ผลลัพธ์ที่ "ดีพอ" ประมาณ 80% ของเวลา ซึ่งในหลายกรณีธุรกิจก็เพียงพอแล้ว

ลองนึกภาพ cold outreach เมื่อ 7 ปีก่อน คนขายสามารถ reach ธุรกิจได้ประมาณ 10-15 แห่งต่อชั่วโมง วันนี้ด้วย AI ที่มีอยู่แล้วตั้งแต่รุ่นก่อนหน้า คน ๆ เดียวสามารถ reach ได้มากกว่า 5,000 แห่งในเวลาเดียวกัน และไม่ใช่แค่จำนวนที่เพิ่ม คุณภาพของการ personalize ยังดีกว่าเดิมด้วย นี่คือ leverage ที่เปลี่ยนสมการของธุรกิจ ไม่ใช่เพราะ AI รุ่นล่าสุด แต่เพราะมันมีมาตลอดสองสามปีที่ผ่านมาแล้ว

moment ที่ AI สร้างอะไรใหม่จริง ๆ คือปี 2020 ตอนที่ GPT-3 ทำให้เราสามารถพูดภาษาธรรมชาติแล้วได้คำสั่ง bash กลับมาได้ นั่นคือ zero-to-one moment ที่แท้จริง ทุกอย่างหลังจากนั้น รวมถึง Opus 4.7 คือการขยายความสามารถออกไปในแนวราบ ซึ่งดีมาก แต่ไม่ใช่การเปลี่ยนโลกใหม่ทุกครั้ง

ทำไมถึงไม่ควรรีบ migrate แค่เพราะ benchmark สูงกว่า

ประเด็นนี้เกี่ยวข้องโดยตรงกับคนที่ใช้ AI ใน production จริง ไม่ว่าจะเป็น automation pipeline, chatbot, หรือ AI workflow ใด ๆ

ความต่าง 3-4% บน benchmark ฟังดูน้อยมาก และมันก็น้อยมากจริง ๆ แต่สิ่งที่คนมักมองข้ามคือ personality shift ระหว่าง model เวลาเปลี่ยน model แม้จะเป็น minor version เดียวกัน บางครั้ง output มีน้ำเสียง สไตล์การตอบ หรือวิธีจัดการ edge case ที่เปลี่ยนไปพอให้ระบบที่ทำงานดีอยู่แล้วเริ่มสะดุด และถ้าย้ายข้าม provider เช่น จาก Anthropic ไป OpenAI นั้นยิ่งต้องใช้เวลา rejig infrastructure ทั้งหมด ซึ่งหลายครั้งกินเวลามากกว่าที่ประหยัดได้จาก benchmark ที่ดีกว่า

แนวทางที่ได้ผลกว่าในระยะยาวคือ ใช้ model ที่ทำงานดีอยู่แล้ว แล้วลงทุนเวลากับการสร้าง scaffolding และ prompt ที่ดีขึ้น แทนที่จะวิ่งตาม model ใหม่ทุกครั้ง เพราะ model ทุกตัวก็จะดีขึ้นอยู่ดีในอนาคต แต่ infrastructure ที่แข็งแรงจะยืดอายุการใช้งานได้ข้ามหลาย generation และยังใช้ประโยชน์จาก model ที่ดีขึ้นได้ทันทีโดยไม่ต้องเริ่มใหม่จากศูนย์

บทสรุป

Opus 4.7 ดีขึ้นจริง โดยเฉพาะด้าน visual reasoning ที่กระโดดใหญ่ และ software engineering ที่แข็งกว่าเดิม แต่มันคือ milestone ในเส้นทางที่ยังเดินต่อ ไม่ใช่จุดเปลี่ยนที่ต้องหยุดทุกอย่างแล้วปรับตาม ถ้าระบบหรือ workflow ที่ใช้อยู่ทำงานได้ดี การลงทุนเวลาไปกับการ optimize สิ่งที่มีอยู่แล้วมักให้ผลตอบแทนดีกว่าการ migrate ตาม model ใหม่ทุกครั้ง สิ่งที่น่าจับตาในช่วงนี้คือ Mythos preview ซึ่งยังถูกจำกัดการเข้าถึง และ model ใหม่จากค่ายอื่นที่น่าจะตามมาอีกไม่นาน เมื่อถึงเวลานั้น คนที่มีระบบที่แข็งแรงพร้อมอยู่แล้วจะปรับตัวได้ง่ายกว่าคนที่วิ่งตาม benchmark ทุกครั้ง