SmolVLA: โมเดล AI สำหรับหุ่นยนต์
ถ้าหุ่นยนต์สามารถเข้าใจภาพ ภาษามนุษย์ และตัดสินใจได้ในคราวเดียว แล้วอะไรคือข้อจำกัดใหม่?
คำถามนี้ไม่ใช่แค่เรื่องของเทคโนโลยี แต่คือแนวโน้มการหลอมรวมความสามารถของ AI เข้ากับฮาร์ดแวร์ระดับบ้านๆ ที่อาจเปลี่ยนแปลงอุตสาหกรรมหุ่นยนต์ไปโดยสิ้นเชิง
Hugging Face เพิ่งเปิดตัว SmolVLA โมเดล AI ขนาดเล็กที่รวมการมองเห็น (Vision) การเข้าใจภาษา (Language) และการกระทำ (Action) เข้าด้วยกัน — ทั้งหมดนี้สามารถทำงานได้บน MacBook หรือแม้แต่ CPU ธรรมดา
เบื้องหลัง SmolVLA คือความตั้งใจที่จะ democratize หุ่นยนต์ทั่วไปผ่านโครงการ LeRobot โดยเปิดให้ชุมชนแบ่งปันชุดข้อมูลการใช้งานจริงของหุ่นยนต์ เพื่อฝึกโมเดลให้เข้าใจโลกในแบบที่มนุษย์เข้าใจ
แนวคิดไม่ใช่แค่ให้หุ่นยนต์ “เห็น” หรือ “ฟัง” ได้ แต่ให้มัน
เข้าใจคำสั่งและลงมือทำในสภาพแวดล้อมจริง โดยไม่ต้องพึ่งฮาร์ดแวร์ซูเปอร์คอมพิวเตอร์
คุณสมบัติที่น่าจับตาคือ SmolVLA รองรับการประมวลผลแบบอะซิงโครนัส ช่วยให้สามารถแยกการรับรู้ (Perception) ออกจากการกระทำ (Action) ทำให้ ตอบสนองต่อสภาพแวดล้อมที่เปลี่ยนแปลงได้อย่างยืดหยุ่น
โมเดลนี้ยังถูกออกแบบมาให้ใช้งานร่วมกับฮาร์ดแวร์ต้นทุนต่ำ เช่น SO-100, SO-101 และ LeKiwi เพื่อผลักดันให้หุ่นยนต์เข้าถึงได้ในวงกว้าง ไม่ใช่แค่ในห้องวิจัยหรือภาคอุตสาหกรรม
ความเบาของ SmolVLA — เพียง 450 ล้านพารามิเตอร์ — ไม่ได้ทำให้มันอ่อนแอ กลับกัน มันถูกพิสูจน์แล้วว่าสามารถควบคุมแขนกลจากผู้ผลิตบุคคลที่สามได้อย่างมีประสิทธิภาพ
การพัฒนาโมเดลลักษณะนี้สะท้อนถึงจุดเปลี่ยนของระบบหุ่นยนต์ จากระบบปิดในห้องแล็บ สู่ระบบเปิดที่ใครก็เข้าร่วมพัฒนาและใช้งานได้
ในขณะที่โมเดลใหญ่ขึ้นเรื่อยๆ SmolVLA กลับเลือกที่จะ เบาและพร้อมใช้งานจริง ซึ่งอาจเป็นแนวทางใหม่ของการพัฒนา AI สำหรับหุ่นยนต์ ที่เน้นคุณภาพของการปฏิสัมพันธ์ มากกว่าขนาดของโมเดล
หุ่นยนต์ไม่ต้องฉลาดเท่าคน แต่ต้องเข้าใจเราได้ในแบบที่เราคาดหวัง
— SmolVLA กำลังแสดงให้เห็นว่าความเข้าใจนั้นอาจไม่ต้องแลกมาด้วยพลังประมวลผลมหาศาล