AI Singapore (AISG) และ ทีมวิจัยของ Google ได้ริเริ่ม Project SEALD (Southeast Asian Languages in One Network Data) ซึ่งเป็นความร่วมมือด้านการวิจัยเพื่อยกระดับชุดข้อมูลที่สามารถใช้ในการฝึก พัฒนา และประเมินโมเดลภาษาขนาดใหญ่ (Large Language Model – LLM) ในภาษาต่างๆ ที่ใช้พูดในเอเชียตะวันออกเฉียงใต้ ความร่วมมือนี้มุ่งที่จะปรับปรุงการรับรู้บริบททางวัฒนธรรมและความสามารถของโมเดลภาษาขนาดใหญ่ในเอเชียตะวันออกเฉียงใต้ และการนำไปต่อยอดเพื่อสร้างประโยชน์ให้กับสังคมในวงกว้างทั่วทั้งภูมิภาค
การพัฒนาโมเดลภาษาขนาดใหญ่ในเอเชียตะวันออกเฉียงใต้ให้มีความครอบคลุมยิ่งขึ้น
ในเบื้องต้น Project SEALD จะครอบคลุมภาษาไทย อินโดนีเซีย ทมิฬ ฟิลิปปินส์ และพม่า โดยการวิจัยภายใต้โครงการนี้จะช่วยสร้างคลังข้อมูลที่หลากหลายและมีคุณภาพสูงของภาษาที่ใช้พูดในเอเชียตะวันออกเฉียงใต้เพื่อสนับสนุนการฝึกโมเดลต่างๆ ที่อยู่ภายใต้ SEA-LION (Southeast Asian Languages in One Network) ซึ่งเป็นโครงการริเริ่มของ AISG ในการพัฒนากลุ่มโมเดลภาษาขนาดใหญ่ที่ได้รับการฝึกล่วงหน้าและปรับแต่งคำสั่งมาโดยเฉพาะเพื่อให้สามารถนำเสนอบริบททางวัฒนธรรมและความแตกต่างทางภาษาในเอเชียตะวันออกเฉียงใต้ได้ดียิ่งขึ้น รวมถึงโมเดลอื่นๆ ที่เป็นประโยชน์ต่อผู้ใช้ในเอเชียตะวันออกเฉียงใต้
ความร่วมมือระหว่าง AISG และ ทีมวิจัยของ Google ในเอเชียแปซิฟิก ภายใต้ Project SEALD ครอบคลุมในด้านต่างๆ ดังนี้
- การพัฒนาโมเดลสำหรับการแปลทั่วไปและการแปลให้เข้ากับบริบททางวัฒนธรรมของแต่ละพื้นที่
- การสร้างแนวทางปฏิบัติแนะนำสำหรับชุดข้อมูลการปรับแต่งคำสั่ง
- การสร้างเครื่องมือสำหรับการแปลให้เข้ากับบริบททางวัฒนธรรมของแต่ละพื้นที่ในวงกว้าง และ
การเผยแพร่สูตรสำหรับการฝึกล่วงหน้าสำหรับภาษาต่างๆ ในเอเชียตะวันออกเฉียงใต้
AISG และ Google จะเผยแพร่ชุดข้อมูลและเอาต์พุตจาก Project SEALD ในรูปแบบโอเพนซอร์สเพื่อพัฒนาความก้าวหน้าของระบบนิเวศโมเดลภาษาขนาดใหญ่ในเอเชียตะวันออกเฉียงใต้ และส่งเสริมความเชี่ยวชาญระดับภูมิภาคที่แข็งแกร่ง
นอกจากนี้ Project SEALD ยังจะร่วมมือกับพาร์ทเนอร์ทั้งจากภาควิชาการ ภาคอุตสาหกรรม และภาครัฐ ในรูปแบบต่างๆ ซึ่งรวมถึงการทำงานร่วมกับภาคอุตสาหกรรมในการรวบรวม ดูแลจัดการ และตรวจสอบคุณภาพข้อมูล การร่วมมือกับสถาบันการศึกษาในประเทศต่างๆ ในเอเชียตะวันออกเฉียงใต้เพื่อใช้เทคนิคที่ล้ำสมัยในการประเมินและการเปรียบเทียบ และการร่วมมือกับผู้มีส่วนเกี่ยวข้องของภาครัฐในการส่งเสริมการพัฒนาต่อยอดเพื่อสาธารณประโยชน์
การพัฒนาความก้าวหน้าด้านโมเดลภาษาขนาดใหญ่ในเอเชียตะวันออกเฉียงใต้
เพื่อเป็นการต่อยอดความร่วมมือในโครงการนี้ AISG จึงได้ร่วมมือกับ Google Cloud ในการทำให้โมเดลภาษาขนาดใหญ่ที่อยู่ภายใต้โครงการ SEA-LION พร้อมใช้งานบน Model Garden บน Vertex AI ของ Google Cloud ซึ่งช่วยให้องค์กรต่างๆ สามารถเข้าถึงโมเดลของบุคคลที่หนึ่งและบุคคลที่สาม รวมถึงโมเดลแบบเปิด ที่มีคุณลักษณะตรงตามมาตรฐานด้านคุณภาพและความปลอดภัยขององค์กรที่เข้มงวดของ Google Cloud องค์กรต่างๆ สามารถใช้เครื่องมือที่ออกแบบมาเพื่อองค์กรผ่านทาง Vertex AI เพื่อปรับแต่งโมเดลเหล่านี้ได้อย่างง่ายดาย สามารถนำไปใช้งานตามที่ต้องการ และผสานรวมเข้ากับแอปพลิเคชันของตน นอกจากนี้ AISG จะยังคงเปิดให้ใช้งานโมเดลภาษาขนาดใหญ่ที่อยู่ภายใต้โครงการ SEA-LION บน Hugging Face ซึ่งได้ร่วมมือกับ Google Cloud เพื่อช่วยให้นักพัฒนาซอฟต์แวร์ฝึก ปรับแต่ง และให้บริการโมเดลแบบเปิดได้อย่างรวดเร็วและคุ้มค่า
ไม่เพียงเท่านี้ AISG ยังได้นำร่องความร่วมมือกับประเทศอื่นๆ ในเอเชียตะวันออกเฉียงใต้ ตัวอย่างเช่น AISG ได้ร่วมมือกับพาร์ทเนอร์ในประเทศไทย ฟิลิปปินส์ และอินโดนีเซีย เพื่อสร้างทรัพยากรด้านไวยากรณ์และอรรถศาสตร์ของภาษาในระดับภูมิภาค นอกจากนี้ AISG ยังได้ลงนามในบันทึกข้อตกลงความร่วมมือ (Memorandum of Understanding – MOU) หรือหนังสือแสดงเจตจำนง (Letter of Intent – LOI) กับหน่วยงานต่างๆ ในอินโดนีเซีย มาเลเซีย และเวียดนาม ในการพัฒนาชุดข้อมูลและแอปพลิเคชันสำหรับโมเดลภาษาขนาดใหญ่ในระดับภูมิภาค
ทีมวิจัยของ Google ในเอเชียแปซิฟิกเองก็มีโครงการส่งเสริมความครอบคลุมของโมเดลภาษาขนาดใหญ่ที่คล้ายคลึงกันนี้ ซึ่งกำลังดำเนินการอยู่ในประเทศอินเดียภายใต้ความร่วมมือกับสถาบันวิทยาศาสตร์แห่งอินเดีย (Indian Institute of Science) ผ่านทาง Project Vaani ซึ่งเป็นโครงการริเริ่มที่รวบรวม ถอดเสียง และจัดหาข้อมูลเสียงแบบโอเพนซอร์สจากทั่วทั้ง 773 อำเภอของอินเดีย
โควทจากพาร์ทเนอร์หลักของโครงการ
“Google ภูมิใจที่ได้ร่วมมือกับ AISG เพื่อส่งเสริมและผลักดันการพัฒนาโมเดล AI ในสิงคโปร์และประเทศอื่นๆ ในเอเชียตะวันออกเฉียงใต้ ด้วยการมุ่งเน้นไปที่ภาษาที่พูดและใช้ในภูมิภาค และความเข้าใจทางวัฒนธรรม Project SEALD จะช่วยพัฒนาคลังข้อมูลที่มีอยู่และเกณฑ์มาตรฐานการประเมินผลสำหรับภาษาเหล่านี้อย่างมีนัยสำคัญ ซึ่งจะช่วยเปิดโอกาสใหม่ๆ และทำให้ AI ครอบคลุม เข้าถึงได้ และมีประโยชน์มากขึ้นสำหรับทุกคนและธุรกิจต่างๆ ทั่วทั้งภูมิภาคนี้” – Yolyn Ang รองประธานฝ่ายพันธมิตรด้านความรู้และข้อมูลของ Google ประจำภูมิภาคเอเชียแปซิฟิก
“โครงการโมเดลภาษาขนาดใหญ่ SEA-LION ให้ความสำคัญกับการสร้างชุมชนและระบบนิเวศที่มีการทำงานร่วมกันอย่างต่อเนื่องเพื่อยกระดับคุณภาพของคลังข้อมูลของ SEA-LION และพัฒนาขีดความสามารถของ SEA-LION อย่างต่อเนื่อง เราดีใจที่ตอนนี้ Google ได้ร่วมเป็นส่วนสำคัญของระบบนิเวศของ SEA-LION และเราตั้งตาที่จะได้ร่วมมือกับ Google ในการสร้างชุดข้อมูลที่ดียิ่งขึ้นผ่านทาง Project SEALD เพื่อประโยชน์ของชุมชนโดยรวม” – Leslie Teo ผู้อำนวยการอาวุโสฝ่ายผลิตภัณฑ์ AI ของ AISG
“สถาบันวิทยสิริเมธี (VISTEC) รู้สึกยินดีเป็นอย่างยิ่งที่ได้เป็นส่วนหนึ่งของการพัฒนาการประมวลผลภาษาธรรมชาติ (Natural Language Processing – NLP) ในอาเซียนภายใต้ Project SEALD ซึ่งเป็นกลไกสำคัญในการทำงานร่วมกันเพื่อกำหนดทิศทางเชิงกลยุทธ์สำหรับชุมชน NLP ที่หลากหลายของเราให้เป็นหนึ่งเดียว Project SEALD จะช่วยลดข้อจำกัดด้านทรัพยากรสำหรับการผนวกรวมภาษาที่ใช้ในเอเชียตะวันออกเฉียงใต้เข้ากับนวัตกรรม AI ด้วยการนำเสนอโมเดลภาษาที่ได้รับการฝึกล่วงหน้า ชุดข้อมูล และเกณฑ์มาตรฐานใหม่ๆ VISTEC ภูมิใจที่ได้เป็นพาร์ทเนอร์อย่างเป็นทางการของ Project SEALD และเราพร้อมที่จะให้การสนับสนุนความเชี่ยวชาญของเราในด้านการประมวลผลภาษาธรรมชาติแก่โครงการนี้อย่างเต็มที่” – รศ.ดร.สรณะ นุชอนงค์ คณบดีสำนักวิชาวิทยาศาสตร์และเทคโนโลยีสารสนเทศ สถาบันวิทยสิริเมธี (VISTEC) ประเทศไทย
เชิญชวนองค์กรต่างๆ ที่สนใจเข้าร่วม Project SEALD
มาร่วมกันกำหนดอนาคตของ AI ในเอเชียตะวันออกเฉียงใต้ ไปพร้อมๆ กับ Google และ AISG เพื่อยกระดับโมเดลภาษาขนาดใหญ่ระดับภูมิภาค และสร้างสรรค์โซลูชันด้านภาษาที่ตอบโจทย์ความต้องการของผู้คนในภูมิภาคนี้ ความเชี่ยวชาญของนักวิจัย นักพัฒนาซอฟต์แวร์ และธุรกิจต่างๆ เป็นสิ่งจำเป็นต่อการขับเคลื่อนนวัตกรรมในด้านนี้ หากท่านสนใจเข้าร่วม Project SEALD สามารถติดต่อเราได้ที่ [email protected]