ภาษาศาสตร์คอมพิวเตอร์
ลิงก์ข้ามภาษาในบทความนี้ มีไว้ให้ผู้อ่านและผู้ร่วมแก้ไขบทความศึกษาเพิ่มเติมโดยสะดวก เนื่องจากวิกิพีเดียภาษาไทยยังไม่มีบทความดังกล่าว กระนั้น ควรรีบสร้างเป็นบทความโดยเร็วที่สุด |
ส่วนหนึ่งของรายการเรื่อง |
ภาษาศาสตร์ |
---|
สถานีย่อย |
ภาษาศาสตร์คอมพิวเตอร์ หรือ ภาษาศาสตร์เชิงคำนวณ (อังกฤษ: computational linguistics) เป็นสหวิทยาการที่ว่าด้วยการสร้างแบบจำลองเชิงตรรกะของภาษาธรรมชาติ จากมุมมองในเชิงคำนวณ แบบจำลองนี้ ไม่ได้จำกัดอยู่แค่ในสาขาในสาขาหนึ่งของภาษาศาสตร์
เดิมทีเดียว นักภาษาศาสตร์คอมพิวเตอร์มักจะเป็นนักวิทยาศาสตร์คอมพิวเตอร์ ซึ่งเชี่ยวชาญในด้านการประยุกต์ใช้คอมพิวเตอร์เพื่อประมวลผลภาษาธรรมชาติ (natural language) แต่งานวิจัยในช่วงหลัง ได้แสดงให้เห็นว่า ภาษานั้นซับซ้อนเกินกว่าที่คาดคิดไว้ ดังนั้นกลุ่มศึกษาภาษาศาสตร์คอมพิวเตอร์จึงกลายสภาพเป็นกลุ่มสหวิทยาการไป โดยจะต้องมีอย่างน้อยหนึ่งคนที่เป็นนักภาษาศาสตร์ (นั่นคือ ฝึกฝนมาทางด้านภาษาศาสตร์โดยเฉพาะ) ส่วนคนอื่น ๆ อาจจะเชี่ยวชาญในสาขา วิทยาศาสตร์คอมพิวเตอร์ ปัญญาประดิษฐ์ จิตวิทยาปริชาน (en:cognitive psychology) ตรรกวิทยา และอื่น ๆ
จุดกำเนิด
[แก้]ภาษาศาสตร์คอมพิวเตอร์นั้นนับเป็นแขนงวิชาแรกเริ่มของปัญญาประดิษฐ์แขนงหนึ่ง ซึ่งเริ่มต้นในสหรัฐอเมริกาในช่วงคริสต์ทศวรรษที่ 1950 (พ.ศ. 2493 ถึง พ.ศ. 2503) เพื่อที่จะแปลเอกสารภาษาต่างประเทศไปเป็นภาษาอังกฤษโดยอัตโนมัติ โดยเฉพาะการแปลวารสารวิทยาศาสตร์ของสหภาพโซเวียต[1] ในสมัยนั้นคอมพิวเตอร์ได้พิสูจน์ความสามารถแล้วว่า สามารถแก้ปัญหาทางคณิตศาสตร์ที่ซับซ้อนได้เร็วกว่าและแม่นยำกว่ามนุษย์มาก แต่ถึงกระนั้น เทคนิคต่าง ๆ ก็ยังไม่ได้รับการพัฒนาให้มีประสิทธิภาพมากพอที่จะประมวลผลภาษาได้[2]
เมื่อการแปลภาษาอัตโนมัติ (machine translation) ที่ให้ผลลัพธ์แม่นยำได้ล้มเหลว จึงได้มีการกลับมามองปัญหาของการประมวลผลภาษาใหม่ พบว่าปัญหานั้นซับซ้อนเกินกว่าที่ได้คาดคิดไว้ในตอนแรก ภาษาศาสตร์คอมพิวเตอร์จึงได้ถือกำเนิดขึ้นเป็นศาสตร์ใหม่ ที่อุทิศให้กับการพัฒนาขั้นตอนวิธี และซอฟต์แวร์ประมวลผลข้อมูลทางภาษาอย่างชาญฉลาด เมื่อปัญญาประดิษฐ์ได้ถือกำเนิดขึ้นในช่วงคริสต์ทศวรรษที่ 1960 (พ.ศ. 2503 ถึง พ.ศ. 2513) ภาษาศาสตร์คอมพิวเตอร์จึงได้กลายมาเป็นแขนงหนึ่งของปัญญาประดิษฐ์ โดยเน้นการจัดการกับความเข้าใจในระดับมนุษย์ (human-level comprehension) และการสร้างภาษาธรรมชาติ (production of natural languages)
ในการแปลภาษาหนึ่งไปเป็นอีกภาษาหนึ่งนั้น ได้มีการศึกษาวิจัยแล้วว่า คนจะต้องเข้าใจวากยสัมพันธ์ (syntax - หน้าที่และความสัมพันธ์ของคำคำหนึ่งกับคำอื่น ๆ ในข้อความ) ของภาษาทั้งสอง และอย่างน้อยก็ต้องในระดับหน่วยคำ (morphology) และทั้งประโยค ในการเข้าใจวากยสัมพันธ์ คนจะต้องเข้าใจอรรถศาสตร์ (semantics - ความหมาย) ของคำศัพท์ และรวมถึงความเข้าใจในวัจนปฏิบัติศาสตร์ (pragmatics - การสื่อความหมายที่เกิดจาก/หรือแปรไปตาม การใช้งาน) ว่าภาษานั้นใช้อย่างไร เช่น เพื่อบอกเล่า (declarative) หรือเพื่อการประชดประชัน (ironic) ดังนั้นการที่จะแปลความระหว่างภาษาได้นั้น จะต้องใช้องก์ความรู้ทั้งหลายที่มุ่งเน้นความเข้าใจเกี่ยวกับ การประมวลผลและการสังเคราะห์ประโยคของภาษาธรรมชาติแต่ละภาษาโดยใช้คอมพิวเตอร์นั่นเอง[3]
สาขาย่อย
[แก้]ภาษาศาสตร์คอมพิวเตอร์สามารถแบ่งออกเป็นหลายแขนงหลัก ตามสื่อกลางของภาษาที่ประมวลผล ไม่ว่าจะเป็นทางการพูดหรือการเขียน และตามวิธีการใช้ภาษา ทั้งการวิเคราะห์และสังเคราะห์
- การรู้จำเสียง (en:speech recognition) และการสังเคราะห์เสียง (en:speech synthesis) เป็นการศึกษาวิธีการเข้าใจหรือสร้างภาษาพูด
- การแจกแจงโครงสร้าง (en:parsing) และการสังเคราะห์ภาษา (generation) เน้นไปที่การแยกภาษาเป็นส่วน ๆ และการประกอบรวมภาษาให้สื่อความได้ ตามลำดับ
- การแปลภาษาด้วยเครื่อง ยังคงเป็นแขนงสำคัญอันหนึ่งของภาษาศาสตร์คอมพิวเตอร์ โดยมีหลายแนวคิด เช่น การแปลจากภาษาหนึ่งไปเป็นอีกภาษาหนึ่งโดยตรง หรือการแปลจากภาษาต้นทางไปเป็นภาษากลาง (ภาษาสากล - inter lingua) ก่อน จากนั้นค่อยแปลจากภาษากลางไปเป็นภาษาปลายทาง
ในการวิจัยด้านภาษาศาสตร์คอมพิวเตอร์ส่วนใหญ่ จะมีแนวทางดังต่อไปนี้
- ภาษาศาสตร์คลังข้อมูล โดยใช้คอมพิวเตอร์ช่วยวิเคราะห์ (computer aided corpus linguistics)
- การออกแบบโปรแกรมแจกแจงประโยค (parser) ให้รองรับภาษาธรรมชาติ
- การออกแบบตัวกำกับ (tagger) เช่น ตัวกำกับชนิดคำ (en:part-of-speech tagger หรือ POS-tagger)
- การนิยามตรรกศาสตร์แบบพิเศษ เช่น ตรรกศาสตร์ทรัพยากร เพื่อการประมวลผลภาษาธรรมชาติ (Natural language processing หรือ NLP)
- การวิจัยความสัมพันธ์ระหว่างภาษาฟอร์มอลกับภาษาธรรมชาติในสภาวะปกติ
สมาคมภาษาศาสตร์คอมพิวเตอร์ (Association for Computational Linguistics หรือ ACL) ได้นิยามภาษาศาสตร์คอมพิวเตอร์ไว้ว่า "เป็นการศึกษาภาษาตามแนวทางวิทยาศาสตร์จากมุมมองเชิงคำนวณ นักภาษาศาสตร์คอมพิวเตอร์จะสนใจที่การสร้างแบบจำลองเชิงคำนวณ (en:computational model) ของปรากฏการณ์ทางภาษาศาสตร์ทั้งหลาย"[4]
อ้างอิง
[แก้]- ↑ John Hutchins: Retrospect and prospect in computer-based translation. เก็บถาวร 2008-04-14 ที่ เวย์แบ็กแมชชีน Proceedings of MT Summit VII, 1999, pp. 30–44.
- ↑ Arnold B. Barach: Translating Machine 1975: And the Changes To Come.
- ↑ Natural Language Processing by Liz Liddy, Eduard Hovy, Jimmy Lin, John Prager, Dragomir Radev, Lucy Vanderwende, Ralph Weischedel
- ↑ The Association for Computational Linguistics What is Computational Linguistics? Published online, Feb, 2005.
ดูเพิ่ม
[แก้]- การประมวลผลภาษาธรรมชาติ
- การแปลภาษาอัตโนมัติ
- หน่วยความจำคำแปล (translation memory)
- วารสารภาษาศาสตร์คอมพิวเตอร์ (Computational Linguistics (journal))
แหล่งข้อมูลอื่น
[แก้]- Information Research and Development Division เก็บถาวร 2005-03-15 ที่ เวย์แบ็กแมชชีน - ฝ่ายวิจัยและพัฒนาสาขาสารสนเทศ (งานวิจัย RDI-2, RDI-4 และ RDI-5) ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ (NECTEC)
- Thai Computational Linguistics Laboratory (TCL Thailand) - ห้องวิจัยภาษาศาสตร์คอมพิวเตอร์
- Knowledge Information & Data Management Laboratory (KIND) เก็บถาวร 2006-06-10 ที่ เวย์แบ็กแมชชีน - ห้องวิจัยการจัดการข้อมูล, สารสนเทศ, และความรู้ สถาบันเทคโนโลยีนานาชาติสิรินธร (SIIT) มหาวิทยาลัยธรรมศาสตร์
- Centre for Research in Speech and Language Processing (CRSLP) - จุฬาลงกรณ์มหาวิทยาลัย
- Specialty Research Unit in Natural Language Processing and Intelligent Information System Technology (NAiST) เก็บถาวร 2005-03-13 ที่ เวย์แบ็กแมชชีน - มหาวิทยาลัยเกษตรศาสตร์
- Association for Computational Linguistics (ACL) - สมาคมภาษาศาสตร์คอมพิวเตอร์
- ACL Anthology of research papers - รวบรวมบทความวิชาการ ที่จัดพิมพ์โดย ACL ทั้งในวารสาร และการประชุมวิชาการต่างๆ
- Language Technology World เก็บถาวร 2018-02-12 ที่ เวย์แบ็กแมชชีน