สัทศาสตร์

สัทศาสตร์สนใจอย่างกว้าง ๆ ในแง่สองแง่ของการพูดของมนุษย์: การผลิตหรือวิธีการที่มนุษย์ผลิตเสียง และการรับรู้หรือวิธีการที่มนุษย์เข้าใจเสียงพูด ทักษะมาลา (modality (semiotics)) ของภาษาอธิบายวิธีการผลิตและรับรู้ภาษา ภาษาที่ใช้ทักษะมาลาแบบฟัง-พูดเช่นภาษาอังกฤษผลิตการพูดโดยใช้ปากและรับรู้การพูดโดยใช้หู ภาษามือเช่นภาษามือออสเตรเลีย (Auslan) ใช้ทักษะมาลาแบบมือ-มองและผลิตการพูดโดยใช้มือและรับรู้การพูดโดยใช้ตา ในขณะที่บางภาษาเช่นภาษามืออเมริกัน (American Sign Language) มีสำเนียงที่มีทักษะมาลาแบบมือ-มือ เป็นภาษามือแบบสัมผัส (tactile signing) สำหรับคนตาบอดและหูหนวกซึ่งสัญลักษณ์ที่ใช้มือผลิตก็รับรู้ด้วยมือเช่นกัน

การผลิตภาษาประกอบไปด้วยกระบวนการหลายกระบวนการที่พึ่งพากันและกัน ซึ่งเปลี่ยนให้ข้อความที่ไม่เป็นภาษาเป็นสัญญาณทางภาษาที่ถูกพูดหรือทำท่าออกมา หลังจากที่ผู้พูดได้ระบุข้อความหนึ่งที่จะถูกเข้ารหัสทางภาษาแล้ว ผู้นั้นจะต้องสรรหาคำศัพท์หรือรายการศัพท์ (lexical item) เพื่อแทนข้อความนั้นในกระบวนการที่เรียกว่าการคัดเลือกศัพท์ (lexical selection) ในระหว่างนั้นภาพแทนทางจิตของคำศัพท์ต่าง ๆ จะได้รับมอบหมายเนื้อหาทางสัทวิทยาเป็นลำดับของหน่วยเสียงที่จะต้องผลิตออกมา หน่วยเสียงจะระบุลักษณะการออกเสียงเช่น ปิดริมฝีปาก หรือการขยับลิ้นไปในที่ ๆ หนึ่ง จากนั้นหน่วยเสียงเหล่านี้จะถูกประสานงานเป็นลำดับของคำสั่งที่จะส่งไปให้กล้ามเนื้อ และเมื่อคำสั่งเหล่านี้ได้ดำเนินการอย่างถูกต้อง เสียงก็จะเปล่งออกมาอย่างที่เจตนา

การเคลื่อนไหวเหล่านี้ขัดขวางและดัดแปลงกระแสลมทำให้เกิดคลื่นเสียง การดัดแปลงทำโดยฐานกรณ์ที่มีตำแหน่งและลักษณะเกิดเสียงต่าง ๆ ทำให้เกิดผลลัพธ์เสียงที่ต่างกัน ตัวอย่างเช่นคำว่า ทาก กับ ซาก ทั้งสองคำมีเสียงพยัญชนะปุ่มเหงือกเป็นพยัญชนะต้นแต่แตกต่างที่ระยะทางจากแนวปุ่มเหงือก ความแตกต่างนี้มีผลมากต่อกระแสลม เสียงที่ถูกผลิตจึงแตกต่างไปด้วย ในทางคล้ายกันทิศทางและแหล่งกำเนิดของกระแสลมก็ส่งผลต่อเสียงด้วย กลไกกระแสลมที่พบได้ทั่วไปที่สุดคือกลไกกระแสลมจากปอด แต่ช่องเส้นเสียง (glottis) และลิ้นก็สามารถใช้ผลิตกระแสลมเช่นกัน

การรับรู้ภาษาเป็นกระบวนการทำความเข้าใจและถอดรหัสสัญญาณทางภาษา สัญญาณเสียงที่ต่อเนื่องจะต้องเปลี่ยนเป็นหน่วยวิยุตทางภาษาเช่นหน่วยเสียง หน่วยคำ และคำเพื่อรับรู้เสียงพูด ผู้ฟังจะให้ความสำคัญต่อแง่มุมหนึ่งของสัญญาณที่สามารถใช้แยกออกเป็นกลุ่มได้อย่างน่าเชื่อถือเพื่อระบุและจัดกลุ่มเสียงได้ถูกต้อง แม่สิ่งบ่งชี้อันหนึ่งจะได้รับความสำคัญมากกว่าอันอื่นแต่แง่มุมอื่น ๆ ก็สามารถมีส่วนต่อการรับรู้ ตัวอย่างเช่น แม้ภาษาพูดจะให้ความสำคัญต่อข้อมูลเสียง ปรากฏการณ์แม็คเกอร์กแสดงให้เห็นว่าข้อมูลทางสายตาก็ถูกใช้เพื่อแยกแยะข้อมูลที่กำกวมเมื่อสิ่งบ่งชี้ทางเสียงไม่น่าเชื่อถือ

สัทศาสตร์สมัยใหม่มีสามสาขาหลัก:

สรีรสัทศาสตร์ซึ่งศึกษาวิธีการใช้ฐานกรณ์ผลิตเสียง
สวนสัทศาสตร์ซึ่งศึกษาผลทางเสียงของการออกเสียงต่าง ๆ
โสตสัทศาสตร์ซึ่งศึกษาวิธีที่ผู้ฟังรับรู้และเข้าใจสัญญาณทางภาษา

ประวัติ

สมัยโบราณ

การศึกษาสัทศาสตร์เริ่มเป็นครั้งแรกอย่างน้อยเมื่อ 2,600 ปีที่แล้วหรือ 6 ศตวรรษก่อนคริสตกาลในอินเดียโบราณ โดยปาณินินักวิชาการฮินดูได้อธิบายถึงฐานและกรณ์ในการออกเสียง พยัญชนะในตำราภาษาสันสกฤตของเขา อักษรอินเดียที่ใช้ในปัจจุบันเรียงลำดับตัวอักษรตามการแยกประเภทของปาณินิ เขาเป็นส่วนหนึ่งของผู้ที่สำรวจในเรื่องนี้เป็นคนแรก ๆ และไวยากรณ์สี่ภาคของเขาซึ่งเขียนไว้ประมาณ 350 ปีก่อนคริสกาลมีอิทธิพลต่อภาษาศาสตร์สมัยใหม่และยังเป็น "ภาษาศาสตร์เพิ่มพูนที่สมบูรณ์ที่สุดของภาษาใด ๆ ที่เคยมีเขียนมา" (the most complete generative grammar of any language yet written) ไวยากรณ์ของเขาเป็นรากฐานของภาษาศาสตร์สมัยใหม่และอธิบายหลักการทางสัทศาสตร์ที่สำคัญหลายหลักการ รวมไปด้วยเสียงพูด เขาอธิบายว่าการสั่นพ้องถูกผลิตเป็น "น้ำเสียง" (tone) เมื่อเส้นเสียงปิด และเป็น "เสียง" (noise) เมื่อเส้นเสียงเปิด หลักการทางสัทศาสตร์ในไวยากรณ์นี้ถือว่าเป็น "ปฐมฐาน" ในแง่ที่มันเป็นรากฐานของการวิเคราะห์เชิงทฤษฎีของเขา และไม่ได้เป็นสิ่งที่ถูกวิเคราะห์ในทางทฤษฎีเอง และหลักการเหล่านี้ก็สามารถถูกอนุมานได้จากระบบทางสัทวิทยาของเขา

สมัยใหม่

ความก้าวหน้าในวิชาสัทศาสตร์หลังจากปาณินิและผู้ร่วมสมัยกับเขานั้นถูกจำกัดจนกระทั่งยุคสมัยใหม่ หากสงวนการสำรวจที่จำกัดโดยนักไวยากรณ์ชาวกรีกและโรมันบางคน ในสหัสวรรษระหว่างสมัยนักไวยากรณ์อินเดียและสัทศาสตร์สมัยใหม่ จุดสนใจเปลี่ยนจากความแตกต่างระหว่างภาษาพูดและเขียนซึ่งเป็นแรงผลักดันเบื้องหลังการบรรยายของปาณินิ และเริ่มมาสนใจคุณสมบัติทางกายภาพของการพูดอย่างเดียว ความสนใจในสัทศาสตร์ที่ต่อเนื่องเริ่มขึ้นประมาณในปี ค.ศ. 1800 และคำว่า "phonetics" (สัทศาสตร์) ถูกใช้ในความหมายปัจจุบันเป็นครั้งแรกในปี ค.ศ. 1841 สัทศาสตร์สามารถมีความเข้าใจมากขึ้นจากการใช้และทบทวนข้อมูลที่ใหม่และมีรายละเอียดกว่าจากการพัฒนาของแพทยศาสตร์และอุปกรณ์ที่สามารถอัดเสียงและภาพ ยุคสมัยแรกของสัทศาสตร์สมัยใหม่นั้นก็รวมไปถึงการพัฒนาวิสิเบิลสปีช (visible speech) ซึ่งเป็นสัทอักษรอันทรงอิทธิพลที่อ้างอิงถึงตำแหน่งการออกเสียงโดยอเล็กซานเดอร์ เมลวิลล์ เบลล์ (Alexander Melville Bell) สัทอักษรนี้มีชื่อเสียงเป็นเครื่องมือในการศึกษาการพูดของเด็กหูหนวก (Oralism)

ก่อนที่อุปกรณ์อัดเสียงจะมีอยู่ทั่วไป นักสัทศาสตร์พึ่งพาธรรมเนียมของสัทศาสตร์เชิงปฏิบัติอย่างหนักเพื่อรับรองว่าการถอดเสียงและการค้นพบจะสอดคล้องกับนักสัทศาสตร์คนอื่น ๆ นี่รวมไปถึงการฝึกหูให้สามารถจำและแยกเสียงพูดได้ และความสามารถในการผลืตเสียงต่าง ๆ นักสัทศาสตร์ยังต้องเรียนรู้ที่จะฟัง จำ และนึกเสียงต่าง ๆ ในสัทอักษรสากล (IPA) ออก IPA นั้นยังถูกใช้เพื่อทดสอบและรับรองความสามารถที่จะออกเสียงภาษาอังกฤษของผู้พูดได้ (แต่ว่าการปฏิบัตินี้เลิกใช้แล้วในภาษาอื่น) เมลวิลล์ เบลล์ได้พัฒนาการอธิบายสระด้วยความสูง (height) และการเป็นหน้าหลัง (backness) เพื่อปรับปรุงวิธีการสอนวิสิเบิลสปีชของเขา ก่อให้เกิดชุดสระมาตรฐาน (cardinal vowel) 9 อัน นักสัทศาสตร์ถูกคาดหมายว่าต้องสามารถพูดชุดสระมาตรฐานได้เพื่อยึดเป็นจุดอ้างอิงในการรับรู้และถอดเสียงต่าง ๆ เวลาลงพื้นที่จริง แนวทางนี้ถูกวิจารณ์โดยปีเตอร์ เลเดโฟเกด (Peter Ladefoged) ในช่วงปี ค.ศ. 1960s บนรากฐานของหลักฐานทางทดลองที่เขาพบว่าชุดสระมาตรฐานเป็นเป้าทางเสียงแทนที่จะเป็นเป้าทางการออกเสียง เป็นการท้าทายการอ้างที่ว่านักสัทศาสตร์สามารถใช้ชุดสระมาตรฐานเป็นตัวยึดหลักในการตัดสินการออกเสียงอื่น

การผลิต

การผลิตภาษา (อังกฤษ: Language production) ประกอบไปด้วยกระบวนการหลายกระบวนการที่พึ่งพากันและกัน ซึ่งเปลี่ยนให้ข้อความที่ไม่เป็นภาษาเป็นสัญญาณทางภาษาที่ถูกพูดหรือทำท่าออกมา นักภาษาศาสตร์โต้แย้งว่ากระบวนการผลิตภาษาเกิดขึ้นเป็นลำดับของระยะ (การประมวลผลแบบลำดับ) หรือไม่ และกระบวนการผลิตเกิดขึ้นขนานกัน หลังจากที่ผู้พูดได้ระบุข้อความหนึ่งที่จะถูกเข้ารหัสทางภาษาแล้ว ผู้นั้นจะต้องสรรหาคำศัพท์หรือรายการศัพท์ (lexical item) เพื่อแทนข้อความนั้นในกระบวนการที่เรียกว่าการคัดเลือกศัพท์ (lexical selection) คำจะถูกเลือกมาบนรากฐานของความหมายซึ่งนักภาษาศาสตร์เรียกว่าข้อมูลความหมาย การคัดเลือกศัพท์กระตุ้นราก (lemma (psycholinguistics)) ของคำซึ่งมีทั้งข้อมูลความหมายและไวยากรณ์ของคำนั้น

หลังจากได้วางแผนการพูดไว้แล้ว มันจึงจะผ่านการเข้ารหัสทางสัทวิทยา ในการผลิตภาษาระยะนี้ ภาพแทนทางจิตของคำศัพท์ต่าง ๆ จะได้รับมอบหมายเนื้อหาทางสัทวิทยาเป็นลำดับของหน่วยเสียงที่จะต้องผลิตออกมา หน่วยเสียงจะระบุลักษณะการออกเสียงเช่น ปิดริมฝีปาก หรือการขยับลิ้นไปในที่ ๆ หนึ่ง จากนั้นหน่วยเสียงเหล่านี้จะถูกประสานงานเป็นลำดับของคำสั่งที่จะส่งไปให้กล้ามเนื้อ และเมื่อคำสั่งเหล่านี้ได้ดำเนินการอย่างถูกต้อง เสียงก็จะเปล่งออกมาอย่างที่เจตนา ดังนั้นกระบวนการผลิตจากข้อความไปสู่การออกเสียงออกมาสามารถสรุปได้ตามลำดับดังนี้:

การวางแผนข้อความ (Message planning)
การเลือกรากคำ (Lemma selection)
การค้นคืนและการมอบหมายรูปทางสัทวิทยาของคำ (Retrieval and assignment of phonological word forms)
การระบุการออกเสียง (Articulatory specification)
คำสั่งกล้ามเนื้อ (Muscle commands)
การออกเสียง (Articulation)
เสียงพูด (Speech sounds)

ตำแหน่งเกิดเสียง

เสียงที่ถูกผลิตโดยการการบีบตัว (constriction) อย่างเต็มหรือบางส่วนของช่องเสียง (vocal tract) จะเรียกว่าพยัญชนะ พยัญชนะถูกออกเสียงในช่องเสียง โดยปกติเป็นในปาก และตำแหน่งที่บีบตัวนี้ก็ส่งผลต่อเสียงผลลัพธ์ เนื่องด้วยความสัมพันธ์ที่แนบชิดระหว่างตำแหน่งของลิ้นและเสียงที่เปล่งออกมา ตำแหน่งเกิดเสียงเป็นแนวคิดที่สำคัญในสาขาวิชาย่อยหลายสาขาในวิชาสัทศาสตร์

เสียงถูกจัดประเภทในบางส่วนด้วยตำแหน่งของการบีบตัว รวมไปทั้งส่วนของร่างกายที่ใช้ในการบีบตัว ตัวอย่างเช่นคำว่า fought และ thought ในภาษาอังกฤษ ทั้งสองเป็นคู่เทียบเสียง (minimal pair) ที่ต่างกันเพียงอวัยวะที่ใช้บีบตัว มากกว่าตำแหน่งของการบีบตัว "f" ใน fought เป็นการออกเสียงพยัญชนะริมฝีปากล่าง-ฟันบน (labiodental consonant) ที่เกิดจากริมฝีปากล่างกับฟันบน "th" ใน thought เป็นการออกเสียงพยัญชนะลิ้น-ฟันบน (linguodental consonant) ที่เกิดจากลิ้นกับฟันบน การบีบตัวที่ทำโดยริมฝีปากเรียกว่าเสียงพยัญชนะริมฝีปาก (labialization) และที่ทำโดยลิ้นจะเรียกว่าเสียงพยัญชนะลิ้น (lingual)

การบีบตัวโดยลิ้นสามารถเกิดขึ้นได้ในหลายส่วนของช่องเสียง โดยจัดกลุ่มอย่างกว้าง ๆ เป็นโพรงปาก หลังลิ้น (dorsal) และโคนลิ้น (radical) การออกเสียงที่โพรงปากถูกทำโดยส่วนหน้าของลิ้น การออกเสียงที่หลังลิ้นถูกทำโดยส่วนหลังของลิ้น และการออกเสียงที่โคนลิ้นถูกทำในคอหอย การแบ่งกลุ่มนี้ไม่พอสำหรับการแยกแยะและอธิบายเสียงพูดทั้งหมด ตัวอย่างเช่น เสียง [s] และ [ʃ] เป็นเสียงโพรงปากทั้งสอง แต่ถูกผลิตในตำแหน่งที่ต่างกัน เพื่ออธิบายสิ่งนี้ ตำแหน่งเกิดเสียงที่ละเอียดกว่านี้จึงจำเป็นโดยจะพูดถึงพื้นที่ในปากที่เกิดการบีบตัว

ริมฝีปาก

การออกเสียงที่ใช้ริมฝีปากสามารถออกได้สามแบบ: ทั้งบนและล่าง (เสียงพยัญชนะริมฝีปากคู่) ริมฝีปากกับฟัน (เสียงพยัญชนะริมฝีปากล่าง-ฟันบน) และลิ้นกับริมฝีปากบน (เสียงพยัญชนะลิ้น-ริมฝีปากบน) การออกเสียงจำพวกนี้ทั้งหมดหรือบางส่วนขึ้นอยู่กับนิยามที่ใช้สามารถจัดกลุ่มให้เป็นเสียงพยัญชนะริมฝีปาก (labial consonant) เสียงพยัญชนะริมฝีปากคู่ (bilabial consonant) ทำโดยใช้ริมฝีปากบนและล่าง เพื่อผลิตเสียงนี้ริมฝีปากล่างเคลื่อนที่ไกลที่สุดไปหาริมฝีปากบนซึ่งเคลื่อนลงมาหน่อยเดียว แต่ในบางกรณีแรงลมที่ผ่านช่องระหว่างริมฝีปากทั้งสองอาจทำให้ริมฝีปากแยกออกจากกันเร็วกว่าที่เข้ามาหากัน การออกเสียงทั้งสองแบบเกิดจากเนื้อเยื่ออ่อนซึ่งต่างจากการออกเสียงอื่น ๆ เสียงหยุดริมฝีปากจึงมักจะถูกผลิตด้วยการปิดไม่สมบูรณ์ มากกว่าการออกเสียงที่ใช้พื้นผิวแข็งเช่นฟันหรือเพดานปาก นอกจากนั้นเสียงหยุดริมฝีปากยังแปลกอีกตรงที่ฐานกรณ์ส่วนบนมีการเคลื่อนที่ลงล่าง อย่างที่ริมฝีปากบนมีการเคลื่อนที่ลงล่างเล็กน้อย

เสียงพยัญชนะลิ้น-ริมฝีปากบน (linguolabial consonant) ทำจากปลายลิ้นแตะริมฝีปากบน ริมฝีปากบนเคลื่อนที่เข้าหาฐานกรณ์ที่เคลื่อนไหวมากกว่าเหมือนกับในการออกเสียงริมฝีปากคู่ การออกเสียงของพยัญชนะในกลุ่มนี้ไม่มีตัวอักษรของตัวเองในสัทอักษรสากลและต้องใช้สัญลักษณ์ปลายสุดลิ้นกับเครื่องหมายเสริมที่ชี้ว่าเสียงนี้อยู่ในประเภทโพรงปาก [d̼] (เสียงหยุดลิ้น-ริมฝีปากบนก้อง) เสียงพวกนี้มีอยู่ในภาษาหลายภาษาพื้นเมืองของวานูอาตูเช่นภาษาทังโกอา (Tangoa language) เสียงพยัญชนะริมฝีปากล่าง-ฟันบนทำจากริมฝีปากล่างแตะฟันบน โดยปกติพยัญชนะริมฝีปากล่าง-ฟันบนเป็นพยัญชนะเสียงเสียดแทรก (fricative) และเสียงนาสิกก็พบเจอได้ มีการโต้แย้งกันว่าเสียงหยุดริมฝีปากล่าง-ฟันบนที่แท้จริงมีอยู่ในภาษาธรรมชาติหรือไม่ แม้มีรายงานว่าภาษาหลายภาษามีเสียงหยุดริมฝีปากล่าง-ฟันบนก็ตาม เช่นภาษาซูลู (Zulu) ภาษาตองกา (Tonga language (Zambia and Zimbabwe)) และภาษาชูบิ (Shubi language)

โพรงปาก

พยัญชนะโพรงปาก (อังกฤษ: Coronal consonant) ทำจากปลายลิ้นและเนื่องมาจากความคล่องแคล่วของลิ้นส่วนหน้าจึงมีตำแหน่งและท่าทางที่หลากหลาย ตำแหน่งเกิดเสียงโพรงปากคือพื้นที่ในปากที่ลิ้นแตะหรือบีบตัว ซึ่งรวมไปถึงตำแหน่งที่ฟัน ปุ่มเหงือก และหลังปุ่มเหงือก ท่าทางลิ้นที่ใช้ส่วนปลายสุดของลิ้นจะได้เสียงปลายสุดลิ้น (apical consonant) หากใช้ส่วนปลายลิ้นจะได้เสียงปลายลิ้น (laminal consonant) และหากปลายลิ้นโค้งขึ้นข้างหลังและใช้ส่วนล่างของปลายลิ้นจะได้เสียงปลายลิ้นม้วน (retroflex consonant) พยัญชนะโพรงปากเป็นกลุ่มพยัญชนะที่มีลักษณะเฉพาะตรงที่มันรองรับลักษณะเกิดเสียงทุกลักษณะ ภาษาชนดั้งเดิมออสเตรเลีย (Australian languages) เป็นที่รู้จักว่ามีพยัญชนะโพรงปากที่มีความหลากหลาย เสียงพยัญชนะฟัน (Dental consonant) ทำจากส่วนปลายของลิ้นและฟันบนและสามารถจัดออกเป็นสองกลุ่มขึ้นกับส่วนของลิ้นที่ใช้ผลิต: เสียงพยัญชนะปลายสุดลิ้น-ฟัน (apical dental consonant) ผลิตจากส่วนปลายสุดของลิ้นแตะฟันบน เสียงพยัญชนะลิ้นระหว่างฟัน (interdental consonant) ผลิตจากส่วนบนของปลายลิ้นแตะฟันบนและส่วนปลายสุดของลิ้นยื่นออกไปด้านหน้า ไม่มีภาษาไหนที่เป็นที่รู้จักว่าใช้ทั้งสองเสียงพยัญชนะเป็นเสียงที่แยกจากกันแต่อาจมีที่ใช้ทั้งสองเป็นหน่วยเสียงย่อย เสียงพยัญชนะปุ่มเหงือก (Alveolar consonant) ทำจากส่วนปลายของลิ้นแตะที่แนวปุ่มเหงือกด้านหลังฟันบนและอาจเป็นได้ทั้งปลายสุดลิ้นหรือปลายลิ้น

พยัญชนะฟันและปุ่มเหงือกถูกแยกแยะในหลาย ๆ ภาษา ทำให้มีการวางนัยทั่วไปแบบแผนระหว่างภาษาขึ้นมาจำนวนหนึ่ง ส่วนของลิ้นที่ใช้ผลิตเสียงก็ถูกแยะแยะเป็นตำแหน่งเกิดเสียงที่ต่างกันด้วย: ภาษาที่มีเสียงหยุดฟันส่วนใหญ่จะมีเสียงปลายลิ้น-ฟัน และภาษาที่มีเสียงหยุดปลายสุดลิ้นจะมีเสียงหยุดปลายสุดลิ้น น้อยมากที่ภาษาจะมีพยัญชนะสองตัวในที่เดียวกันที่ใช้ปลายลิ้นคนละส่วน ยกเว้นภาษาตา (ǃXóõ) ซึ่งไม่เป็นตามแบบแผนนี้ ถ้าภาษาหนึ่งมีเสียงหยุดฟันหรือปุ่มเหงือกอย่างใดอย่างหนึ่งเพียงเสียงเดียว เสียงนั้นจะเป็นปลายลิ้นหากเป็นเสียงฟัน และเป็นปลายสุดลิ้นหากเป็นเสียงปุ่มเหงือก ยกเว้นบางภาษาเช่นภาษาเทมเน (Temne language) และภาษา และภาษาบัลแกเรียซึ่งไม่เป็นตามแบบแผนนี้ ถ้าภาษาหนึ่งมีทั้งเสียงหยุดปลายลิ้นและปลายสุดลิ้น เสียงปลายลิ้นมักจะเป็นเสียงกักเสียดแทรกเช่นในภาษาอิโซโก (Isoko language) ในขณะที่ภาษาดาฮาโล (Dahalo language) มีแบบแผนที่ตรงข้ามกัน เสียงหยุดปุ่มเหงือกกักเสียดแทรกกว่า

เสียงพยัญชนะปลายลิ้นม้วน (Retroflex consonant) มีหลายนิยามซึ่งขึ้นอยู่กับว่าตำแหน่งของลิ้นหรือตำแหน่งขแงเพดานปากเด่นชัดกว่า โดยทั่วไปแล้วเป็นกลุ่มของการออกเสียงที่ปลายลิ้นม้วนขึ้นด้านบนระดับหนึ่ง ด้วยวิธีนี้การออกเสียงแบบม้วนลิ้นสามารถเกิดขึ้นได้บนหลายตำแหน่งของเพดานปากซึ่งรวมไปถึงปุ่มเหงือก หลังปุ่มเหงือก และเพดานแข็ง หากด้านใต้ของลิ้นไปสัมผัสเพดานปากก็จะเป็นเสียงจากใต้ปลายสุดลิ้น แต่เสียงปลายสุดลิ้นจากปุ่มเหงือกก็ถูกเรียกเป็นเสียงลิ้นม้วนเช่นเดียวกัน ตัวอย่างปกติของเสียงลิ้นม้วนใต้ปลายสุดลิ้นคือเสียงที่พบเจอได้ทั่วไปในภาษากลุ่มดราวิเดียน และในภาษาชนพื้นเมืองทางตอนตะวันตกเฉียงใต้ของสหรัฐอเมริกา (Indigenous languages of the Americas) บางภาษา ความแตกต่างระหว่างเสียงหยุดฟันและปุ่มเหงือกคือเสียงปุ่มเหงือกจะม้วนลิ้นเล็กน้อย ในทางเสียง การม้วนลิ้นมักส่งผลต่อกลุ่มความถี่สั่นพ้อง (formant) ที่สูงกว่า

การออกเสียงที่เกิดขึ้นด้านหลังของแนวปุ่มเหงือก (alveolar ridge) เรียกว่าเสียงพยัญชนะหลังปุ่มเหงือก (post-alveolar consonants) และมีคำศัพท์เรียกหลายคำ เสียงพยัญชนะหลังปุ่มเหงือกปลายสุดลิ้นมักจะถูกเรียกว่าพยัญชนะลิ้นม้วน ในขณะที่การออกเสียงปลายลิ้น (laminal) มักจะถูกเรียกว่าเสียงพยัญชนะปุ่มเหงือก-เพดานแข็ง (palato-alveolar) ในวรรณกรรมของภาษาชนดั้งเดิมออสเตรเลีย เสียงหยุดปลายลิ้นมักถูกเรียกเป็นเสียง 'เพดานแข็ง' ถึงแม้จะถูกผลิตเยื้องไปข้างหน้ากว่าพื้นที่แถบเพดานแข็ง และเพราะแต่ละคนมีกายวิภาคที่ต่างกัน การออกเสียงปุ่มเหงือก-เพดานแข็ง (และเสียงโพรงปากโดยทั่วไป) สามารถมีความแตกต่างกันอย่างมากภายในชุมชนภาษา

หลังลิ้น

เสียงพยัญชนะหลังลิ้น (อังกฤษ: Dorsal consonants) คือเสียงพยัญชนะที่ใช้ตัวลิ้นแทนส่วนปลายลิ้นและมักจะถูกผลิตที่เพดานแข็ง เพดานอ่อน (velum) หรือลิ้นไก่ (uvula) เสียงพยัญชนะเพดานแข็ง (Palatal consonants) ทำโดยใช้ตัวลิ้นแตะเพดานแข็งที่เพดานปาก เสียงพยัญชนะเพดานแข็งมักจะถูกเปรียบต่างกับเสียงพยัญชนะเพดานอ่อนหรือลิ้นไก่ และหายากที่จะมีภาษาใดเปรียบต่างทั้งสามเสียง ตัวอย่างหนึ่งของภาษาที่เปรียบต่างทั้งสามเสียงคือภาษาฮาการุ (Jaqaru language) เสียงพยัญชนะเพดานอ่อน (Velar consonants) ทำโดยใช้ตัวลิ้นแตะเพดานอ่อน (soft palate) เสียงนี้เป็นเสียงที่พบเจอได้บ่อยมากในหลาย ๆ ภาษา เกือบทุกภาษามีเสียงหยุดเพดานอ่อน การออกเสียงผสม (coarticulation) ระหว่างเสียงเพดานอ่อนกับสระมักจะเกิดขึ้นและอาจทำให้ตำแหน่งออกเสียงอยู่ไกลถึงเพดานแข็งด้านหน้าหรือถึงลิ้นไก่ด้านหลังเพราะทั้งเสียงเพดานอ่อนและเสียงสระผลิตโดยใช้ตัวลิ้น การแปรผันเหล่านี้ปกติจะถูกแบ่งเป็นเสียงเพดานอ่อนหน้า กลาง และหลังตามบริเวณเสียงสระ เสียงนี้อาจถูกแยกแยะจากเสียงเพดานแข็งได้ยากในทางสัทศาสตร์แต่มันถูกผลิตอยู่หลังบริเวณที่เสียงพยัญชนะเพดานแข็งทั่วไปถูกผลิตเล็กน้อย เสียงพยัญชนะลิ้นไก่ (Uvular consonants) ทำโดยใช้ตัวลิ้นแตะหรือเคลื่อนหาลิ้นไก่ เสียงนี้หายากและถูกประมาณว่ามีแค่ใน 19 เปอร์เซ็นต์ของภาษาทั้งหมด ส่วนภูมิภาคขนาดใหญ่ของทวีปอเมริกาและแอฟริกาไม่มีภาษาที่มีเสียงพยัญชนะลิ้นไก่เลย ในภาษาที่มีเสียงพยัญชนะลิ้นไก่เสียงหยุดมักจะตามด้วยเสียงพยัญชนะต่อเนื่อง (continuant) (รวมไปถึงเสียงพยัญชนะนาสิก)

ช่องคอและกล่องเสียง

เสียงพยัญชนะที่ทำโดยการบีบตัวของช่องคอคือเสียงพยัญชนะช่องคอ (Pharyngeal consonant) และที่ทำโดยการบีบตัวในกล่องเสียงคือเสียงพยัญชนะกล่องเสียง (Laryngeal consonant) เสียงจากกล่องเสียงทำโดยใช้เส้นเสียงเพราะตัวกล่องเสียงอยู่ลึกเกินที่จะใช้ลิ้นได้ แต่เสียงจากช่องคอยังใกล้ปากพอที่ส่วนของลิ้นเคลื่อนถึง

เสียงพยัญชนะโคนลิ้นใช้โคนของลิ้นหรือลิ้นปิดกล่องเสียงเพื่อผลิต และถูกผลิตลึกมากไปในช่องเสียง เสียงพยัญชนะช่องคอทำโดยการร่นถอยโคนลิ้นไปไกลจนเกือบแตะคอหอย เพราะผลิตได้ยากจึงมีเพียงแค่เสียงเสียดแทรกและเสียงเปิดที่ผลิตในที่นี้ได้ เสียงพยัญชนะลิ้นปิดกล่องเสียง (Epiglottal consonant) ทำโดยลิ้นปิดกล่องเสียงและผนังด้านหลังของคอหอย เสียงหยุดลิ้นปิดกล่องเสียงถูกบันทึกในภาษาดาฮาโล เสียงพยัญชนะลิ้นปิดกล่องเสียงก้องเป็นไปไม่ได้เพราะโพรงระหว่างช่องเส้นเสียงและลิ้นปิดกล่องเสียงเล็กเกินกว่าจะทำเสียงก้องได้

เสียงพยัญชนะเส้นเสียง (Glottal consonant) ถูกผลิตโดยใช้เส้นเสียงในกล่องเสียง พยัญชนะเส้นเสียงหลายอันไม่มีวันออกเสียงได้เช่นเสียงหยุดเส้นเสียงก้องเพราะเส้นเสียงเป็นต้นกำเนิดของการเปล่งเสียงพูดและอยู่ข้างล่างช่องเสียงปาก-จมูก มีเสียงพยัญชนะเส้นเสียงสามเสียงที่ทำได้คือเสียงหยุดเส้นเสียงไม่ก้องและเสียงเสียดแทรกเส้นเสียงสองเสียง ทั้งหมดถูกยืนยันว่ามีอยู่ในภาษาธรรมชาติ เสียงหยุดเส้นเสียงซึ่งถูกผลิตโดยการปิดเส้นเสียง พบเจอได้บ่อยในภาษาต่าง ๆ ทั่วโลก ในขณะที่หลาย ๆ ภาษาใช้เสียงนี้เพื่อแบ่งเขตของวลี บางภาษาเช่นมาซาเท็กเวาตลา (Mazatecan Language) ใช้เป็นหน่วยเสียงหน่วยนึง นอกจากนั้นในภาษานี้เสียงหยุดเส้นเสียงที่ตามด้ายสระอาจทำให้สระเกิดเสียงต่ำลึก (Creaky voice) ด้วย เสียงหยุดเส้นเสียงมักจะปิดหรือหยุดไม่สมบูรณ์เมื่ออยู่ระหว่างสระ เสียงหยุดเส้นเสียงที่แท้จริงเกิดขึ้นเมื่อถูกซ้ำเสียง (Gemination) เท่านั้น

กล่องเสียง

กล่องเสียงเป็นโครงสร้างกระดูกอ่อนที่อยู่ในหลอดลมซึ่งมีหน้าที่เปล่งเสียงพูด (phonation) เส้นเสียงขยับเข้าหากันเพื่อสั่นหรือออกห่างจากกันเพื่อไม่ให้สั่น เส้นเสียงเปลี่ยนเป็นตำแหน่งต่าง ๆ ด้วยการเคลื่อนไหวของกระดูกอ่อนอริทีนอยด์ (Arytenoid cartilage) กล้ามเนื้อกล่องเสียงภายใน (intrinsic laryngeal muscles) มีหน้าที่ขยับกระดูกอ่อนอริทีนอยด์และปรับความตึงของเส้นเสียง ถ้าเส้นเสียงปิดไม่แคบหรือดึงไม่ตึงพอก็จะสั่นแบบไม่สม่ำเสมอหรือไม่สั่นเลย ถ้าสั่นแบบไม่สม่ำเสมอก็อาจให้เสียงต่ำลึกหรือเสียงลมแทรก (breathy voice) ขึ้นอยู่กับว่าสั่นระดับไหน และหากไม่สั่นเลยก็จะเป็นเสียงไม่ก้อง (voicelessness)

นอกจากการจัดตำแหน่งเส้นเสียงให้ถูกต้องแล้ว ลมจะต้องไหลผ่านไม่อย่างนั้นก็จะไม่สั่น ความแตกต่างของความดันตลอดช่องเส้นเสียงที่ต้องมีเพื่อออกเสียงถูกประมาณอยู่ระหว่างความดัน 1 ถึง 2 เซนติเมตรน้ำ (98.0665 ถึง 196.133 ปาสกาล) ความแตกต่างของความดันสามารถต่ำกว่าระดับที่จำเป้นต่อการเปล่งเสียงได้อาจเพราะมีความดันเพิ่มขึ้นเหนือช่องเส้นเสียง (ความดันเหนือช่องเส้นเสียง) หรือความดันลดลงใต้ช่องเส้นเสียง (ความดันใต้ช่องเส้นเสียง) ความดันใต้ช่องเส้นเสียงถูกรักษาโดยกล้ามเนื้อระบบหายใจ (respiratory muscles) ความดันเหนือช่องเส้นเสียงเท่ากับความดันบรรยากาศหากเส้นเสียงไม่มีการบีบตัวหรือการออกเสียง แต่เพราะการออกเสียงคือการบีบตัวกักการไหลของอากาศโดยเฉพาะเสียงพยัญชนะ ความดันในโพรงข้างหลังการบีบตัวอาจเพิ่มสูงขึ้นได้ทำให้ความดันเหนือช่องเส้นเสียงสูงขึ้นด้วย

การเข้าถึงศัพทานุกรม

จากตัวแบบการเข้าถึงศัพทานุกรม มีระยะของการรู้คิดอยู่สองระยะ จึงเรียกว่าทฤษฎีการเข้าถึงศัพทานุกรมสองระยะ ระยะแรกกระบวนการเลือกศัพท์ (lexical selection) จะให้ข้อมูลเกี่ยวกับรายการศัพท์ (lexical item) ที่จำเป็นเพื่อสร้างตัวแทนระดับหน้าที่ (functional level representation) รายการเหล่านี้ถูกค้นคืนตามคุณสมบัติทางความหมายและวากยสัมพันธ์แต่รูปทางเสียงยังไม่มีในระยะนี้ ระยะที่สองการค้นรูปคำคืน (retrieval of wordforms) ให้ข้อมูลที่จำเป็นต่อการสร้างตัวแทนระดับตำแหน่ง (positional level representation)

ตัวแบบการออกเสียง

เวลาพูด ฐานกรณ์จะขยับผ่านหรือแตะตำแหน่งหนี่งในปากทำให้สัญญาณเสียงเปลี่ยนไป ตัวแบบการผลิตเสียงพูดบางแบบใช้สิ่งนี้เป็นฐานสำรับการจำลองการออกเสียงเป็นระบบพิกัดที่อาจเป็นแบบภายใน (intrinsic) หรือภายนอก (extrinsic) ระบบพิกัดแบบภายในจำลองการเคลื่อนไหวของฐานกรณ์เป็นตำแหน่งและมุมของข้อต่อต่าง ๆ ในร่างกาย ตัวแบบพิกัดแบบภายในของขากรรไกรมักใช้องศาเสรี (degree of freedom) สองถึงสามองศาซึ่งแทนการเคลื่อนและการหมุน การจำลองแบบนี้จะมีปัญหากับลิ้นซึ่งเป็นอุทกสถิตกล้ามเนื้อ (muscular hydrostat) เหมือนงวงช้าง ไม่มีข้อต่อแบบขากรรไกรหรือแขน เพราะมีโครงสร้างสรีระที่ต่างกัน เส้นทางการเคลื่อนไหวของขากรรไกรจึงเป็นเส้นตรงขณะพูดและเคี้ยว ในขณะที่การเคลื่อนไหวของลิ้นจะเป็นเส้นโค้งไปมา

การเคลื่อนที่เป็นเส้นตรงถูกใช้เพื่ออ้างว่าการออกเสียงถูกวางแผนบนพื้นที่ว่างภายนอกมากกว่าภายใน แต่ระบบพิกัดแบบภายนอกจะรวมถึงพื้นที่ว่างพิกัดทางเสียงด้วยไม่ใช่แค่พื้นที่พิกัดทางกายภาพ ตัวแบบที่สมมุติว่าการเคลื่อนไหวถูกวางแผนในพื้นที่ว่างภายนอกจะเจอปัญหาผกผัน (inverse problem) ในการอธิบายตำแหน่งของกล้ามเนื้อและข้อต่อที่ผลิตเส้นทางหรือสัญญาณเสียงอันหนึ่ง ตัวอย่างเช่นแขนมีองศาเสรีเจ็ดองศาและกล้ามเนื้อ 22 มัด การผสมผสานระหว่างการปรับตำแหน่งของข้อต่อและกล้ามเนื้อที่ต่างกันสามารถนำไปสู่ตำแหน่งสุดท้ายตำแหน่งเดียวกันได้ ปัญหาการวางแผนผังจากหนึ่งไปมากก็มีอยู่สำหรับตัวแบบการวางแผนในพื้นที่ทางเสียงภายนอก โดยไม่มีการวางแผนผังที่เป็นเอกลักษณ์จากเป้าหมายทางเสียงหรือกายภาพที่ต้องการอันหนึ่งกับการเคลื่อนไหวของกล้ามเนื้อที่ต้องขยับ แต่ทว่าความกังวลเรื่องปัญหาผกผันอาจถูกพูดให้เกินจริงไปมาก ในเมื่อการพูดเป็นทักษะที่เรียนรู้โดยใช้โครงสร้างทางประสาทที่วิวัฒนาการมาเพื่อการนี้โดยเฉพาะ

ตัวแบบจุดสมดุล (equilibrium-point model) นำเสนอมติต่อปัญหาผกผันโดยอ้างให้เป้าหมายของการเคลื่อนไหวถูกแทนเป็นตำแหน่งของคู่กล้ามเนื้อที่กระทำบนข้อต่อ กล้ามเนื้อถูกจำลองเป็นสปริงและเป้าหมายเป็นจุดสมดุลของระบบของมวลกับสปริง เพราะว่าใช้สปริง ตัวแบบจุดสมดุลสามารถแก้เพื่อชดเชยหรือตอบสนองต่อการก่อกวนการเคลื่อนไหวได้ ตัวแบบนี้นับเป็นตัวแบบพิกัดเพราะมันสมมุติแทนตำแหน่งกล้ามเนื้อเหล่านี้เป็นจุดในปริภูมิ หรือจุดสมดุล ที่ซึ่งกิริยาคล้ายสปริงของกล้ามเนื้อมาบรรจบกัน

วิธีการทางท่าทางต่อการผลิตเสียงพูด (speech production) นำเสนอให้การออกเสียงถูกแทนเป็นแบบแผนการเคลื่อนไหวแทนพิกัดเป้าหมายพิกัดหนึ่ง หน่วยที่เล็กที่สุดคือท่าทางที่แทนกลุ่มของ "แบบแผนการเคลื่อนไหวทางสรีระที่สมมูลกันเชิงหน้าที่ที่ถูกควบคุมโดยอ้างอิงจุดหมายที่เกี่ยวข้องกับการพูดจุดหนึ่ง (เช่น การปิดริมฝีปากคู่)" กลุ่มเหล่านี้แทนโครงสร้างทางพิกัดหรือ "synergies" ซึ่งมองการเคลื่อนไหวเป็นการรวมกลุ่มของกล้ามเนื้อที่ทำงานด้วยกันเป็นหน่วยเดียวโดยพึ่งพาภารกิจแทนการเคลื่อนไหวของกล้ามเนื้อที่เป็นปัจเจก นี่ลดองศาเสรีในการวางแผนการออกเสียงซึ่งเป็นปัญหาโดยเฉพาะในตัวแบบพิกัดแบบภายในซึ่งอนุญาตการเคลื่อนไหวใด ๆ ที่สำเร็จจุดมุ่งหมายการพูด แทนที่จะเข้ารหัสการเคลื่อนไหวอันหนึ่งให้เป็นตัวแทนนามธรรม การออกเสียงผสมถูกอธิบายเป็นอย่างดีด้วยตัวแบบทางท่าทาง เพราะการออกเสียงในอัตราที่สูงกว่าสามารถอธิบายเป็นการประกอบกันของท่าทางที่อิสระจากกันในการพูดด้วยอัตราที่ช้ากว่า

สวนศาสตร์

เสียงพูดถูกผลิตโดยการดัดแปลงกระแสลมโดยฐานกรณ์ทำให้เกิดคลื่นเสียง ฐานกรณ์ที่อยู่ในตำแหน่งและลักษณะต่าง ๆ ทำให้เกิดเสียงที่ต่างกัน นอกจากตำแหน่งของลิ้นแล้วรูปร่างของช่องเสียงก็ส่งผลต่อเสียงที่เปล่งออกมาเช่นเดียวกัน ลักษณะเกิดเสียง (manner of articulation) จึงเป็นสื่งสำคัญในการพรรณนาเสียงพูด คำว่า ทาก และ ซาก ขึ้นต้นด้วยเสียงปุ่มเหงือกทั้งสองคำ แต่ทั้งสองเสียงต่างกันที่ระยะทางระหว่างลิ้นและแนวปุ่มเหงือก ความแตกต่างนี้มีผลมากต่อกระแสลม เสียงที่ถูกผลิตจึงแตกต่างไปด้วย กลไกกระแสลมที่พบได้ทั่วไปที่สุดคือกลไกกระแสลมจากปอด (pulmonic) แต่ช่องเส้นเสียง (glottis) และลิ้นก็สามารถใช้ผลิตกระแสลมเช่นกัน

ความก้องและลักษณะเสียงพูด

ความแตกต่างสำคัญระหว่างเสียงพูดต่าง ๆ คือว่าเสียงนั้นก้อง (voiced) หรือไม่ก้อง เสียงหนึ่งจะก้องเมื่อเส้นเสียงเริ่มสั่นในกระบวนการเปล่งเสียงพูด (phonation) เสียงหลายเสียงสามารถผลิตได้ด้วยทั้งการเปล่งเสียงหรือไม่เปล่งเสียง แต่บางครั้งข้อจำกัดทางกายภาพของการออกเสียงอันหนึ่งทำให้เป็นไปไม่ได้ เมื่อออกเสียงก้องแหล่งกำเนิดหลักของเสียงคือการสั่นของเส้นเสียง การออกเสียงไม่ก้องเช่นเสียงหยุดไม่ก้องไม่มีแหล่งกำเนิดเสียงจึงมีเสียงเงียบ ส่วนเสียงไม่ก้องแบบเสียดแทรกมีแหล่งกำเนิดเสียงของตัวเองโดยไม่ต้องเปล่งเสียง

การเปล่งเสียงถูกควบคุมโดยกล้ามเนื้อของกล่องเสียง ความก้องในภาษามีรายละเอียดเยอะกว่าแค่เป็นทวิภาค เวลาเปล่งเสียงเส้นเสียงจะสั่นในอัตราหนึ่ง การสั่นนี้ทำให้เกิดรูปคลื่นเสียงซ้ำคาบที่ประกอบไปด้วยความถี่มูลฐานและฮาร์มอนิก ความถี่มูลฐานของคลื่นเสียงสามารถถูกควบคุมด้วยการปรับกล้ามเนื้อของกล่องเสียงและผู้ฟังจะรับรู้ความถี่มูลฐานนี้เป็นระดับเสียง ภาษาปรับระดับเสียงเพื่อถ่ายทอดข้อมูลความหมายในภาษาที่มีวรรณยุกต์และหลายภาษาใช้ระดับเสียงเพื่อตราข้อมูลทางสัทสัมพันธ์ (prosodic) หรือทางปฏิบัติ (pragmatic)

เส้นเสียงจะต้องอยู่ในตำแหน่งที่ถูกต้องและต้องมีลมไหลผ่านช่องเส้นเสียงเพื่อสั่น ลักษณะเสียงพูดถูกจำลองด้วยภาวะต่อเนื่อง (continuum) ของช่องเส้นเสียงจากเปิดสุด (ไม่ก้อง) จนถึงปิดสุด (เสียงหยุดเส้นเสียง) ตำแหน่งที่เหมาะสมสำหรับการสั่นและเสียงปกติ (modal voice) ที่เป็นลักษณะเสียงที่ใช้พูดบ่อยที่สุดอยู่ตรงกลางระหว่างทั้งสองแบบ ถ้าช่องเส้นเสียงกว้างกว่าเดิมเล็กน้อยก็จะเกิดเสียงลมแทรก (breathy voice) และถ้าช่องเส้นเสียงแคบลงก็จะเกิดเสียงต่ำลึก (creaky voice)

รูปแบบการเปล่งเสียงปกติที่ใช้พูดโดยทั่วไปคือเสียงปกติ เป็นเสียงที่ถูกผลิตเมื่อเส้นเสียงอยู่ใกล้กันและมีความตึงปานกลาง เส้นเสียงสั่นเป็นหน่วยเดียวกันอย่างซ้ำคาบและมีประสิทธิภาพโดยไม่มีการพ่นลม (aspiration) และช่องเส้นเสียงปิดสนิท ถ้าเส้นเสียงถูกดึงห่างจากกันก็จะไม่สั่นและผลิตเสียงไม่ก้อง และถ้าเส้นเสียงชิดกันแน่นก็จะผลิตเสียงหยุดเส้นเสียง

หากเส้นเสียงอยู่ห่างกันกว่าที่เป็นในเสียงปกติเล็กน้อยก็จะผลิตลักษณะเสียงพูดที่เรียกว่าเสียงลมแทรกหรือเสียงกระซิบ (whispery voice) ความตึงของเส้นเสียงน้อยกว่าในเสียงปกติทำให้อากาศสามารถไหลได้อิสระกว่าเดิม ทั้งเสียงลมแทรกและเสียงกระซิบอยู่เป็นภาวะต่อเนื่องของรูปคลื่นตั้งแต่รูปคลื่นของเสียงลมแทรกที่ซ้ำคาบกว่าจนถึงรูปคลื่นของเสียงกระซิบที่มีการรบกวนเยอะกว่า ในทางสวนศาสตร์ทั้งสองเสียงยับยั้งความถี่สั่นพ้องแรก โดยเฉพาะเสียงกระซิบซึ่งมีการเบี่ยงเบนที่สุดขีดกว่า

เมื่อเส้นเสียงอยู่ใกล้กันก็จะเกิดเสียงต่ำลึก ความตึงของเส้นเสียงน้อยกว่าในเสียงปกติและถูกดึงใกล้กันแน่นทำให้มีเอ็นเสีนเสียงเอ็นเดียวที่สั่น พัลส์ไม่สม่ำเสมอและมีระดับเสียงกับแอมพลิจูดความถี่ที่ตำ

บางภาษาไม่แยกแยะพยัญชนะระหว่างก้องและไม่ก้อง แต่ทุกภาษาใช้ความก้องในระดับหนึ่ง เช่นไม่มีภาษาไหนที่เปรียบต่างความก้องของเสียงสระทางหน่วยเสียง และเสียงสระทุกเสียงที่รู้จักถูกยอมรับโดยทั่วไปว่าออกเสียงแบบปกติ ตำแหน่งอื่น ๆ ในช่องเส้นเสียงเช่นลมแทรกและต่ำลึกถูกใช้ในภาษาอื่น ๆ หลายภาษาเช่นภาษามาซาเท็กฆาลาปา (Jalapa Mazatec) เพื่อเปรียบต่างหน่วยเสียง ในขณะที่เสียงทั้งสองแบบนี้เป็นหน่วยเสียงย่อยในภาษาอื่นเช่นภาษาอังกฤษ

มีหลายวิธีเพื่อตัดสินว่าส่วนส่วนหนึ่งก้องหรือไม่ วิธีที่ง่ายที่สุดคือการเอามือแตะบริเวณกล่องเสียงระหว่างพูดและสังเกตการสั่น วิธีการวัดที่แม่นยำกว่าใช้การวิเคราะห์ทางเสียงของสเปกโตรแกรมหรือชิ้นสเปกตรัม ในการวิเคราะห์สเปกโตรแกรมส่วนที่ก้องจะแสดงแถบความก้องหรือพื้นที่ที่มีพลังงานทางเสียงสูงในช่วงความถี่ต่ำของส่วนที่ก้อง ในการตรวจสอบชิ้นสเปกตรัมหรือสเปกตรัมเสียง ณ จุดเวลาจุดหนึ่ง ตัวแบบของเสียงสระที่ออกเสียงมากลับการกรองของปากทำให้ได้สเปกตรัมของช่องเส้นเสียง ตัวแบบเชิงคำนวณของสัญญาณจากช่องเส้นเสียงที่ยังไม่ถูกกรองจึงถูกนำไปสอดกับสัญญาณเสียงที่ถูกกรองย้อนกลับเพื่อพิจารณาคุณลักษณะของช่องเส้นเสียง การวิเคราะห์ทางสายตาก็สามารถทำได้ด้วยการใช้เครื่องมือแพทย์พิเศษเช่นอัลตราซาวด์และการส่องกล้อง

สระ

สระถูกจัดกลุ่มกว้าง ๆ จากพื้นที่ในปากที่สระนั้นถูกผลิต แต่เพราะสระถูกผลิตโดยไม่มีการบีบตัวของช่องเสียง การพรรณนาอย่างแม่นยำจำเป็นต้องใช้การวัดสหสัมพันธ์ (correlation) ระหว่างเสียงกับตำแหน่งของลิ้น ตำแหน่งของลิ้นระหว่างการผลิตเสียงสระเปลี่ยนความถี่ที่สะท้อนในโพรงปากและเสียงสะท้อนนี้เรียกว่ากลุ่มความถี่สั่นพ้อง (formant) ซึ่งถูกวัดและถูกใช้เพื่อบ่งลักษณะของสระเสียงหนึ่ง

ความสูงของสระโดยดั้งเดิมแล้วหมายถึงจุดสูงสุดของลิ้นระหว่างการออกเสียง ความสูงสามารถแบ่งเป็นสี่ระดับพื้นฐาน: ระดับสูง (close) กลางสูง (close-mid) กลางต่ำ (open-mid) และระดับต่ำ (open) สระที่ความสูงอยู่ตรงกลางจะเรียกว่าสระระดับกลาง (mid) สระสูงที่ต่ำลงเล็กน้อยและสระต่ำที่สูงขึ้นเล็กน้อยเรียกว่าสระเฉียดสูง (near-close) และเฉียดต่ำ (near-open) ตามลำดับ สระที่ต่ำที่สุดไม่ได้ใช้แค่ลิ้นที่ต่ำแต่ใช้ขากรรไกรที่ต่ำด้วย

แม้ IPA จะแสดงว่าสระมีระดับความสูงเจ็ดระดับ แต่ยากมากที่ภาษาใดจะเปรียบต่างทั้งเจ็ดระดับ ชอมสกีและ ฮัลเล (Morris Halle) เสนอว่ามีแค่สามระดับ แต่ว่าต้องใช้สี่ระดับเพื่อพรรณนาสระในภาษาเดนมาร์กและเป็นไปได้ที่บางภาษาจำเป็นจะต้องใช้ห้าระดับ

ความหลังของสระแบ่งได้เป็นสามระดับ: หน้า (front) กลาง (central) และหลัง (back) ภาษาต่าง ๆ มักไม่เปรียบต่างเกินไปกว่าสองระดับ บางภาษาถูกอ้างว่ามีความหลังสามระดับรวมไปถึงภาษานิมโบรัน (Nimboran language) และภาษานอร์เวย์

ในภาษาส่วนใหญ่ริมฝีปากสามารถแบ่งเป็นห่อ (rounded) และไม่ห่อ (unrounded) แต่ริมฝีปากรูปแบบอื่น ๆ เช่นการห่อเข้า (compression) และห่อออก (protrusion) ก็มี รูปแบบริมฝีปากเทียบสัมพันธ์กับความสูงและความหลัง: สระหน้าและสระต่ำมักจะไม่ห่อปากในทางตรงกันข้ามสระหลังและสูงมักจะห่อปาก สระที่คู่กันบนแผนผัง IPA ด้านซ้ายคือสระปากไม่ห่อและด้านขวาคือสระปากห่อ

สระในบางภาษามีลักษณะเฉพาะเพิ่มเติมเช่นเสียงสระนาสิก (nasal vowel) ความยาวเสียงสระ (vowel length) และลักษณะเสียงพูดต่าง ๆ เช่นเสียงสระไม่ก้อง (voiceless vowel) หรือเสียงต่ำลึก บางครั้งลิ้นต้องอยู่ในท่าทางพิเศษเช่นเสียงสระม้วนลิ้น (rhotic vowel) โคนลิ้นเคลื่อนหน้าและหดกลับ (advanced and retracted tongue root) เสียงสระแข็งกร้าว (strident vowel) และความเสียดแทรก (frication) เพื่อที่จะใช้พรรณนาเสียงสระบางเสียง

ลักษณะเกิดเสียง

แค่ตำแหน่งเกิดเสียงไม่พอที่จะพรรณนาเสียงพยัญชนะ วิธีการบีบบังคับ (stricture) ก็สำคัญพอ ๆ กัน ลักษณะเกิดเสียง (อังกฤษ: Manners of articulation) อธิบายวิธีที่กรณ์ (active articulator) ดัดแปลง บีบแคบ หรือปิดช่องเสียง

เสียงพยัญชนะหยุดคือเสียงพยัญชนะที่กระแสลมถูกขวางมิด ความดันเพิ่มขึ้นในปากขณะที่บีบบังคับและถูกปล่อยออกมาเป็นการระเบิดเสียงสั้น ๆ หลังจากเมื่อกรณ์ขยับแยกออกมา เพดานอ่อนยกตัวขึ้นเพื่อไม่ให้มีอากาศไหลผ่านจมูก ถ้าเพดานอ่อนลดตัวลงและปล่อยอากาศไหลผ่านโพรงจมูกก็จะเกิดเสียงพยัญชนะหยุดนาสิก แต่นักสัทศาสตร์จเรียกเสียงพยัญชนะหยุดนาสิก (nasal stop) ว่า "nasal" หรือเสียงนาสิกเกือบตลอด เสียงพยัญชนะกักเสียดแทรก (Affricate consonant) เป็นการออกเสียงหยุดตามด้วยเสียงเสียดแทรกในตำแหน่งเดียวกัน

เสียงพยัญชนะเสียดแทรก (Fricative consonant) เป็นเสียงพยัญชนะที่กระแสลมถูกทำให้ปั่นป่วนด้วยการขวางช่องเสียงบางส่วน เสียงพยัญชนะอุสุม (Sibilant) เป็นเสียงเสียดแทรกชนิดพิเศษที่กระแสลมถูกเบี่ยงตรงเข้าหาฟันทำให้เกิดเสียงฟ่อแหลมสูง

เสียงพยัญชนะนาสิก (บางครั้งก็เรียกว่าเสียงหยุดนาสิก) เป็นเสียงพยัญชนะที่ช่องปากปิดและเพดานอ่อนลดตัวลงทำให้ลมไหลผ่านจมูก

เสียงพยัญชนะเปิด (Approximant consonant) เป็นเสียงพยัญชนะที่เกิดเมื่อฐานกรณ์ขยับเข้าหากันแต่ไม่ใกล้กันจนเกินกระแสลมปั่นป่วน

เสียงพยัญชนะข้างลิ้น (Lateral consonant) เป็นเสียงพยัญชนะที่กระแสลมถูกขวางตามแนวตรงกลางของช่องเสียงทำให้กระแสลมไหลไปด้านข้างข้างเดียวหรือทั้งสองข้าง เสียงข้างลิ้นยังถูกนิยามเป็นพยัญชนะที่ลิ้นหดตัวทำให้กระแสลมด้านข้างแรงกว่าตรงกลางของลิ้น นิยามแรกไม่ให้ลมไหลข้ามบนลิ้น

เสียงพยัญชนะรัว (Trill consonant) เป็นเสียงพยัญชนะที่ลิ้นหรือริมฝีปากถูกทำให้เคลื่อนไหวด้วยกระแสลม เกิดจากการบีบบังคับกระแสลมให้ฐานกรณ์อ่อน (soft articulator) ขยับปิดเปิดซ้ำไปเรื่อย ๆ เสียงรัวปลายสุดลิ้นปกติเกิดจากการสั่นสองสามคาบ

เสียงพยัญชนะลิ้นกระทบและสะบัด (tap and flap consonant) เป็นเสียงพยัณชนะที่เกิดจากปลายสุดลิ้นกระทบกับเพดานปากครั้งเดียวอย่างรวดเร็ว เทียบได้กับเสียงหยุดที่รวดเร็วมาก ทั้ง "กระทบ" (tap) หรือ "สะบัด" (flap) ใช้แทนกันได้แต่นักสัทศาสตร์บางคนถือว่าเป็นเสียงที่ต่างกัน เสียงลิ้นกระทบเกิดจากลิ้นที่กระทบกับเพดานด้วยการเคลื่อนไหวครั้งเดียว ในขณะที่เสียงลิ้นสะบัดเกิดจากลิ้นที่เคลื่อนที่ในแนวสัมผัสกับเพดานปากและกระทบเมื่อเคลื่อนผ่าน

ระหว่างกลไกกระแสลมช่องเส้นเสียง (airstream mechanism) ช่องเส้นเสียงจะปิดและกักอากาศไว้ ทำให้อากาศที่เหลือในช่องเสียงสามารถเคลื่อนที่เป็นอิสระกันได้ เมื่อช่องเส้นเสียงปิดเคลื่อนที่ขึ้นอากาศนี้ก็จะออกไปทำให้เกิดเสียงพยัญชนะกักเส้นเสียงลมออก (ejective consonant) ในทางกลับกันเมื่อช่องเส้นเสียงเคลื่อนที่ลงอากาศจะถูกดูดเข้ามาเพิ่มทำให้เกิดเสียงพยัญชนะกักเส้นเสียงลมเข้า (implosive consonant)

เสียงพยัญชนะเดาะ (Click consonant) เป็นเสียงหยุดที่อากาศถูกดุดเข้าปากด้วยการเคลื่อนที่ของลิ้น นี่เรียกว่ากระแสลมจากลิ้น ระหว่างที่เดาะลิ้นอากาศในช่องที่ถูกปิดทั้งสองทางจะยืดขยาย (rarefaction) และเกิดเสียง 'เดาะ' เสียงดังเมื่อที่ปิดด้านหน้า (anterior) ถูกเปิด การเปิดที่ปิดด้านหน้าเรียกว่าการไหลเข้าเสียงเดาะ (click influx) การเปิดที่ปิดด้านหลัง (posterior) ซึ่งอาจเป็นทั้งที่เพดานอ่อนหรือลิ้นไก่จะเรียกว่าการไหลออกเสียงเดาะ (click efflux) เสียงเดาะมีใช้ในตระกูลภาษาแอฟริกันหลายตระกูลเช่นตระกูลภาษาคอยซัน (Khoisan languages) และตระกูลภาษาบันตู (Bantu languages)

ระบบปอดและระบบใต้ช่องเส้นเสียง

ปอดผลิตเสียงพูดส่วนใหญ่ด้วยการสร้างความดันสำหรับเสียงจากปอด ชนิดของเสียงที่พบเจอบ่อยที่สุดในภาษาต่าง ๆ คือเสียงลมออกจากปอด (pulmonic egress) ในทางกลับกันก็มีเสียงลมเข้าปอด แต่ไม่มีภาษาใดในโลกที่ใช้เสียงลมเข้าปอดเป็นหน่วยเสียง หลายภาษาเช่นภาษาสวีเดนใช้เสียงลมเข้าปอดสำหรับการออกเสียงปรลักษณ์ภาษา (paralanguage) เช่นการยืนยัน (affirmation) ในภาษาหลายภาษาที่หลากหลายทางภูมิศาสตร์และพันธุกรรม ทั้งเสียงลมออกและลมเข้าพึ่งพาการจับเส้นเสียงให้อยู่ในท่าท่าหนึ่งและใช้ปอดนำอากาศผ่านเส้นเสียงทำให้สั่น (ก้อง) หรือไม่สั่น (ไม่ก้อง) การออกเสียงจากปอดถูกจำกัดด้วยปริมาตรของอากาศที่สามารถหายใจออกได้ในหนึ่งรอบการหายใจ เรียกว่าความจุปอดปกติ (vital capacity)

ปอดถูกใช้รักษาความดันสองประเภทพร้อม ๆ กันเพื่อผลิตและดัดแปลงการเปล่งเสียง เพื่อเปล่งเสียงปอดจะต้องรักษาความดัน 3-5 เซนติเมตรน้ำมากกว่าความดันเหนือช่องเส้นเสียง นอกจากนั้นสามารถปรับเปลี่ยนความดันใต้ช่องเส้นเสียงได้เล็กน้อยอย่างเร็ว ๆ เพื่อดัดแปลงเสียงพูดให้ได้คุณลักษณะเสียงไม่อิสระ (suprasegmental) เช่นการเน้น (stress) เสียงถูกปรับเปลี่ยนโดยกล้ามเนื้อทรวงอกจำนวนหนึ่ง เนื่องเพราะปอดและทรวงอกขยายออกเมื่อหายใจเข้า แค่แรงยืดหยุ่นของปอดที่ปริมาตรเกินครึ่งของความจุปอดปกติก็พอที่จะผลิตความแตกต่างของความดันที่สามารถใช้เปล่งเสียงได้ เมื่อปริมาตรเกินครึ่งของความจุปอดปกติกล้ามเนื้อหายใจ (muscles of respiration) ถูกใช้ตรวจแรงยืดหยุ่นในทรวงอกเพื่อรักษาความแตกต่างของความดันที่คงที่ หากปริมาตรน้อยกว่านั้นกล้ามเนื้อหายใจก็จะถูกใช้เพื่อเพิ่มความดันใต้ช่องเส้นเสียงด้วยการหายใจออก

ระหว่างพูดวงจรการหายใจถูกดัดแปลงให้เข้ากับความต้องการทางภาษาและชีวภาพ การหายใจออกที่ปกติกินวงจรไปประมาณ 60 เปอร์เซ็นต์ก็เพิ่มขึ้นกลายเป็น 90 เปอร์เซ็นต์ เพราะความต้องการทางเมแทบอลิซึมยังคงที่ ในกรณีส่วนใหญ่ปริมาตรอากาศทั้งหมดที่เคลื่อนเข้าคงอยู่เท่ากับการหายใจปกติแบบเงียบ ๆ การพูดดังขึ้น 18 เดซิเบล (การสนทนาเสียงดัง) มีผลน้อยต่อปริมาตรของอากาศที่เคลื่อนที่ เด็กมีแนวโน้มที่จะใช้สัดส่วนของความจุปอดปกติมากกว่าผู้ใหญ่และหายใจเข้าลึกกว่าเพราะระบบหายใจยังไม่พัฒนาเท่าผู้ใหญ่

ทฤษฎีแหล่ง-ตัวกรอง

ตัวแบบแหล่ง-ตัวกรอง (อังกฤษ: source-filter model) ของการพูดเป็นทฤษฎีเสียงพูดที่อธิบายความเกี่ยวข้องระหว่างรูปร่างของช่องเสียงและเสียงที่เปล่งออกมา ในตัวแบบนี้ช่องเสียงสามารถจำลองเป็นแหล่งกำเนิดของเสียงที่คู่กับตัวกรองเสียง (acoustic filter) ในหลายกรณีแหล่งกำเนิดเสียงคือกล่องเสียงระหว่างการออกเสียงก้อง แต่แหล่งอื่นก็สามารถจำลองในทางเดียวกันได้ รูปร่างของช่องเสียงเหนือช่องเส้นเสียงปฏิบัติตัวเป็นตัวกรอง และการจัดเรียงรูปแบบต่าง ๆ ของฐานกรณ์ทำให้เกิดเสียงรูปแบบต่าง ๆ การเปลี่ยนแปลงเป็นอะไรที่ทำนายได้ ช่องเสียงสามารถจำลองเป็นลำดับท่อที่ปิดที่ปลายหนึ่งและมีเส้นผ่านศูนย์กลางที่ต่างกัน และก็สามารถอนุพัทธ์รูปร่างสรีระสำหรับผลทางเสียงต่าง ๆ ได้ด้วยสมการของการสั่นพ้องของเสียง (acoustic resonance) กระบวนการย้อนกลับการกรองใช้หลักการนี้เพื่อวิเคราะห์สเปกตรัมของแหล่งที่ผลิตโดยเส้นเสียงระหว่างการออกเสียงก้อง ผลทางเสียงของช่องเสียงสามารถถูกทำกลับด้วยการย้อนกลับด้วยตัวกรองตามที่คาดไว้ และจะได้สเปกตรัมเสียงที่ถุกผลิตโดยเส้นเสียง นี่ทำให้สามารถศึกษาลักษณะเสียงพูดต่าง ๆ ในเชิงปริมาณได้

การรับรู้

การรับรู้ภาษา (language perception) เป็นกระบวนการทำความเข้าใจและถอดรหัสสัญญาณทางภาษา สัญญาณเสียงที่ต่อเนื่องจะต้องเปลี่ยนเป็นหน่วยวิยุต (discrete) ทางภาษาเช่นหน่วยเสียง หน่วยคำ และคำเพื่อรับรู้เสียงพูด ผู้ฟังจะให้ความสำคัญต่อแง่มุมหนึ่งของสัญญาณที่สามารถใช้แยกออกเป็นกลุ่มได้อย่างน่าเชื่อถือเพื่อระบุและจัดกลุ่มเสียงได้ถูกต้อง แม่สิ่งบ่งชี้อันหนึ่งจะได้รับความสำคัญมากกว่าอันอื่นแต่แง่มุมอื่น ๆ ก็สามารถมีส่วนต่อการรับรู้ ตัวอย่างเช่น แม้ภาษาพูดจะให้ความสำคัญต่อข้อมูลเสียง ปรากฏการณ์แม็คเกอร์กแสดงให้เห็นว่าข้อมูลทางสายตาก็ถูกใช้เพื่อแยกแยะข้อมูลที่กำกวมเมื่อสิ่งบ่งชี้ทางเสียงไม่น่าเชื่อถือ

ถึงผู้ฟังสามารถใช้ข้อมูลที่หลากหลายเพื่อแบ่งส่วนสัญญาณเสียงพูด แต่ความสัมพันธ์ระหว่างสัญญาณเสียงและการรับรู้หมวดหมู่ไม่ใช่การแปลงที่สมบูรณ์ ยังมีความผันแปรทางเสียงในหมวดหมู่หนึ่งในระดับที่สูงเพราะการออกเสียงผสม สภาพแวดล้อมที่เสียงรบกวน และความแตกต่างของแต่ละบุคคล นี่เป็นปัญหาที่เรียกว่า ความไม่ผันแปรของการรับรู้ (perceptual invariance) ผู้ฟังสามารถรับรู้หมวดหมู่ต่าง ๆ อย่างน่าเชื่อถือแม้มีความผันแปรในสัญญาณเสียง ผู้ฟังสามารถทำแบบนี้ได้เพราะปรับเข้ากับผู้พูดใหม่อย่างรวดเร็วและขยับขอบเขตของแต่ละหมวดหมู่เพื่อให้ตรงกับความแตกต่างของเสียงที่คู่สนทนาพูดออกมา

การได้ยิน

เสียงเดินทางจากแหล่งกำเนิดไปสมองอย่างไร

การได้ยินเสียง (อังกฤษ: Audition) เป็นระยะแรกของการรับรู้เสียงพูด ฐานกรณ์เปลี่ยนความดันอากาศอย่างเป็นระบบเป็นคลื่นเสียงที่เดินทางไปถึงหูผู้ฟัง คลื่นเสียงชนกับแก้วหู (eardrum) ของผู้ฟังทำให้มันสั่น กระดูกหูส่งการสั่นของแก้วหูไปที่หูชั้นในรูปหอยโข่งหรือคอเคลีย คอเคลียรูปทรงเป็นวงท่อที่เต็มไปด้วยของเหลวซึ่งถูกแบ่งตามแนวยาวโดยอวัยวะของคอร์ติที่มีเยื่อกั้นหูชั้นใน เยื่อกั้นหูชั้นในหนาขึ้นเรื่อยเมื่อยิ่งเข้าไปในคอเคลียทำให้แต่ละตำแหน่งมีความถี่สั่นพ้องที่ต่างกัน รูปแบบโทโนโทปิคนี้ทำให้หูสามารถวิเคราะห์เสียงในลักษณะที่คล้ายกับการแปลงฟูรีเย

ความแตกต่างของการสั่นของเยื่อกั้นหูชั้นในทำให้เซลล์ขนภายในอวัยวะของคอร์ติเคลื่อนไหว และนี่ทำให้เซลล์ขนลดขั้วและในที่สุดก็แปลงสัญญาณเสียงเป็นกระแสประสาท เซลล์ขนเองไม่ได้ผลิตศักยะงาน แต่ปล่อยสารสื่อประสาทที่จุดประสานประสาทกับโสตประสาทซึ่งผลิตศักยะงาน ด้วยวิธีนี้รูปแบบการสั่นบนเยื่อกั้นหูชั้นในถูกแปลงเป็นรูปแบบปริภูมิกาล (spatiotemporal pattern) ของการยิงกระแสประสาทที่ส่งข้อมูลเกี่ยวกับเสียงเข้าก้านสมอง

สัทสัมพันธ์

นอกจากสระและพยัญชนะแล้ว สัทศาสตร์ยังพรรณนาถึงคุณสมบัติของเสียงพูดนอกเหนือจากส่วน (segment (linguistics)) เฉพาะส่วนและหน่วยของเสียงพูดที่ใหญ่กว่าเช่นพยางค์และวลี สัทสัมพันธ์รวมไปถึงโสตสัทศาสตร์ (auditory phonetics) เช่นระดับเสียง ความยาวเสียง (duration (music)) และความดัง (loudness) ภาษาต่าง ๆ ใช้คุณสมบัติเหล่านี้ในระดับต่าง ๆ สำหรับการเน้นเสียง (stress (linguistics)) การเน้นระดับเสียง (pitch accent (intonation)) และทำนองเสียง (intonation (linguistics) ตัวอย่างเช่นการเน้นเสียงในภาษาอังกฤษ (stress and vowel reduction in English) และภาษาสเปน (stress in Spanish) สัมพันธ์กับความเปลี่ยนแปลงของระดับและความยาวเสียง ในขณะที่การเน้นเสียงในภาษาเวลส์สัมพันธ์กับระดับเสียงอย่างสอดคล้องกันมากกว่าความยาวเสียง และการเน้นเสียงในภาษาไทยสัมพันธ์กับความยาวเสียงเท่านั้น

ทฤษฎีของการรับรู้เสียงพูด

ทฤษฎีของการรับรู้การพูด (อังกฤษ: Theory of speech perception) ทฤษฎีแรก ๆ เช่นทฤษฎีเคลื่อนไหว (motor theory of speech perception) มีความพยายามที่จะแก้ปัญหาความไม่ผันแปรของการรับรู้โดยอ้างว่าการรับรู้และการผลิตเสียงพูดมีความเชื่อมโยงกันอย่างใกล้ชิด ในรูปที่แรงที่สุดทฤษฎีเคลื่อนไหวอ้างว่าการรับรู้เสียงพูด จำเป็น ต้องให้ผู้ฟังเข้าถึงตัวแทนทางสรีระของเสียง ผู้ฟังวิศวกรรมย้อนกลับหาการออกเสียงที่จะผลิตเสียงนั้นเพื่อระบุกลุ่มของเสียงตามที่ผู้พูดเจตนาเพื่อจัดกลุ่มเสียงนั้นได้อย่างเหมาะสม แม้การค้นพบเช่นปรากฏการณ์แม็คเกอร์กและกรณีศึกษาจากผู้ป่วยที่มีการบาดเจ็บทางประสาทสนับสนุนทฤษฎีเคลื่อนไหว การทดลองเพิ่มเติมไม่ได้สนับสนุนทฤษฎีในรูปแรงแต่สนับสนุนรูปของทฤษฎ๊ที่อ่อนลงที่อ้างว่ามีความสัมพันธ์อย่างไม่กำหนด (non-deterministic) ระหว่างการผลิตและการรับรู้

ทฤษฎีของการรับรู้เสียงพูดต่อมาพุ้งความสนใจกับสิ่งบ่งชี้ทางเสียง (acoustic cue) เพื่อจัดกลุ่มเสียง และสามารุถแบ่งเป็นสองกลุ่มใหญ่ ๆ ได้คือ: ทฤษฎีนามธรรม (abstractionist theory) และทฤษฎีเหตุการณ์ (episodic theory) ในทฤษฎีนามธรรม การรับรู้เสียงพูดคือการระบุวัตถุเสียงในอุดมคติโดยอ้างอิงสัญญาณเสียงที่ถูกลดเป็นองค์ประกอบที่จำเป็นและทำให้สัญญาณเป็นมาตรฐานเพื่อทำกลับความแปรปรวนของผู้พูด ทฤษฎีเหตุการณ์เช่นตัวแบบแบบอย่าง (exemplar model) อ้างว่าการรับรู้เสียงพูดคือการเข้าถึงความทรงจำ (นั่นคือ ความจำอาศัยเหตุการณ์) ของเสียงที่เคยได้ยินมาก่อน ปัญหาความไม่ผันแปรของการรับรู้ถูกอธิบายโดยทฤษฎีเหตุการณ์ว่าเป็นเรื่องของความคุ้นเคย: การทำให้เป็นมาตรฐานเป็นผลพลอยได้ของการได้สัมผัสความแปรปรวนมากกว่าเป็นกระบวนการวิยุตอย่างที่ทฤษฎีนามธรรมอ้าง

สาขาวิชาย่อย

สวนสัทศาสตร์

สวนสัทศาสตร์ (อังกฤษ: Acoustics phonetics) ศึกษาคุณลักษณะทางเสียงของเสียงพูด ประสาทสัมผัสเสียงเกิดขึ้นจากการผันแแปร (fluctuation) ของความดันที่ทำให้แก้วหูขยับตาม หูเปลี่ยนการเคลื่อนไหวเป็นกระแสประสาทที่สมองแปลเป็นเสียง รูปคลื่นของเสียงเป็นบันทึกที่วัดความผันแปรของความดัน

สรีรสัทศาสตร์

สรีรสัทศาสตร์ (อังกฤษ: Articulatory phonetics) ศึกษาวิธีที่เสียงพูดถูกผลิตออกมา

โสตสัทศาสตร์

โสตสัทศาสตร์ศึกษาวิธีที่มนุษย์รับรู้เสียงพูด มนุษย์ไม่ได้รับรู้เสียงพูดเป็นบันทึกเสียงแบบถูกต้องสมบูรณ์เพราะลักษณะทางกายวิภาคของระบบการได้ยินบิดเบือนสัญญาณเสียงพูด ตัวอย่างเช่นความดังของเสียง (Loudness) ซึ่งถูกวัดเป็นเดซิเบล (ดีบี, dB) ไม่ได้มีความสัมพันธ์โดยตรง (linear) กับความแตกต่างของความดันเสียง

สิ่งที่ผู้ฟังได้ยินกับการวิเคราะห์ทางเสียงจะไม่ตรงกันโดยเฉพาะอย่างยิ่งกับเสียงพูดที่มีความถี่สูงเช่นเสียงเสียดแทรกบางเสียง จึงมีการพัฒนาตัวแบบเชิงหน้าที่ของระบบการได้ยินเพื่อแก้ไขความไม่ตรงกัน

การพรรณนาเสียง

ภาษามนุษย์ใช้เสียงต่าง ๆ หลายเสียง และนักภาษาศาสตร์จะต้องสามารถพรรณนาเสียงในวิธีที่เป็นอิสระจากภาษาเพื่อเปรียบเทียบเสียง เราสามารถพรรณนาเสียงพูดด้วยหลายวิธี โดยทั่วไปใช้การเคลื่อนไหวของปากที่จำเป็นเพื่อผลิตเสียงพูด พยัญชนะและสระเป็นหมวดหมู่ขนาดใหญ่สองหมวดที่นักสัทศาสตร์นิยามด้วยการเคลื่อนไหวขณะพูด ตัวบ่งชี้ที่ลงรายละเอียดกว่าก็เช่นตำแหน่งเกิดเสียง ตำแหน่งเกิดเสียง ลักษณะเกิดเสียง และความก้อง (voicing (phonetics)) ถูกใช้เพื่อพรรณนาพยัญชนะและเป็นสัดส่วนหลักของแผนผังพยัญชนะของสัทอักษรสากล สระสามารถพรรณนาด้วยความสูง ความหลัง และการห่อริมฝีปาก ภาษามือสามารถพรรณนาด้วยปัจจัยคนละชุดแต่ก็คล้ายกันเพื่อพรรณนาท่ามือ (sign) คือ: ตำแหน่ง (location) การเคลื่อนไหว (movement) รูปร่างมือ (handshape) ทิศทางฝ่ามือ (palm orientation) และลักษณะของสิ่งอื่น ๆ นอกเหนือจากมือ (non-manual feature) นอกจากการพรรณนาสรีระท่าทางแล้วยังสามารถพรรณนาเสียงในภาษาพูดในทางสวนศาสตร์ด้วย วิธีการพรรณนาทั้งสองวิธีเพียงพอที่จะเอามาใช้เปรียบต่างเสียงพูดเพราะเสียงเป็นผลพวงจากการออกเสียง ซึ่งจะเลือกวิธีใดมาใช้ขึ้นอยู่กับลักษณะทางสัทศาสตร์ที่สนใจ

เสียงพยัญชนะเป็นเสียงพูดที่ออกเสียงด้วยการปิดแบบสมบูรณ์หรือบางส่วนของช่องเสียง โดยปกติจะถูกผลิตด้วยการดัดแปลงกระแสลมที่หายใจออหมาขากปอด อวัยวะหายใจที่ถูกใช้เพื่อผลิตและดัดแปลงกระแสลมถูกแบ่งเป็นสามส่วน: ช่องเสียง (เหนือกล่องเสียง) กล่องเสียง และระบบใต้ช่องเส้นเสียง กระแสลมอาจเป็นได้ทั้งลมออก (egressive sound) (ออกจากช่องเสียง) หรือลมเข้า (ingressive sound) (เข้าช่องเสียง) กระแสลมของเสียงจากปอดถูกผลิตโดยปอดในระบบใต้ช่องเส้นเสียงและไหลผ่านกล่องเสียงกับช่องเสียง เสียงจากช่องเส้นเสียง (Glottalic consonant) ใช้กระแสลมที่ผลิตด้วยการเคลื่อนไหวของกล่องเสียงโดยไม่มีกระแสลมจากปอด เสียงพยัญชนะเดาะ (Click consonant) ออกเสียงด้วยการยืดขยายของอากาศโดยใช้ลิ้นและตามด้วยการเปิดส่วนที่ปิดส่วนหน้าของลิ้น

เสียงสระเป็นเสียงพูดพยางค์ที่ออกเสียงโดยไม่มีการกีดขวางในช่องเสียง เสียงสระถูกนิยามโดยสัมพัทธ์กับชุดของเสียงสระอ้างอิงที่เรียกว่าชุดสระมาตรฐาน (cardinal vowels) แตกต่างจากเสียงพยัญชนะซึ่งปกติมีตำแหน่งเกิดเสียงที่แน่นอน จำเป็นต้องมีคุณลักษณะสามข้อเพื่อนิยามเสียงสระ: ความสูงของลิ้น ความหลังของลิ้น และการห่อริมฝีปาก เสียงสระที่ออกเสียงด้วยคุณภาพคงที่เรียกว่าสระเดี่ยว (monophthong) การประสมกันของเสียงสระสองเสียงในพยางค์เดียวคือสระประสมสองเสียง (diphthong) ในสัทอักษรสากล เสียงสระถูกแทนบนรูปสี่เหลี่ยมคางหมูที่แทนปากมนุษย์ แกนแนวตั้งแทนพื้นจนถึงเพดานปาก แกนแนวนอนแทนแนวหน้าหลัง

การถอดเสียง

การถอดเสียงแสดงสัทลักษณ์ (อังกฤษ: Phonetic transcription) เป็นระบบการถอดเสียงในภาษาพูด (oral language) หรือภาษามือ ระบบการถอดเสียงแสดงสัทลักษณ์ที่เป็นที่รู้จักมากที่สุดคือสัทอักษรสากล (IPA) เป็นชุดสัญลักษณ์มาตรฐานสำหรับเสียงพูด ความเป็นมาตรฐานของ IPA ทำให้ผู้ใช้สามารถถอดเสียงภาษา ภาษาย่อย และเอกัตภาษณ์ (idiolect) IPA เป็นเครื่องมือที่มีประโยชน์นอกจากต่อการศึกษาสัทศาสตร์แล้ว ยังมีประโยชน์ต่อการสอนภาษา การแสดงมืออาชีพ และอรรถบำบัดด้วย

แม้ไม่มีภาษามือใด ๆ ที่มีระบบการเขียนที่เป็นมาตรฐาน นักภาษาศาสตร์ได้พัฒนาระบบสัญกรณ์ของตัวเองไว้พรรณนารูปร่างมือ ตำแหน่ง และการเคลื่อนไหว ระบบสัญกรณ์ฮัมบวร์ค (HamNoSys) มีความคล้าย IPA ตรงที่ระบบนี้อนุญาตให้มีรายละเอียดในระดับที่ต่างกัน ระบบสัญกรณ์บางระบบเช่น KOMVA และ สํญกรณ์สโตคี (Stokoe notation) ถูกออกแบบสำหรับใช้ในพจนานุกรมและยังใข้ตัวอักษรของภาษาท้องถิ่นสำหรับรูปร่างมือในขณะที่ HamNoSys แทนรูปร่างมือโดยตรง SignWriting วางเป้าหมายไว้ว่าจะเป็นระบบการเขียนสำหรับภาษามือที่เรียนรู้ง่าย แต่ก็ยังไม่ได้ถูกนำไปใช้ในกลุ่มคนหูหนวกกลุ่มใดอย่างเป็นทางการ

ภาษามือ

คำในภาษามือถูกรับรู้ด้วยตาแทนหู ท่ามือถูก "พูด" ด้วยมือ ร่างกายส่วนบน และหัว "ฐานกรณ์" หรืออวัยวะหลักที่ใช้ทำท่าคือมือและแขน ส่วนของแขนถูกพรรณนาอย่างสัมพัทธ์ว่าส่วนต้นและส่วนปลาย (Anatomical terms of location) ส่วนต้นหมายถึงส่วนที่อยู่ใกล้ลำตัวและส่วนปลายคือส่วนที่อยู่ไกลออกไป ตัวอย่างเช่นการเคลื่อนไหวข้อมือคือส่วนปลายเมื่อเปรียบเทียบกับข้อศอก โดยปกติการเคลื่อนไหวส่วนปลายผลิตง่ายกว่าเพราะใช้พลังงานน้อยกว่า ปัจจัยต่าง ๆ เช่นความยืดหยุ่นของกล้ามเนื้อหรือหากท่าทางนั้นเป็นข้อห้ามทางสังคมจำกัดว่าอะไรสามารถถือเป็นท่ามือได้ เจ้าของภาษามือไม่มองที่มือของคู่สนทนาแต่หากมองไปที่หน้าแทน เพราะการมองเห็นรอบนอก (peripheral vision) ไม่ชัดเท่าตรงกลางของลานสายตา ทำให้สามารถรับรู้การเคลื่อนไหวและตำแหน่งของนิ้วของท่ามือที่อยู่ใกล้หน้ากว่าได้ละเอียดกว่า

ภาษามือมีฐานกรณ์ที่เหมือนกันสองอันคือมือ ผู้พูดภาษามือสามารถใช้มือข้างไหนก็ได้โดยไม่ส่งผลต่อการสื่อสาร ท่ามือที่ใช้สองมือโดยทั่วไปจะมีการทำท่าท่าเดียวกันทั้งสองข้างเพราะข้อจำกัดทางประสาทที่มีทั่วกันทุกคนที่เรียกว่าเงื่อนไขความสมมาตร (Symmetry Condition) ข้อจำกัดที่สองที่มีทั่วกันคือเงื่อนไขความถนัด (Dominance Condition) ซึ่งบอกว่าหากท่ามือทั้งสองข้างไม่เหมือนกัน มือที่ไม่ถนัดจะอยู่นิ่งและมีชุดรูปร่างมือที่จำกัดกว่าเมื่อเทียบกับมือข้างที่ถนัดซึ่งเคลื่อนไหว นอกจากนั้น มือข้างหนึ่งในท่ามือสองมือก็มักถูกทิ้ง (ไม่ทำ) เวลาสนทนาอย่างไม่ทางการ ซึ่งนี่เรียกหว่ากระบวนการ weak drop รูปคำแต่ละคำก็อาจทำให้เกิดการออกเสียงผสมได้เหมือนในภาษาพูด ตัวอย่างเช่นรูปร่างมือของท่ามือที่พูดต่อกันก็กลายเป็นคล้ายกัน (การกลมกลืนเสียง) (Assimilation (phonology)) หรือเกิด weak drop (ตัวอย่างหนึ่งของการตัดเสียง) (Deletion (phonology))

ดูเพิ่ม

ทฤษฎีแบบอย่าง (Exemplar theory)
ทฤษฎีเคลื่อนไหวของการรับรู้เสียงพูด (Motor theory of speech perception)
สัทวิทยา (สรวิทยา)
สัทอักษรสากล
สรีรสัทวิทยา (Articulatory phonology)