1 Tiếng Nói Và đặc điểm Của Tiếng Nói - Tài Liệu Text - 123doc

  1. Trang chủ >
  2. Kinh tế - Quản lý >
  3. Quản trị kinh doanh >
1 Tiếng nói và đặc điểm của tiếng nói

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (797.38 KB, 92 trang )

1.1.1 Đặc tính vật lý của âm thanhBản chất âm thanh tiếng nói là sóng cơ học nên có các tính chất cơ bản của sóng cơ học.Các tính chất của sóng cơ học mang một ý nghĩa khác khi xét trên góc độ là âm thanhtiếng nói.Tín hiệu âm thanh tiếng nói là một tín hiệu ngẫu nhiên không dừng, tuy nhiên những đặctính của nó tương đối ổn định trong những khoảng thời gian ngắn (vài chục mili giây).Trong khoảng thời gian nhỏ đó tín hiệu gần tuần hoàn, có thể coi như tuần hoàn.1.1.1.1Độ cao (Pitch)Độ cao hay còn gọi là độ trầm bổng của âm thanh chính là tần số của sóng cơ học. Âmthanh nào phát ra cũng ở một độ cao nhất định. Độ trầm bổng của âm thanh phụ thuộcvào sự chấn động nhanh hay chậm của các phần tử trong không khí trong một đơn vị thờigian nhất định. Nói cách khác, độ cao của âm phụ thuộc vào tần số dao động. Đối vớitiếng nói, tần số dao động của dây thanh quy định độ cao giọng nói của con người và mỗingười có một độ cao giọng nói khác nhau.Độ cao của nữ giới thường cao hơn so với nam giới và độ cao tiếng nói của trẻ em caohơn so với nữ giới, điều này cũng tương tự đối với tần số của dây thanh.1.1.1.2Cường độCường độ chính là độ to nhỏ của âm thanh, cường độ càng lớn thì âm thanh có thể truyềnđi càng xa trong môi trường có nhiễu. Nếu xét trên góc độ sóng cơ học thì cường độchính là biên độ của dao động sóng âm, nó quyết định cho năng lượng của sóng âm.Trong tiếng nói, cường độ của nguyên âm phát ra thường lớn hơn phụ âm. Do vậy chúngta thường dễ phát hiện ra nguyên âm hơn so với phụ âm. Tuy nhiên đối với tai người giátrị tuyệt đối của cường độ âm I không quan trọng bằng giá trị tỉ đối của I so với một giátrị I0 nào đó chọn làm chuẩn. Người ta định nghĩa mức cường độ âm L là logarit thậpphân của tỉ số I/I0: (đơn vị mức cường độ là Ben - kí hiệu B)5 L (B ) = lg1.1.1.3II0Trường độTrường độ hay độ dài của âm phụ thuộc vào sự chấn động lâu hay nhanh của các phần tửkhông khí. Cùng một âm nhưng trong các từ khác nhau thì độ dài khác nhau.1.1.1.4Âm sắcÂm sắc là bản sắc, sắc thái riêng của một âm, cùng một nội dung, cùng một độ cao nhưngkhi nói mỗi người đều có âm sắc khác nhau.1.1.2 Đặc tính âm học của âm thanhTín hiệu tiếng nói là tín hiệu tương tự biểu diễn cho thông tin về mặt ngôn ngữ và đượcmô tả bởi các âm vị khác nhau. Tuỳ theo từng ngôn ngữ cụ thể mà số lượng các âm vịnhiều hay ít. Thông thường số lượng các âm vị vào khoảng 20 – 30 và nhỏ hơn 50 đối vớimọi ngôn ngữ. Đối với từng loại âm vị mà có các đặc tính âm thanh khác nhau. Các âmvị được chia thành hai loại nguyên âm và phụ âm. Tổ hợp các âm vị tạo nên âm tiết. Âmtiết đóng vai trò một từ trọn vẹn mang ngữ nghĩa.1.1.2.1Nguyên âmNguyên âm được tạo ra bằng sự cộng hưởng của dây thanh khi dòng khí được thanh mônđẩy lên. Khoang miệng được tạo lập thành nhiều hình dạng nhất định tạo thành cácnguyên âm khác nhau. Số lượng các nguyên âm phụ thuộc vào từng ngôn ngữ nhất định.Mỗt nguyên âm được đặc trưng bởi 3 formant đầu tiên, các formant tiếp theo thường thì ítmang thông tin hơn.1.1.2.2Phụ âmPhụ âm được tạo ra bởi các dòng khí hỗn loạn được phát ra gần những điểm co thắt củađường dẫn âm thanh do cách phát âm tạo thành. Dòng không khí tại chỗ đóng của vòm6 miệng tạo ra phụ âm tắc. Những phụ âm xát được phát ra từ chỗ co thắt lớn nhất và cácâm tắc xát tạo ra từ khoảng giữa. Phụ âm có đặc tính hữu thanh và vô thanh tuỳ thuộcviệc dây thanh có dao động để tạo thành cộng hưởng không. Đặc tính của phụ âm tuỳthuộc vào tính chu kỳ của dạng sóng, phổ tần số, thời gian tồn tại và sự truyền dẫn âm.1.1.2.3Tỷ suất thời gianTrong khi nói chuyện, khoảng nói chuyện và khoảng nghỉ xen kẽ nhau. Phần trăm thờigian nói trên tổng số thời gian nói và nghỉ được gọi là tỷ xuất thời gian. Giá trị này biếnđổi tuỳ thuộc vào tốc độ nói và từ đó ta có thể phân loại thành nói nhanh, nói chậm haynói bình thường.1.1.2.4Hàm năng lượng thời gian ngắnHàm năng lượng thời gian ngắn của tiếng nói được tính bằng cách chia tín hiệu tiếng nóithành nhiều khung chứa N mẫu và tính diện tích trung bình tổng các mẫu tín hiệu trongmỗi khung. Các khung này được đưa qua một cửa sổ có dạng hàm như sau:W ( n )W( n ) = 0Với 0 ≤ n ≤ NVới n ≥ NThông thường có ba dạng cửa sổ được sử dụng đó là cửa sổ chữ nhật, cửa sổ Hammingvà cửa sổ Hanning.Cửa sổ chữ nhật:1W(n) = 0Với 0 ≤ n ≤ NVới n ≥ NCửa sổ Hamming :10.54 − 0.46 cos( n) Với ≤ n ≤ NW ( n) = Với n ≥ N0Cửa sổ Hanning:0.5 − 0.5 cos( n)W ( n) = 0Với 1≤ n ≤ NVới n ≥ N7 Hàm năng lượng ngắn tại mẫu thứ m được tính theo công thức sau :N −1E m = ∑ { x( n + m ) ∗ W ( n )}2n=0Hàm năng lượng thời gian ngắn của âm hữu thanh thường lớn hơn so với âm vô thanh.1.1.2.5Tần số vượt qua điểm không.Tần suất vượt qua điểm không là số lần biên độ tín hiệu tiếng nói vượt qua giá trị khôngtrong một khoảng thời gian cho trước. Thông thường giá trị này đối với âm vô thanh lớnhơn âm hữu thanh do đặc tính ngẫu nhiên của âm vô thanh. Do đo tần suất vượt qua điểmkhông là tham số quan trọng để phân loại âm hữu thanh và âm vô thanh.1.1.2.6Phát hiện điểm cuối.Trong xử lý tiếng nói việc xác định khi nào bắt đầu xuất hiện tín hiệu tiếng nói và khi nàokết thúc quá trình nói rất cần thiết và quan trọng. Trong một môi trường nhiều tiếng ồn(nhiễu ) hoặc môi trường nhiều người nói thì việc phát hiện điểm kết thúc rất khó khăn.Có rất nhiều phương pháp để phát hiện điểm cuối của tiếng nói. Ví dụ như một phươngpháp đơn giản sau :Lấy một mẫu nhỏ của nền nhiễu trong khoảng thời gian yên lặng trước khi bắt đầu nói.Sử dụng hàm năng lượng thời gian ngắn để tính năng lượng cho mẫu. Ngưỡng của tiếngnói được chọn là giá trị giữa năng lượng yên tĩnh và năng lượng đỉnh. Ban đầu giả thiếtđiểm cuối xuất hiện tại điểm năng lượng tín hiệu vượt quá mức ngưỡng. Để tính đúngước lượng này, người ta giả thiết và so sánh chúng với giá trị đó trong vùng yên tĩnh. Khinhững thay đổi phát hiện được trong khi tính toán tần suất trên suất hiện ở ngoài ngưỡnggiả thiết thì điểm cuối được giả thiết lại tại điểm mà sự thay đổi xảy ra.8 1.1.2.7Tần số cơ bảnDạng sóng của tiếng nói gồm hai phần: Phần gần giống nhiễu trong đó biên độ biến đổingẫu nhiên và phần tuần hoàn. Phần tín hiệu có tính chu kỳ chứa các thành phần tần số códạng điều hòa. Tần số thấp nhất chính là tần số cơ bản và cũng chính là tần số dao độngcủa dây dây thanh.Đối với những người nói khác nhau, tần số cơ bản cũng khác nhau. Tần số cơ bản của trẻem thường cao hơn so với người lớn và của nữ giới cao hơn so với nam giới, Sau đây làmột số giá trị tần số cơ bản tương ứng với giới tính và tuổi:Người nóiGiá trị tần số cơ bảnNam giới80 – 200 HzNữ giới150 – 450 HzTrẻ em200 – 600 HzĐối với hai âm có cùng cường độ, cùng độ cao sẽ được phân biệt bởi tính tuần hoàn. Mộtâm hữu thanh có tín hiệu gần như tuần hoàn khi được phân tích phổ sẽ xuất hiện mộtvạch tại vùng tần số rất thấp. Vạch này đặc trưng cho tính tuần hoàn cơ bản của âm hayđó chính là tần số cơ bản của âm. Trong giao tiếp bình thường tần số cơ bản thay đổi liêntục tạo nên ngữ điệu cho tiếng nói.Hình dưới mô tả tín hiệu trên miền thời gian và phổ của chúng (trên miền tần số) của cácnguyên âm a, i, u. đỉnh đầu tiên của các phổ tương ứng với tần số cơ bản F0.9 Hình 1.2 Tín hiệu và phổ của tín hiệu1.1.2.8FormantTrong phổ tần số của tín hiệu tiếng nói, mỗi đỉnh có biên độ cao nhất xét trong mộtkhoảng nào đó (còn gọi là cực trị địa phương) xác định một formant. Ngoài tần số,formant còn được xác định bởi biên độ và dải thông của chúng. Về mặt vật lý các tần sốformant tương ứng với các tần số cộng hưởng của tuyến âm. Trong xử lý tiếng nói vànhất là trong tổng hợp tiếng nói để mô phỏng lại tuyến âm người ta phải xác định đượccác tham số formant đối với từng loại âm vị, do đó việc đánh giá, ước lượng các formantcó ý nghĩa rất quan trọng.Tần số formant biến đổi trong một khoảng rộng phụ thuộc vào giới tính của người nói vàphụ thuộc vào các dạng âm vị tương ứng với formant đó. Đồng thời, formant còn phụthuộc các âm vị trước và sau đó. Về cấu trúc tự nhiên, tần số formant có liên hệ chặt chẽvới hình dạnh và kích thước tuyến âm. Thông thường trong phổ tần số của tín hiệu cókhoảng 6 formant nhưng chỉ có 3 formant đầu tiên ảnh hưởng quan trọng đến các đặc tínhcủa các âm vị, còn các formant còn lại cũng có ảnh hưởng song rất ít. Các formant có giátrị tần số xê dịch từ vài trăm đến vài nghìn Hz.Tần số formant đặc trưng cho các nguyên âm biến đổi tuỳ thuộc vào người nói trong điềukiện phát âm nhất định. Mặc dù phạm vi của các tần số formant tương ứng với mỗinguyên âm có thể trùng lên nhau nhưng vị trí giữa các formant đó không đổi vì sự xê dịchcủa các formant là song song.Ngoài formant, các âm mũi còn có các tần số bị suy giảm gọi là phản formant (antiformant). Phản formant được tạo nên khi luồng khí đi qua khoang mũi. Các formant10 tương ứng nói các điểm cực của hàm truyền đạt vì tại lân cận điểm cực giá trị hàm truyềnđạt là rất lớn, tương tự vậy các anti-formant tương ứng với các điểm không của hàmtruyền đạt.1.1.3 Phân loại đơn giản dạng sóng tiếng nói:Tiếng nói của con người tạo ra bao gồm có hai thành phần đó là:•Phần gần tuần hoàn mà hầu như lặp lại cùng chu kỳ được gọi làtiếng nói hữu thanh (voiced speech). Chu kỳ lặp lại đó gọi là chu kì cơ bản T 0 nghịch đảocủa T0 là tần số cơ bản F0. Âm hữu thanh được phát ra bởi một luồng khí cực mạnh từthanh môn thổi qua dây thanh làm dung dây thanh, sự dao động của dây thanh tạo nênnguồn tuần hoàn. Nguồn tuần hoàn kích thích tuyến âm tạo nên âm hữu thanh. Vùng âmhữu thanh chiếm thành phần chủ yếu của sóng tiếng nói, chứa đựng lượng tin nhiều nhấtvà thời gian lớn nhất trong quá trình nói.•Phần tín hiệu có dạng giống như tập âm nhiễu có biên độ ngẫu nhiêncòn được gọi là tiếng nói vô thanh (unvoiced speech). Tiếng nói vô thanh được tạo ra dosự co thắt theo một dạng nào đó của tuyến âm và luồng khí chạy qua chỗ thắt với tộc độlớn tạo nên nhiễu loạn, ví dụ như lúc ta nói thì thào (cần phân biệt thì thầm với thì thào,theo từ điển tiếng Việt thì thào là nói chuyện với nhau rất nhỏ tựa như gió thoảng qua taicòn thì thầm là nói chuyện với nhau không để người ngoài nghe thấy). Năng lượng donguồn nhiễu loạn tạo ra sẽ kích thích tuyến âm tạo nên tiếng nói vô thanh, năng lượngcủa tiếng nói vô thanh nhỏ hơn so với tiếng nói hữu thanh.Ta có thể phát hiện ra tiếng nói hữu thanh là khi nói dây thanh rung. Còn âm vô thanh khinói dây thanh không rung. Nói thì thào thì ở xa không nghe được do năng lượng của âmvô thanh rất nhỏ và tiếng thì thào là do âm vô thanh tạo nên.11 1.1.4 Bộ máy phát âm và cơ chế phát âm1.1.4.1Bộ máy phát âm1.2.3.4.5.6.7.8.9.10.11.12.13.14.15.Hốc mũiVòm miệng trênỔ răngVòm miệng mềmĐầu lưỡiThân lưỡiLưỡi gàCơ miệngYết hầuNắp đóng của thanh quảnDây thanh giảDây thanhThanh quảnThực quảnKhí quảnHình 1.3 Bộ máy phát âm của con người1.1.4.2Cơ chế phát âmHình 1.3 mô tả bộ máy phát âm của con người. Nguồn năng lượng chính nằm ở thanhmôn, Tuyến âm sẽ được kích thích bởi nguồn năng lượng chính tại thanh môn. Tiếng nóiđược tạo ra sóng âm học do kích thích từ thanh môn phát ra đẩy không khí có trong phổilên tạo thành dòng khí va chạm vào hai dây thanh trong tuyến âm. Hai dây thanh daođộng sẽ tạo ra cộng hưởng, dao động âm sẽ được lan truyền theo tuyến âm (tính từ tuyếnâm đến khoang miệng) và sau khi đi qua khoang mũi, môi sẽ tạo ra tiếng nói.-Thanh quản chứa hai dây thanh có thể dao động tạo ra sự cộng hưởng đầu tiêncủa quá trình tạo thành âm thanh.-Ống dẫn âm là một ống không đồng dạng bắt đầu từ môi, kết thúc bởi dâythanh hoặc thanh quản. Ống có độ dài khoảng 17cm đối với người bình thường.-Khoang mũi cũng là ống không đồng dạng thuộc vùng cố định bắt đầu từ mũi,kết thục tại vòm miệng, đối với người bình thường khoang mũi có độ dài 12 cm.12 -Khoang miệng là các nếp da chuyển động có thể điều khiển sự ghép âm thanhgiữa khoang miệng và khoang mũi.Hình 1.4 Mô tả dây thanh âmTrong quá trình phát âm, nếu là âm mũi thì vòm miệng hạ thấp và dòng khí chỉ đi quađường mũi, nếu là âm thường thì vòm miệng mở, đường mũi khép lại và dòng khí đi theokhoang miệng ra môi.1.2 Một số kiến thức chung về xử lý tín hiệu rời rạc1.2.1 Mô hình hệ xử lý tín hiệu rời rạcMột hệ xử lý tín hiệu sẽ xác lập mối quan hệ nhân quả giữa tín hiệu vào và tín hiệu ra. Tacó thể biểu diễn hệ xử lý bằng mô hình toán học thông qua một phép biến đổi hay mộttoán tử T nào đó. Tín hiệu vào x(n) được gọi là tác động, còn tín hiệu ra y(n) được gọi làđáp ứng của hệ xử lý. Mối quan hệ giữa tín hiệu vào và tín hiệu ra của hệ có thể đượcbiểu diễn như sau:y(n) = T[x(n)]y(n)13 x(n)T[]Tác độngĐáp ứngHình 1.5 Mô hình hệ xử lý biến đổi tín hiệu vào x(n) thành tín hiệu ra y(n)Các hệ xử lý phân thành 2 loại là hệ tuyến tính và hệ phi tuyến. Một hệ thống được gọi làtuyến tính nếu nó thoả mãn nguyên lý xếp chồng, tức là thoả mãn 2 tính chất sau:Tính tỷ lệ:T[a.x(n)] = a.T[x(n)] = a.y(n)Tính tổ hợp:T[x1(n)+x2(n)] = T[x1(n)] + T[x2(n)] = y1(n) + y2(n)Các hệ tuyến tính có một ý nghĩa đặc biệt trong phân tích và xử lý, vì nó giúp ta đưa việcxử lý một hệ phức tạp về việc xử lý các hệ đơn giản, sau đó ta chỉ việc tổng hợp lại kếtquả. Vì thế ngay cả các hệ phi tuyến nhiều khi cũng được xấp xỉ thành các hệ tuyến tínhđể tiện cho việc xử lý.Các hệ tuyến tính cũng được phân thành 2 loại là tuyến tính bất biến và tuyến tính thayđổi theo thời gian. Trong xử lý tín hiệu thường chúng ta chỉ quan tâm đến các hệ tuyếntính bất biến. Một hệ tuyến tính được gọi là bất biến theo thời gian nếu đáp ứng của hệđối với tác động x(n) thì đáp ứng của hệ đối với tác động x(n-k) sẽ là y(n-k).Các hệ tuyến tính bất biến được đặc trưng hoàn toàn bằng đáp ứng xung h(n) (là đáp ứngra ứng với tác động vào là xung Dirac δ (n) ). Nếu biết h(n) ta hoàn toàn có thể tính đượcđáp ứng y(n) của tín hiệu vào x(n):y ( n) = h ( n ) * x ( n ) =∞∑ x ( k ) . h( n − k )k = −∞14

Xem Thêm

Tài liệu liên quan

  • tìm hiểu về phương pháp lpc trong xử lý tiếng nóitìm hiểu về phương pháp lpc trong xử lý tiếng nói
    • 92
    • 3,864
    • 23
  • Ly lich DS Le Xuan Ky Ly lich DS Le Xuan Ky
    • 2
    • 161
    • 0
  • Lý lịch khoa học của cá nhân thực hiện chính đề tài Lý lịch khoa học của cá nhân thực hiện chính đề tài
    • 6
    • 334
    • 0
  • Lý luận chung về pháp luật Lý luận chung về pháp luật
    • 30
    • 145
    • 0
  • Lý luận nhà nước và pháp luật Lý luận nhà nước và pháp luật
    • 98
    • 559
    • 7
  • Lý luận về nhà nước Lý luận về nhà nước
    • 42
    • 234
    • 0
  • Mặt trái của đầu tư trực tiếp nước ngoài ở Việt nam Mặt trái của đầu tư trực tiếp nước ngoài ở Việt nam
    • 29
    • 292
    • 0
  • Mẫu báo cáo kết quả rà soát hiện trạng quỹ đất đang quản lý, sử dụngx Mẫu báo cáo kết quả rà soát hiện trạng quỹ đất đang quản lý, sử dụngx
    • 2
    • 1
    • 10
  • Mẫu đăng kí khen thưởng năm 2012 Mẫu đăng kí khen thưởng năm 2012
    • 10
    • 195
    • 0
  • Mẫu Sơ yếu lý lịch cán bộ, công chức Mẫu Sơ yếu lý lịch cán bộ, công chức
    • 4
    • 1
    • 3
  • Mẫu tờ khai đăng ký mã số đơn vị có quan hệ với ngân sách dùng cho các đơn vị dự toán, đơn vị sử dụng ngân sách Nhà nước, các đơn vị khác có quan hệ với ngân sáchx Mẫu tờ khai đăng ký mã số đơn vị có quan hệ với ngân sách dùng cho các đơn vị dự toán, đơn vị sử dụng ngân sách Nhà nước, các đơn vị khác có quan hệ với ngân sáchx
    • 2
    • 268
    • 1
Tải bản đầy đủ (.doc) (92 trang)

Tài liệu bạn tìm kiếm đã sẵn sàng tải về

(940.5 KB) - tìm hiểu về phương pháp lpc trong xử lý tiếng nói-92 (trang) Tải bản đầy đủ ngay ×

Từ khóa » Cường độ Của Giọng Nói Có Thể Nói Lên điều Gì