Kiến thức cơ bản về âm thanh và nguyên tắc mã hóa

1. Các khái niệm cơ bản

1) Tốc độ bit: cho biết dữ liệu âm thanh được mã hóa (nén) cần được biểu diễn bao nhiêu bit mỗi giây và đơn vị thường là kb / giây.

2) Độ to và cường độ: Các thuộc tính chủ quan của âm thanh. Độ lớn cho biết mức độ lớn của âm thanh. Độ to chủ yếu thay đổi theo cường độ của âm thanh, nhưng nó cũng bị ảnh hưởng bởi tần số. Nói chung, âm thanh thuần túy tần số trung bình tốt hơn âm thanh tần số thấp và tần số cao thuần túy.

3) Lấy mẫu và tốc độ lấy mẫu: Lấy mẫu là biến đổi tín hiệu thời gian liên tục thành tín hiệu số rời rạc. Tốc độ lấy mẫu đề cập đến số lượng mẫu được thu thập trong một giây.

Luật lấy mẫu Nyquist: Khi tốc độ lấy mẫu lớn hơn hoặc bằng 2 lần thành phần tần số cao nhất của tín hiệu liên tục, tín hiệu được lấy mẫu có thể được sử dụng để tái tạo lại hoàn hảo tín hiệu liên tục ban đầu.

2. định dạng âm thanh phổ biến

1) Định dạng WAV là một định dạng tệp âm thanh được phát triển bởi Microsoft, còn được gọi là tệp âm thanh sóng. Đây là định dạng âm thanh kỹ thuật số sớm nhất, được hỗ trợ rộng rãi bởi nền tảng Windows và các ứng dụng của nó, và có tốc độ nén thấp.

2) MIDI là tên viết tắt của Musical Instrument Digital Interface, còn được gọi là Musical Instrument Digital Interface, là một tiêu chuẩn quốc tế thống nhất cho âm nhạc kỹ thuật số / nhạc cụ tổng hợp điện tử. Nó xác định cách mà các chương trình âm nhạc máy tính, bộ tổng hợp kỹ thuật số và các thiết bị điện tử khác trao đổi tín hiệu âm nhạc và chỉ định giao thức truyền dữ liệu giữa cáp và phần cứng và các thiết bị kết nối nhạc cụ điện tử từ các nhà sản xuất khác nhau với máy tính và có thể mô phỏng âm thanh của nhiều bản nhạc dụng cụ. Tệp MIDI là tệp ở định dạng MIDI và một số lệnh được lưu trữ trong tệp MIDI. Gửi các hướng dẫn này đến card âm thanh, và card âm thanh sẽ tổng hợp âm thanh theo hướng dẫn.

3) Tên đầy đủ của MP3 là MPEG-1 Audio Layer 3, được hợp nhất vào đặc tả MPEG vào năm 1992. MP3 có thể nén các tệp âm thanh kỹ thuật số với chất lượng âm thanh cao và tỷ lệ lấy mẫu thấp. Ứng dụng phổ biến nhất.

4) MP3Pro được phát triển bởi Công ty Công nghệ Mã hóa Thụy Điển, bao gồm hai công nghệ chính: một là công nghệ giải mã độc đáo từ Công ty Công nghệ Mã hóa, và công nghệ còn lại là sự tích hợp của chủ sở hữu bằng sáng chế MP3 Công ty Thomson Multimedia của Pháp và công nghệ giải mã Fraunhofer A của Đức cùng nghiên cứu bởi Hiệp hội Vi mạch. MP3Pro có thể cải thiện chất lượng âm thanh nhạc MP3 gốc về cơ bản mà không cần thay đổi kích thước tệp. Nó có thể duy trì chất lượng âm thanh trước khi nén ở mức lớn nhất trong khi nén các tệp âm thanh ở tốc độ bit thấp hơn.

5) MP3Pro được phát triển bởi Công ty Công nghệ Mã hóa Thụy Điển, bao gồm hai công nghệ chính: một là công nghệ giải mã độc đáo từ Công ty Công nghệ Mã hóa, và công nghệ còn lại là sự tích hợp của chủ sở hữu bằng sáng chế MP3 Công ty Thomson Multimedia của Pháp và công nghệ giải mã Fraunhofer A của Đức cùng nghiên cứu bởi Hiệp hội Vi mạch. MP3Pro có thể cải thiện chất lượng âm thanh nhạc MP3 gốc về cơ bản mà không cần thay đổi kích thước tệp. Nó có thể duy trì chất lượng âm thanh trước khi nén ở mức lớn nhất trong khi nén các tệp âm thanh ở tốc độ bit thấp hơn.

6) WMA (Windows Media Audio) là kiệt tác của Microsoft trong lĩnh vực âm thanh và video trên Internet. Định dạng WMA đạt được tốc độ nén cao hơn bằng cách giảm lưu lượng dữ liệu nhưng vẫn duy trì chất lượng âm thanh. Tỷ lệ nén nói chung có thể đạt 1:18. Ngoài ra, WMA cũng có thể bảo vệ bản quyền thông qua DRM (Quản lý quyền kỹ thuật số).

7) RealAudio là một định dạng tệp được khởi chạy bởi Mạng thực. Đặc điểm lớn nhất là nó có thể truyền tải thông tin âm thanh theo thời gian thực, đặc biệt khi tốc độ mạng chậm, nó vẫn có thể truyền tải dữ liệu một cách mượt mà, vì vậy RealAudio chủ yếu phù hợp với mạng chơi trực tuyến. Các định dạng tệp RealAudio hiện tại chủ yếu bao gồm RA (RealAudio), RM (RealMedia, RealAudio G2), RMX (RealAudio Secured), v.v. Điểm chung của các tệp này là chất lượng âm thanh thay đổi theo sự khác biệt về băng thông mạng. Theo tiền đề rằng hầu hết mọi người đều nghe thấy âm thanh mượt mà, người nghe có băng thông rộng hơn có thể có được chất lượng âm thanh tốt hơn.

8) Audible có bốn định dạng khác nhau: Audible1, 2, 3, 4. Trang web Audible.com chủ yếu bán sách nói trên Internet và cung cấp sự bảo vệ cho hàng hóa và tệp họ bán thông qua một trong bốn định dạng âm thanh chuyên dụng của Audible.com . Mỗi định dạng chủ yếu xem xét nguồn âm thanh và thiết bị nghe được sử dụng. Định dạng 1, 2 và 3 sử dụng các mức độ nén giọng nói khác nhau, trong khi định dạng 4 sử dụng tốc độ lấy mẫu thấp hơn và cùng phương pháp giải mã như MP3. Giọng nói kết quả rõ ràng hơn và có thể được tải xuống hiệu quả hơn từ Internet. Audible sử dụng công cụ phát lại trên máy tính để bàn của riêng họ, đó là Audible Manager. Với trình phát này, bạn có thể phát các tệp định dạng Audible được lưu trữ trên PC hoặc chuyển sang trình phát di động.

9) AAC thực sự là tên viết tắt của Advanced Audio Coding. AAC là định dạng âm thanh do Fraunhofer IIS-A, Dolby và AT&T cùng phát triển. Nó là một phần của đặc điểm kỹ thuật MPEG-2. Thuật toán được sử dụng bởi AAC khác với thuật toán của MP3. AAC kết hợp các chức năng khác để cải thiện hiệu quả mã hóa. Thuật toán âm thanh của AAC vượt xa một số thuật toán nén trước đây (chẳng hạn như MP3, v.v.) về khả năng nén. Nó cũng hỗ trợ lên đến 48 rãnh âm thanh, 15 rãnh âm thanh tần số thấp, nhiều tốc độ lấy mẫu và tốc độ bit hơn, khả năng tương thích đa ngôn ngữ và hiệu quả giải mã cao hơn. Tóm lại, AAC có thể cung cấp chất lượng âm thanh tốt hơn với tiền đề là nó nhỏ hơn 30% so với các tệp MP3.

10) Ogg Vorbis là một định dạng nén âm thanh mới, tương tự như các định dạng nhạc hiện có như MP3. Nhưng có một điểm khác biệt là nó hoàn toàn miễn phí, mở và không có hạn chế về bằng sáng chế. Vorbis là tên của cơ chế nén âm thanh này, và Ogg là tên của một dự án có ý định thiết kế một hệ thống đa phương tiện hoàn toàn mở. VORBIS cũng là nén tổn hao, nhưng nó sử dụng các mô hình âm thanh tiên tiến hơn để giảm tổn thất. Do đó, OGG được mã hóa với cùng tốc độ bit nghe hay hơn MP3.

11) APE là một định dạng âm thanh nén không mất dữ liệu, với tiền đề là chất lượng âm thanh không bị giảm, kích thước được nén bằng một nửa của tệp WAV định dạng không mất dữ liệu truyền thống.

12) FLAC là tên viết tắt của Free Lossless Audio Codec, một bộ mã nén âm thanh không mất dữ liệu nổi tiếng, được đặc trưng bởi tính năng nén không mất dữ liệu.

3. nguyên tắc cơ bản của mã hóa âm thanh

Mã hóa giọng nói được dành riêng để giảm băng thông kênh cần thiết để truyền tải trong khi vẫn duy trì chất lượng cao của giọng nói đầu vào.

Mục tiêu của mã hóa giọng nói là thiết kế một bộ mã hóa có độ phức tạp thấp để truyền dữ liệu chất lượng cao với tốc độ bit thấp nhất có thể.

1) Đường cong ngưỡng câm: Ngưỡng mà tai người chỉ có thể nghe thấy âm thanh ở các tần số khác nhau trong môi trường yên tĩnh.

2) Dải tần số tới hạn

Vì tai người có các độ phân giải khác nhau cho các tần số khác nhau, MPEG1 / Audio chia dải tần số cảm nhận được trong phạm vi 22khz thành 23 ~ 26 dải tần số quan trọng theo các lớp mã hóa khác nhau và tần số lấy mẫu khác nhau. Hình dưới đây liệt kê tần số trung tâm và băng thông của dải tần tới hạn lý tưởng. Như có thể thấy trong hình, tai người có độ phân giải tần số thấp tốt hơn

3) Hiệu ứng che trong miền tần số: Tín hiệu có biên độ lớn hơn sẽ che đi tín hiệu có tần số tương tự và biên độ nhỏ hơn, như trong hình bên dưới:

4) Hiệu ứng che trong miền thời gian: Trong một khoảng thời gian ngắn, nếu hai âm thanh xuất hiện thì âm thanh có SPL (mức áp suất âm thanh) lớn hơn sẽ che âm thanh có SPL nhỏ hơn. Hiệu ứng mặt nạ miền thời gian được chia thành mặt nạ tiến (pre-mask) và mặt nạ lùi (post-masking). Thời gian sau khi đắp mặt nạ sẽ lâu hơn, gấp khoảng 10 lần so với trước khi đắp mặt nạ.

Hiệu ứng che miền thời gian giúp loại bỏ tiếng vọng trước.

4. các phương tiện cơ bản của mã hóa

1) Bộ định lượng và bộ định lượng

Lượng tử hóa và lượng tử hóa: Lượng tử hóa chuyển đổi một tín hiệu liên tục trong thời gian rời rạc thành tín hiệu rời rạc trong thời gian rời rạc. Các bộ định lượng phổ biến là: bộ định lượng đồng nhất, bộ định lượng logarit và bộ định lượng không đồng nhất. Mục tiêu mà quá trình lượng tử hóa theo đuổi là giảm thiểu lỗi lượng tử hóa và giảm thiểu sự phức tạp của bộ lượng tử hóa (bản thân hai điều này là mâu thuẫn).

(A) Bộ định lượng đồng nhất: đơn giản nhất, hiệu suất kém nhất, chỉ thích hợp cho thoại qua điện thoại.

(B) Bộ định lượng lôgarit: Nó phức tạp hơn bộ định lượng đồng nhất và dễ thực hiện, và hiệu suất của nó tốt hơn bộ định lượng đồng nhất.

(C) Bộ định lượng không đồng nhất: Theo sự phân bố của tín hiệu, thiết kế bộ định lượng. Định lượng chi tiết được thực hiện ở nơi tín hiệu dày đặc và định lượng thô được thực hiện ở nơi tín hiệu thưa thớt.

2) Bộ mã hóa giọng nói

Có ba loại bộ mã hóa giọng nói: (a) Bộ mã hóa dạng sóng; (b) Bộ phát âm; (c) Bộ mã hóa lai.

Bộ mã hóa dạng sóng nhằm mục đích xây dựng một dạng sóng tương tự bao gồm cả tấm nhiễu nền. Hoạt động trên tất cả các tín hiệu đầu vào, nó sẽ tạo ra các mẫu chất lượng cao và tiêu thụ tốc độ bit cao. Bộ mã hóa sẽ không tạo lại dạng sóng ban đầu. Bộ mã hóa này sẽ trích xuất một tập hợp các tham số, được gửi đến đầu nhận để lấy ra mô hình tạo giọng nói. Chất lượng giọng nói của bộ mã hóa giọng nói không đủ tốt. Bộ mã hóa lai, kết hợp các ưu điểm của bộ mã hóa dạng sóng và bộ âm thanh.

2.1 Bộ mã hóa dạng sóng

Thiết kế của bộ mã hóa dạng sóng thường độc lập với tín hiệu. Vì vậy, nó phù hợp cho việc mã hóa các tín hiệu khác nhau và không giới hạn ở giọng nói.

1) Mã hóa miền thời gian

a) PCM: điều chế mã xung, là phương pháp mã hóa đơn giản nhất. Nó chỉ là sự tùy biến và lượng tử hóa tín hiệu, và logarit hóa thường được sử dụng.

b) DPCM: điều chế mã xung vi sai, chỉ mã hóa sự khác biệt giữa các mẫu. Một hoặc nhiều mẫu trước đó được sử dụng để dự đoán giá trị mẫu hiện tại. Càng nhiều mẫu được sử dụng để đưa ra dự đoán, giá trị dự đoán càng chính xác. Sự khác biệt giữa giá trị thực và giá trị dự đoán được gọi là phần dư, là đối tượng của mã hóa.

c) ADPCM: điều chế mã xung vi sai thích ứng, mã xung vi sai thích ứng. Có nghĩa là, trên cơ sở DPCM, bộ lượng tử và bộ dự đoán được điều chỉnh thích hợp theo sự thay đổi của tín hiệu, để giá trị dự đoán gần với tín hiệu thực hơn, phần dư nhỏ hơn và hiệu suất nén cao hơn.

(2) Mã hóa miền tần số

Mã hóa miền tần số là phân tách một tín hiệu thành một loạt các phần tử tần số khác nhau và thực hiện mã hóa độc lập.

a) Mã hoá dải con: Mã hoá dải con là kỹ thuật mã hoá miền tần số đơn giản nhất. Đây là công nghệ biến đổi tín hiệu gốc từ miền thời gian sang miền tần số, sau đó chia nó thành nhiều dải con và thực hiện mã hóa kỹ thuật số tương ứng trên chúng. Nó sử dụng nhóm bộ lọc thông dải (BPF) để chia tín hiệu gốc thành một số (ví dụ, m) dải con (được gọi là dải con). Truyền từng băng tần con qua các đặc tính điều chế tương đương với điều chế biên độ dải biên đơn, di chuyển từng băng tần con về gần tần số XNUMX, tương ứng đi qua BPF (tổng cộng là m), sau đó truyền từng băng tần con với tốc độ quy định ( Tỷ lệ Nyquist) Tín hiệu đầu ra của dải phụ được lấy mẫu và giá trị được lấy mẫu thường được mã hóa kỹ thuật số và m bộ mã hóa kỹ thuật số được đặt. Gửi từng tín hiệu được mã hóa kỹ thuật số đến bộ ghép kênh, và cuối cùng xuất ra luồng dữ liệu được mã hóa băng tần con.

Đối với các băng con khác nhau, các phương pháp lượng tử hóa khác nhau có thể được sử dụng và số lượng bit khác nhau có thể được phân bổ cho các băng con theo mô hình cảm nhận của tai người.

b) mã hóa biến đổi: mã hóa DCT.

5. Bộ phát âm

Bộ phát âm kênh: Sử dụng độ nhạy của tai người theo pha.

bộ mã hóa đồng hình (homomorphic vocoder): có thể xử lý tín hiệu tổng hợp một cách hiệu quả.

Bộ mã hóa định dạng: Hầu hết thông tin của tín hiệu thoại đều nằm trên vị trí và băng thông của bộ định dạng.

Bộ mã hóa dự đoán tuyến tính: Bộ mã hóa dự đoán thông dụng nhất.

6. Bộ mã hóa lai

Bộ mã hóa dạng sóng cố gắng duy trì dạng sóng của tín hiệu được mã hóa và có thể cung cấp giọng nói chất lượng cao ở tốc độ bit trung bình (32 kbps), nhưng nó không thể được áp dụng cho các trường hợp tốc độ bit thấp. Bộ mã hóa giọng nói cố gắng tạo ra một tín hiệu tương tự về mặt âm thanh với tín hiệu được mã hóa và có thể cung cấp giọng nói dễ hiểu ở tốc độ bit thấp, nhưng giọng nói kết quả nghe không tự nhiên. Bộ mã hóa lai kết hợp những ưu điểm của cả hai.

RELP: Trên cơ sở dự đoán tuyến tính, phần dư được mã hóa. Cơ chế là: chỉ truyền một phần nhỏ của phần dư, và tái tạo lại tất cả phần còn lại ở đầu nhận (sao chép phần dư của băng gốc).

MPC: mã hóa đa xung, loại bỏ mối tương quan của các phần dư và được sử dụng để bù đắp cho việc phân loại giọng nói đơn giản của vocodo thành có tiếng và không có tiếng mà không có khuyết tật của các trạng thái trung gian.

CELP: dự đoán tuyến tính kích thích trong codebook, sử dụng dự đoán đường âm và dự đoán cao độ theo tầng để gần đúng hơn tín hiệu ban đầu.

MBE: kích thích đa băng tần, mục đích là tránh một số lượng lớn các phép tính CELP, để thu được chất lượng cao hơn so với vocoder.