Методология одновременной локализации двух перекрывающихся акустических источников на основе глубокого обучения и разделения источников

Авторы

  • Джиах Михаил Шаход

DOI:

https://doi.org/10.24160/1993-6982-2025-6-171-178

Ключевые слова:

глубокое обучение, разделение акустических источников, акустического источника, перекрывающиеся источники звука, реверберирующая среда, микрофонная решетка, двунаправленная долговременная краткосрочная память, идеальная бинарная маска

Аннотация

Методы глубокого обучения для решения проблемы локализации нескольких акустических источников должны расширять размер обучающего набора данных для достижения более высокой обобщающей способности за счет включения большинства возможных сценариев расположения акустических источников, что требует больших вычислительных затрат на обучение. Задача становится более сложной и требует дополнительных вычислительных мощностей, когда источники звука активны и перекрываются в частотно-временной области в среде со сложными акустическими условиями.

Предложена новая методика для одновременной локализации двух перекрывающихся акустических источников в замкнутой реверберирующей среде с пространственным разрешением 10о с использованием микрофонной решетки небольшого размера. Методика основана на интеграции метода разделения акустических источников с моделью локализации единственного акустического источника. Представлена гибридная модель для разделения сигналов акустических источников, полученных каждым микрофоном в решетке. Она построена с использованием сети двунаправленной долговременной краткосрочной памяти и обучена на наборе данных с использованием идеальной бинарной маски в качестве цели обучения. Результаты моделирования показали, что предложенная методика локализации эффективна при определении направлений двух перекрывающихся источников одновременно со средней точностью локализации 86,1% для тестового набора данных, содержащего кратковременные сигналы длительностью 500 мс с различными значениями отношения сигнал–сигнал.

Биография автора

Джиах Михаил Шаход

аспирант 2-го года обучения кафедры систем автоматики, автоматизированного управления и проектирования Института космических и информационных технологий Сибирского федерального университета, Красноярск, e-mail: ghiathlovealaa@gmail.com

Библиографические ссылки

1. Schmidt R. Multiple Emitter Location and Signal Parameter Estimation // IEEE Transactions on Antennas and Propagation. 1986. V. 34(3). Pp. 276—280.

2. Zhu N., Reza T. A Modified Cross-correlation Algorithm to Achieve the Time Difference of Arrival in Sound Source Localization // Measurement and Control. 2019. V. 52(3—4). Pp. 212—221.

3. Chiariotti P., Martarelli M., Castellini P. Acoustic Beamforming for Noise Source Localization — Reviews, Methodology and Applications // Mechanical Systems and Signal Proc. 2019. V. 120. Pp. 422—448.

4. Knapp C., Carter G. The Generalized Correlation Method for Estimation of Time Delay // IEEE Trans. Acoustics, Speech and Signal Proc. 1976. V. 24(4). Pp. 320—327.

5. Cobos M., Marti A., Lopez J.J. A Modified SRP-PHAT Functional for Robust Real-time Sound Source Localization with Scalable Spatial Sampling // IEEE Signal Proc. Letters. 2010. V. 18(10). Pp. 71—74.

6. Шаход Д.М., Агафонов Е.Д. Анализ подходов и методов локализации акустических источников // Журнал Сибирского федерального ун-та. Серия «Техника и технологии». 2024. Т. 17. № 3. С. 380—398.

7. Nguyen T.N.T., Gan W.S., Ranjan R., Jones D.L. Robust Source Counting And DOA Estimation Using Spatial Pseudo-spectrum And Convolutional Neural Network // IEEE/ACM Trans. Audio, Speech, and Language Proc. 2020. V. 28. Pp. 2626—2637.

8. Adavanne S., Politis A., Nikunen J., Virtanen T. Sound Event Localization and Detection of Overlapping Sources Using Convolutional Recurrent Neural // IEEE J. Selected Topics in Signal Proc. 2018. V. 13(1). Pp. 34—48.

9. Chen L., Chen G., Huang L., Choy Y.S., Sun W. Multiple Sound Source Localization, Separation, and Reconstruction by Microphone Array: a DNN-based Approach // Appl. Sci. 2022. V. 12(7). P. 3428.

10. He W., Motlicek P., Odobez J.M. Deep Neural Networks for Multiple Speaker Detection and Localization // Proc. 2018 IEEE Intern. Conf. Robotics and Automation (ICRA)/IEEE. Brisbane, 2018. Pp. 74—79.

11. Chakrabarty S., Habets E.A. Multi-speaker DOA Estimation Using Deep Convolutional Networks Trained with Noise Signals // IEEE J. Selected Topics in Signal Proc. 2019. V. 13(1). Pp. 8—21.

12. Шаход Д.М., Агафонов Е.Д. Комбинированная модель локализации акустических источников с применением технологии глубокого обучения // Вестник Томского государственного университета. Серия «Управление, вычислительная техника и информатика». 2024. № 68. С. 100—111.

13. Siano D., Viscardi M., Panza M. A. Experimental Acoustic Measurements in Far Field and Near Field Conditions: Characterization of a Beauty Engine Cover // Recent Advances in Fluid Mechanics and Thermal Eng. 2014. V. 12. Pp. 50—57.

14. Alpkocak A., Sis M. Computing Impulse Response of Room Acoustics Using the Ray-tracing Method in Time Domain // Archives of Acoustics. 2010. V. 35(4). Pp. 505—519.

15. Шаход Д.М., Ибряева О.Л. Метод подавления акустического эха на основе рекуррентной нейронной сети и алгоритма кластеризации // Вестник ЮУрГУ. Серия «Вычислительная математика и информатика». 2022. Т. 11. № 2. С. 43—58.

16. Naithani G., Parascandolo G., Barker T., Pontoppidan N.H., Virtanen T. Low-latency Sound Source Separation Using Deep Neural Networks // Proc. 2016 IEEE Global Conf. Signal and Information Proc. 2016. Pp. 272—276.

17. RIR-Generator [Электрон. ресурс]. https://github.com/ehabets/RIR-Generator. (дата обращения 05.02.2025).

18. Allen J.B., Berkley D.A. Image Method for Efficiently Simulating Small‐room Acoustics // J. Acoustical Soc. of America. 1979. V. 65(4). Pp. 943—950.

19. Salehin I., Kang D.K. A Review on Dropout Regularization Approaches for Deep Neural Networks within the Scholarly Domain // Electronics. 2023. V. 12(14). P. 3106.

20. Lewkowycz A., Gur-Ari G. On the Training Dynamics of Deep Networks with L2 Regularization // Advances in Neural Information Proc. Systems. 2020. V. 33. Pp. 4790—4799.

---

Для цитирования: Шаход Джиах Михаил. Методология одновременной локализации двух перекрывающихся акустических источников на основе глубокого обучения и разделения источников // Вестник МЭИ. 2025. № 6. С. 171—178. DOI: 10.24160/1993-6982-2025-6-171-178.

#

1. Schmidt R. Multiple Emitter Location and Signal Parameter Estimation. IEEE Transactions on Antennas and Propagation. 1986;34(3):276—280.

2. Zhu N., Reza T. A Modified Cross-correlation Algorithm to Achieve the Time Difference of Arrival in Sound Source Localization. Measurement and Control. 2019;52(3—4):212—221.

3. Chiariotti P., Martarelli M., Castellini P. Acoustic Beamforming for Noise Source Localization — Reviews, Methodology and Applications. Mechanical Systems and Signal Proc. 2019;120:422—448.

4. Knapp C., Carter G. The Generalized Correlation Method for Estimation of Time Delay. IEEE Trans. Acoustics, Speech and Signal Proc. 1976;24(4):320—327.

5. Cobos M., Marti A., Lopez J.J. A Modified SRP-PHAT Functional for Robust Real-time Sound Source Localization with Scalable Spatial Sampling. IEEE Signal Proc. Letters. 2010;18(10):71—74.

6. Shakhod D.M., Agafonov E.D. Analiz Podkhodov i Metodov Lokalizatsii Akusticheskikh Istochnikov. Zhurnal Sibirskogo Federal'nogo Un-ta. Seriya «Tekhnika i Tekhnologii». 2024;17;3:380—398. (in Russian).

7. Nguyen T.N.T., Gan W.S., Ranjan R., Jones D.L. Robust Source Counting And DOA Estimation Using Spatial Pseudo-spectrum And Convolutional Neural Network. IEEE/ACM Trans. Audio, Speech, and Language Proc. 2020;28:2626—2637.

8. Adavanne S., Politis A., Nikunen J., Virtanen T. Sound Event Localization and Detection of Overlapping Sources Using Convolutional Recurrent Neural. IEEE J. Selected Topics in Signal Proc. 2018;13(1):34—48.

9. Chen L., Chen G., Huang L., Choy Y.S., Sun W. Multiple Sound Source Localization, Separation, and Reconstruction by Microphone Array: a DNN-based Approach. Appl. Sci. 2022;12(7):3428.

10. He W., Motlicek P., Odobez J.M. Deep Neural Networks for Multiple Speaker Detection and Localization. Proc. 2018 IEEE Intern. Conf. Robotics and Automation (ICRA)/IEEE. Brisbane, 2018:74—79.

11. Chakrabarty S., Habets E.A. Multi-speaker DOA Estimation Using Deep Convolutional Networks Trained with Noise Signals. IEEE J. Selected Topics in Signal Proc. 2019;13(1):8—21.

12. Shakhod D.M., Agafonov E.D. Kombinirovannaya Model' Lokalizatsii Akusticheskikh Istochnikov s Primeneniem Tekhnologii Glubokogo Obucheniya. Vestnik Tomskogo Gosudarstvennogo Universiteta. Seriya «Upravlenie, Vychislitel'naya Tekhnika i Informatika». 2024;68:100—111. (in Russian).

13. Siano D., Viscardi M., Panza M.A. Experimental Acoustic Measurements in Far Field and Near Field Conditions: Characterization of a Beauty Engine Cover. Recent Advances in Fluid Mechanics and Thermal Eng. 2014;12:50—57.

14. Alpkocak A., Sis M. Computing Impulse Response of Room Acoustics Using the Ray-tracing Method in Time Domain. Archives of Acoustics. 2010;35(4):505—519.

15. Shakhod D.M., Ibryaeva O.L. Metod Podavleniya Akusticheskogo Ekha na Osnove Rekurrentnoy Neyronnoy Seti i Algoritma Klasterizatsii. Vestnik Yuurgu. Seriya «Vychislitel'naya Matematika i Informatika». 2022;11;2:43—58. (in Russian).

16. Naithani G., Parascandolo G., Barker T., Pontoppidan N.H., Virtanen T. Low-latency Sound Source Separation Using Deep Neural Networks. Proc. 2016 IEEE Global Conf. Signal and Information Proc. 2016:272—276.

17. RIR-Generator [Elektron. Resurs]. https://github.com/ehabets/RIR-Generator (Data Obrashcheniya 05.02.2025).

18. Allen J.B., Berkley D.A. Image Method for Efficiently Simulating Small‐room Acoustics. J. Acoustical Soc. of America. 1979;65(4):943—950.

19. Salehin I., Kang D.K. A Review on Dropout Regularization Approaches for Deep Neural Networks within the Scholarly Domain. Electronics. 2023;12(14):3106.

20. Lewkowycz A., Gur-Ari G. On the Training Dynamics of Deep Networks with L2 Regularization. Advances in Neural Information Proc. Systems. 2020;33:4790—4799

---

For citation: Shahoud Ghiath Mykhaeil. Methodology for Simultaneously Localizing Two Overlapping Acoustic Sources Based on Deep Learning and Source Separation. Bulletin of MPEI. 2025;6:171—178. (in Russian). DOI: 10.24160/1993-6982-2025-6-171-178.

Опубликован

2025-12-26

Выпуск

Раздел

Системный анализ, управление и обработка информации (2.3.1)