DOI QR코드

DOI QR Code

YOLO Model FPS Enhancement Method for Determining Human Facial Expression based on NVIDIA Jetson TX1

NVIDIA Jetson TX1 기반의 사람 표정 판별을 위한 YOLO 모델 FPS 향상 방법

  • Received : 2019.10.03
  • Accepted : 2019.10.13
  • Published : 2019.10.29

Abstract

In this paper, we propose a novel method to improve FPS while maintaining the accuracy of YOLO v2 model in NVIDIA Jetson TX1. In general, in order to reduce the amount of computation, a conversion to an integer operation or reducing the depth of a network have been used. However, the accuracy of recognition can be deteriorated. So, we use methods to reduce computation and memory consumption through adjustment of the filter size and integrated computation of the network The first method is to replace the $3{\times}3$ filter with a $1{\times}1$ filter, which reduces the number of parameters to one-ninth. The second method is to reduce the amount of computation through CBR (Convolution-Add Bias-Relu) among the inference acceleration functions of TensorRT, and the last method is to reduce memory consumption by integrating repeated layers using TensorRT. For the simulation results, although the accuracy is decreased by 1% compared to the existing YOLO v2 model, the FPS has been improved from the existing 3.9 FPS to 11 FPS.

본 이 논문에서는 NVIDIA Jetson TX1에서 YOLO v2 모델의 정확도를 유지하면서 FPS를 개선하는 방법을 제안한다. 일반적으로, 딥러닝 모델에서는 연산량을 줄여 처리 속도를 높이기 위해 파라미터들을 실수형에서 정수형으로 변환하여 정수 연산을 통해 속도를 높이거나 네트워크의 깊이를 감소시키는 방법을 사용한다. 그러나 이 방법들은 인식 정확도가 떨어질 수 있다. 이 논문에서는 YOLO v2 모델을 이용해 표정인식기를 개발하고 정확도 유지 시키기 위해 정수 연산이나 네트워크 깊이 감소를 사용하는 대신, 다음 세 가지 방법을 통해 연산량 및 메모리 소모를 줄인다. 첫 번째, $3{\times}3$ 필터를 $1{\times}1$ 필터로 교체하여 각 Layer 당 매개 변수 수를 9 분의 1로 줄인다. 두 번째, TensorRT의 추론 가속 기능 중 CBR (Convolution-Add Bias-Relu)을 통해 연산량을 줄이고, 마지막으로 TensorRT를 사용하여 반복되는 동일한 연산구조를 가진 레이어를 통합하여 메모리 소비를 줄인다. 시뮬레이션 결과, 기존 YOLO v2 모델에 비해 정확도는 1 % 감소했지만 FPS는 기존 3.9 FPS에서 11 FPS로 282%의 속도 향상을 보였다.

Keywords

References

  1. Large Scale Visual Recognition Challenge (2018). http://www.image-net.org/challenges/LSVRC/ (accessed Oct., 15, 2018).
  2. Ren, S., He, K., Girshick, R., Sun. J, "Faster r-cnn: Towards real-time object detection with region proposal networks. In Advances in neural," information processing systems, pp. 91-99, 2015
  3. Redmon, J., Divvala, S., Girshick, R., Farhadi, A, "You only look once: Unified, real-time object detection," Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 779-788, 2016
  4. Redmon, J., Farhadi, A., "YOLO9000: better, faster, stronger," arXiv preprint, 2017
  5. M.H Lee, W.C Kang, "Performance Enhancement and Evaluation of a Deep Learning Framework on Embedded Systems using Unified Memory," KIISE Transactions on Computing Practices, Vol.23, No.7, 2017
  6. Szegedy, C., Liu, W., Jia, Y., Sermanet, P., Reed, S., Anguelov, D., Rabinovich, A., "Going deeper with convolutions," Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 1-9, 2015
  7. Gong, Y., Liu, L., Yang, M., Bourdev, L., "Compressing deep convolutional networks using vector quantization," arXiv preprint arXiv:1412.6115, 2014
  8. Han, S., Mao, H., & Dally, W. J., "Deep compression: Compressing deep neural networks with pruning, trained quantization and huffman coding,"arXiv preprint arXiv:1510.00149, 2015