Multimodal Sequential Learning for Video QA
YouTube Viewers YouTube Viewers
22.8K subscribers
576 views
0

 Published On Oct 26, 2017

발표자: 김은솔 (서울대 박사과정)
https://tv.naver.com/naverd2 더욱 다양한 영상을 보시려면 NAVER Engineering TV를 참고하세요.

발표일: 2017.6.

2010년 9월부터 서울대 컴퓨터공학부 석박사 통합과정에 재학 중이며, 2014년 6월 젊은 여성과학자로 선정되었다.

개요:
본 발표에서는 사람과 기계가 컨텐츠를 같이 시청하고 컨텐츠의 내용에 대해 자연 언어로 묻고 답할 수 있는 기계 학습 엔진을 소개한다.
Hierarchical multimodal recurrent neural network 기술을 기반으로 컨텐츠에 포함된 이미지, 자막(텍스트), 소리 정보를 sequential하게 결합하여 multimodal episodic memory를 구축하고, 주어진 질문에 필요한 memory를 선택하여 답을 추출할 수 있는 방법을 소개한다.
또한 recurrent neural network으로 multimodal memory를 구축할 때에 long-term sequence를 효율적으로 학습하기 위한 방법으로, reinforcement learning 아이디어를 결합한 방법을 소개한다.
제안하는 방법을 이용하여 5분 정도의 컨텐츠에 대해 묻고 답하는 데모를 보인다.

(영상 초반 약 10분 정도 녹음 상태가 안 좋은 점 양해 부탁드립니다.)

발표 슬라이드:
https://www.slideshare.net/NaverEngin...

show more

Share/Embed