DSpace@TEDU

Compositional modelling of first-person actions as verb-noun streams using lstm based late fusion strategies

Show simple item record

dc.contributor.advisor Pehlivan, Selin
dc.contributor.author Gökçe, Zeynep
dc.date.accessioned 2019-12-27T16:36:11Z
dc.date.available 2019-12-27T16:36:11Z
dc.date.issued 2019
dc.identifier.uri http://hdl.handle.net/20.500.12485/636
dc.description Birinci-şahıs videolarının analizi, insan hareketlerini içeren birçok probleme çözüm sunmaktadır. Bu videolar, el-nesne etkileşimlerine sahip çok sayıda detaylı eylem kategorisi içerir. Bu tezde, birinci-şahıs videolarındaki insan hareketlerini tanımlamak amacıyla çeşitli füzyon stratejileriyle fiil ve nesne akışlarının birleşimsel modellenmesi önerilmiştir. Fiil akışında, video tabanlı özellikleri çoklu ölçeklerde modellemek için 3 Boyutlu Konvolüsyonlu Sinir Ağı modeli, C3D, kullandık. Nesne akışında ise el ile etkileşimde bulunan nesneleri modellemek için nesne algılama modeli, YOLO, kullandık. Bu iki akışı birleştirmek için iki farklı füzyon stratejisi önerilmiştir. İlkinde, insan hareketleri herhangi bir öğrenme gerçekleştirmeden basit bir çarpımla elde edilmektedir. İkincisinde ise LSTM tabanlı modeller kullanılmıştır. EGTEA Gaze+ veri seti üzerinde iki farklı füzyon metodolojilerinden elde ettiğimiz deneysel sonuçlar, birleşik modellerimizin taban modeli olan C3D hareket modelinden daha başarılı olduğunu göstermiştir. en_US
dc.description.abstract Analysis of first-person videos involving human actions could help in the solutions of many problems. These videos include a large number of fine-grained action categories with hand-object interactions. In this thesis, compositional modeling of verb and object streams with various fusion strategies is proposed to recognize human actions in first-person videos. We utilize 3D Convolutional Neural Network model, C3D, for verb stream to model video-based features in multiple scales, and we utilize object detection model, YOLO, for object stream to model objects interacting with hand. Two fusion strategies are proposed to combine these two streams. In the first one, human actions are obtained by simple multiplication without learning. In the second, LSTM based models are proposed. Experimental results on EGTEA Gaze+ dataset obtained from these two different fusion strategies show that our composite models present promising results compared to the baseline action models. en_US
dc.language.iso en en_US
dc.publisher Master of Interactive Computing and Information Systems en_US
dc.subject Management of information systems en_US
dc.subject Information technology en_US
dc.subject Developmental psychology en_US
dc.title Compositional modelling of first-person actions as verb-noun streams using lstm based late fusion strategies en_US
dc.title.alternative Birinci-şahıs hareketlerinin LSTM tabanlı geç füzyon stratejileri kullanarak fiil-nesne akışları olarak birleşimsel modellenmesi en_US
dc.type Thesis en_US


Files in this item

This item appears in the following Collection(s)

Show simple item record

Search DSpace


Browse

My Account

Statistics