Video Captioning Using Global-Local Representation

Video captioning is a challenging task as it needs to accurately transform visual understanding into natural language description. To date, state-of-the-art methods inadequately model global-local vision representation for sentence generation, leaving plenty o... ...

请注册登录后继续浏览