TCS Xplore Java Coding Questions

DCFM: A Dynamic Cross-Modal Fusion Mechanism Based on Adaptive Semantic Gating for Visual Question Answering

Abstract: Visual Question Answering (VQA) represents a fundamental challenge in multimodal artificial intelligence, requiring a fine-grained understanding of both visual scenes and natural language ...

IEEE

MGQA: Mixture Gaussian for Video Grounded Question Answering via VLMs

Abstract: Video question answering has become a cornerstone task for evaluating vision language models. However, existing models often fail to ground their answers in relevant visual evidence or ...

Some results have been hidden because they may be inaccessible to you

Show inaccessible results

DCFM: A Dynamic Cross-Modal Fusion Mechanism Based on Adaptive Semantic Gating for Visual Question Answering

MGQA: Mixture Gaussian for Video Grounded Question Answering via VLMs

Trending now