Leveraging Motion in Videos
Do you see what I see? Large-scale learning from multimodal videos
Video-Modelling for Fine-Grained Understanding
Representing Longer Videos - TokenLearner
Efficient and Compositional Human Event Understanding
吹爆!B站公认最完整的神经网络算法教程,CNN+RNN循环+GAN+DQN+LSTM+Transformer+GNN+DBN八大深度学习算法一口气学到饱!
ViLBench:多模态过程奖励(Process Reward)建模组件
【多模态与交叉注意力应用】什么叫跨模态对齐?跨模态学习又是什么?AI博士一篇全讲透!AI大模型|人工智能|交叉注意力机制|计算机视觉|AI|论文辅导
强推!草履虫都能一口气学完CNN、RNN、GAN、GNN、DQN、Transformer、LSTM、DBN等八大深度学习神经网络算法!真的比刷剧还爽!
Learning the physical world from High-resolution Tactile Sensing
AI视觉大模型教程(LLM+多模态+SAM+视觉Prompt+CV+学习路线图)从入门到实战简直配享太庙!
油管爆火!基于3D点云的自动驾驶导航系统!3D PointNet算法从原理到实战,科研圈大佬亲讲【完整版3D点云】计算机视觉必学!
强推!科大讯飞和中科院终于把多模态大模型讲明白了,基于Qwen2.5-VL 32B,看完还不会你来打我!人工智能|深度学习|多模态
多模态经典论文集2:ViLT
【多模态模型】10分钟学会基于DeepSeek+Qwen VL多模态搭建的医学影像分析系统,实现图像理解和健康建议生成的智能化处理!大模型|多模态|LLM
Gemini 2.5 Flash 拥有无限的潜力,多模态+思考推理+coding无敌的组合,几个demo测试
多模态大模型部署与微调实战!基于Qwen2.5-VL-32B(VLLM部署千问VL+LangChain+Agent+RAG等应用开发项目实战)
冒死上传!已经替大家付费了,花19980买的AI大模型系统教程,逼自己一周学完国产最强AI大模型,七天就能从小白到大神!
B站目前讲的最好的【Transformer教程】!20分钟让初中生全面理解Transformer,建议收藏!——人工智能/深度学习/大模型
10s CNB一键vllm部署Qwen2.5-Omni(Dift/Open WebUI)