近年来,基于神经网络的唤醒词发现在干净的音频样本上取得了良好的性能,但在嘈杂的环境中却性能下降。音视频唤醒词识别(AVWWS)受到了很多关注,因为视觉嘴唇运动信息不受复杂声学场景的影响。以前的方法通常使用简单的加法或连接进行多模态融合。模态间相关性仍然相对未得到充分探索。在本文中,我们提出了一个名为帧级跨模态注意(Frame-Level Cross-Modal Attention, FLCMA)的新模块,以提高AVWWS系统的性能。该模块可以通过同步的嘴唇运动和语音信号来帮助在帧级对多模态信息进行建模。我们训练基于端到端FLCMA的Conformer,并通过微调预训练单模态模型来进一步提高AVWWS任务的性能。所提出的系统在远场MISP数据集上实现了新的最先进的结果(2.02%的错误拒绝率和2.55%的错误报警率及4.57%的WWS分数)。