上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
2.4.4 视觉问答
视觉问答(Visual Question Answering)简称VQA,是近年来非常热门的一个方向。一般来说,视觉问答系统需要将图像和问题作为输入,结合这两部分信息,产生一条人类语言作为输出。针对一幅特定的图像,如果想要机器以自然语言处理(NLP)来回答关于该图像的某个特定问题,就需要让机器对图像的内容、问题的含义和意图、相关的常识有一定的理解。就其本性而言,这是一个多学科研究问题。图2-5为视觉问答过程图。
图2-5 视觉问答过程图