关于“非结构化数据(文档)的查找与搜索”问题,参考下图,回答下列问题。注意每份文档可能包含数千数万的词汇。 若要在n个全文文档中(n可能很大)查找有无某个关键词的文档,为提高检索效率,最好的做法是_____。
A、直接用给定关键词来匹配每一份文档中的每一个词汇。若该文档存在匹配成功的词汇,则输出该文档;否则,不输出该文档
B、对这n个文档,首先建立一个“关键词”索引表,该索引表记录着“关键词”及包含该关键词的“文档编号”。在此基础上,用给定关键词来匹配索引表中的关键词。如果匹配成功,则输出索引表中相对应的文档编号;否则,则输出信息“没有含该关键词的文档”
C、对这n个文档,首先建立一个“关键词”索引表,该索引表记录着“关键词”及包含该关键词的“文档编号”,并按关键词进行字母序的排序。在此基础上,用给定关键词来匹配索引表中的关键词。如果匹配成功,则输出索引表中相对应的文档编号,否则,则输出信息“没有含该关键词的文档”
D、选项(B)(C)比选项(A)的做法好,但选项(B)(C)没有效率上的差别