搜题
网友您好,请在下方输入框内输入要搜索的题目:
搜题
题目内容 (请给出正确答案)
提问人:网友jmyhyu 发布时间:2022-01-07
[主观题]

关于“非结构化数据(文档)的查找与搜索”问题,参考下图,回答下列问题。注意每份文档可能包含数千数万的词汇。

关于“非结构化数据(文档)的查找与搜索”问题,参考下图,回答下列问题。注意每份文档可能包含数千数万的词汇。关于“非结构化数据(文档)的查找与搜索”问题,参考下图,回答下列问题。注意每份文档可能包含数千数万的若要在n个全文文档中(n可能很大)查找与某个关键词最相关的文档,为提高检索效果和检索效率,最好的做法是_____。

A、对这n个文档,首先建立一个“关键词”索引表,该索引表记录着“关键词”及包含该关键词的“文档编号”,并按关键词进行字母序的排序。在此基础上,用给定关键词来匹配索引表中的关键词。如果匹配成功,则输出索引表中相对应的文档编号,否则,则输出信息“没有含该关键词的文档”

B、对这n个文档,首先建立一个“关键词”索引表,该索引表记录着“关键词”,包含该关键词的“文档编号”,以及该关键词在该文档中出现的“次数”,并按关键词进行字母序的排序。在此基础上,用给定关键词来匹配索引表中的关键词。如果匹配成功,则进一步寻找同一关键词“次数”最多的m个索引项,输出相对应的文档编号;否则,则输出信息“没有含该关键词的文档”

C、对这n个文档,首先建立一个“关键词”索引表,该索引表记录着“关键词”,包含该关键词的“文档编号”,以及该关键词在该文档中出现的“次数”;对索引表,按关键词进行字母序的排序;如果关键词相同,则进一步按“次数”对同一关键词的若干文档进行降序排序。在此基础上,用给定关键词来匹配索引表中的关键词。如果匹配成功,则进一步寻找同一关键词“次数”最多的m个索引项,输出相对应的文档编号;否则,则输出信息“没有含该关键词的文档”

D、选项(B)(C)比选项(A)的做法好,但选项(B)(C)在执行效果和执行效率方面没有什么差别

简答题官方参考答案 (由简答题聘请的专业题库老师提供的解答)
  抱歉!暂无答案,正在努力更新中……
更多“关于“非结构化数据(文档)的查找与搜索”问题,参考下图,回答下列问题。注意每份文档可能包含数千数万的词汇。”相关的问题
第1题
【单选题】下列选项中,属于非结构化数据的是:

A、图像

B、HTML

C、XML

D、JSON

点击查看答案
第2题
XML文件属于非结构化文档。
点击查看答案
第3题
平台提供非结构化数据集成,下列不属于UAP提供实现的非结构化数据集成功能场景是()

A. 文件上传、下载

B. 文件在线编辑

C. 文件共享

D. 文件的压缩和解压

点击查看答案
第4题
通用数据库技术在管理像Web上的那些半结构化数据时却有个明显的缺陷,它们是( )。

A、因为数据结构很不规则,在关系数据库系统中,就往往会出现大量的空值,而面向对象数据库系统同样也难设计一个包容不规则数据的数据库模式

B、通用数据库技术能高效的存储和查询半结构数据

C、通用数据库技术能像存储结构化数据一样,组织和存储半结构化数据

D、因为数据的结构稳定不变,定义了数据库模式可以一劳永逸

点击查看答案
第5题
网站内容管理系统
点击查看答案
第6题

下列三个算法是关于“大规模数据集合中查找有无某些元素”问题的算法:针对一个“学生”数据表,如下示意,找出“成绩”为某一分数的所有学生。【算法A1】 Start of algorithm A1 Step 1. 从数据表的第1条记录开始,直到其最后一条记录为止,读取每一条记录,做Step 2。 Step 2. 对每一条记录,判断成绩是否等于给定的分数:如果是,则输出;如果不是,则不输出。 End of algorithm A1 【算法A2】 Start of algorithm A2 Step 1. 从数据表的第1条记录开始,直到其最后一条记录为止,读取每一条记录,做Step 2和Step 3。 Step 2. 对每一条记录,判断成绩是否等于给定的分数:如果等于,则输出;如果不等于,则不输出。 Step 3. 判断该条记录的成绩是否小于给定的分数:如果不是,则继续;否则,退出循环,算法结束。 End of algorithm A2 【算法A3】 Start of algorithm A3 Step 1. 假设数据表的最大记录数是n,待查询区间的起始记录位置Start为1,终止记录位置Finish为n; Step 2. 计算中间记录位置I = (Start+Finish)/2,读取第I条记录。 Step 3. 判断第I条记录的成绩与给定查找分数: (3.1)如果是小于关系,则调整Finish = I-1;如果Start >Finish则结束,否则继续做Step 2; (3.2)如果是大于关系,则调整Start = I+1;如果Start>Finish则结束,否则继续做Step 2; (3.3)如果是等于关系,则输出,继续读取I周围所有的成绩与给定查找条件相等的记录并输出,直到所有相等记录查询输出完毕则算法结束。 End of algorithm A3 针对按成绩降序排列的数据表,假设记录数为n,关于算法A2,下列说法正确的是_____。

A、算法A2在任何情况下都需要读取n条记录,才能得到结果

B、算法A2在任何情况下都需要读取n/2条记录,才能得到结果

C、算法A2在最好的情况下是读取1条记录,在最差的情况是读取n条记录,才能得到结果

D、算法A2在任何数据分布情况下,平均要读取n/2条记录才能得到结果

点击查看答案
第7题
关于“内排序”算法和“外排序”算法,下列说法不正确的是_____。

A、“内排序”算法通常是内存中数据排序常用的算法,而“外排序”算法通常是大规模数据排序常用的算法

B、“内排序”算法由于内存排序应用的频繁性,所以算法要考虑用尽可能少的步骤,而“外排序”算法由于要利用磁盘保存中间结果,所以算法主要考虑尽可能少的读写磁盘

C、无论是“内排序”算法,还是“外排序”算法,都需要考虑读写磁盘的代价问题

D、对一组需要排序的数据,能应用“内排序”算法时,尽量不用“外排序”算法

点击查看答案
第8题

下列三种算法是经常应用的内排序算法:插入排序、选择排序和冒泡排序。阅读下列算法,回答问题。 INSERTION-SORT(A) 1. for i=2 to N 2. { key = A[i] ; 3. j =i-1; 4. While (j>0 and A[j]>key) do 5. { A[j+1]=A[j]; 6. j=j-1; } 7. A[j+1]=key; 8. } SELECTION-SORT(A) 1. for i=1 to N-1 2. { k=i; 3. for j=i+1 to N 4. { if A[j] <a[k] then k="j;" } 5. if> i then 6. { 7. temp =A[k]; 8. A[k]=A[i]; 9. A[i]=temp; 10. } 11. } BUBBLE-SORT(A) 1. for i=1 to N-1 2. { haschange=false; 3. for j=1 to N-i 4. { if A[j]>A[j+1] then 5. { temp =A[j]; 6. A[j]=A[j+1]; 7. A[j]=temp; 8. haschange=true; 9. } 10. } 11. if (haschange ==false) then break; 12. } 阅读BUBBLE-SORT算法,下列说法正确的是_____。

A、该算法在N=20时,必定要执行20个轮次的内循环

B、该算法在N=20时,必定要执行19个轮次的内循环

C、该算法在N=20时,最多要执行20个轮次的内循环

D、该算法在N=20时,最多要执行19个轮次的内循环

点击查看答案
第9题

下列三种算法是经常应用的内排序算法:插入排序、选择排序和冒泡排序。阅读下列算法,回答问题。 INSERTION-SORT(A) 1. for i=2 to N 2. { key = A[i] ; 3. j =i-1; 4. While (j>0 and A[j]>key) do 5. { A[j+1]=A[j]; 6. j=j-1; } 7. A[j+1]=key; 8. } SELECTION-SORT(A) 1. for i=1 to N-1 2. { k=i; 3. for j=i+1 to N 4. { if A[j] <a[k] then k="j;" } 5. if> i then 6. { 7. temp =A[k]; 8. A[k]=A[i]; 9. A[i]=temp; 10. } 11. } BUBBLE-SORT(A) 1. for i=1 to N-1 2. { haschange=false; 3. for j=1 to N-i 4. { if A[j]>A[j+1] then 5. { temp =A[j]; 6. A[j]=A[j+1]; 7. A[j]=temp; 8. haschange=true; 9. } 10. } 11. if (haschange ==false) then break; 12. } 阅读BUBBLE-SORT算法,其中关于haschange变量的作用,下列说法不正确的是_____。

A、haschange用于标记每个轮次的相邻元素比较中,是否有“交换”发生

B、haschange用于判断至某个轮次时是否已完成排序,以便提前结束算法

C、haschange需要在每轮次之前置初始值为假,表示没有“交换”发生

D、上述说法有不正确的

点击查看答案
第10题

PageRank是Google公司提出的计算网页重要度的一种方法。参见下图,简单而言,网页是由“文本”和“链接”构成的,“链接”可使用户从一个网页跳转到另一个网页。因此,所谓“链接”即是某一个网页的地址,通过网页链接的读取,可以建立起各个网页之间的链接关系。对一个网页而言,其链接到其他网页的链接被称为“正向链接”,而所有链接到该网页的链接被称为“反向链接”。关于PageRank算法,回答问题。前述说过 PageRank网页i重要度可以通过迭代地计算得到,即由m-1状态下各个网页的重要度,依转移概率矩阵计算m状态下网页重要度,参见下图。关于网页重要度的计算过程,下列说法正确的是_____。

A、在得到了转移概率矩阵M后,任意给出网页重要度的一组值,记为,是一向量,参见下图,继续进行(B)

B、不断地计算,m从0开始,为迭代次数。当时,迭代计算终止,此时的向量R即为所求的各个网页的重要度

C、选项(A)(B)是将状态序列,...,,...不断迭代产生后趋于稳定的,或者说收敛的,作为最终的R,即是已知M情况下,求方程R = MR的解

D、上述说法都正确

点击查看答案
重要提示: 请勿将账号共享给其他人使用,违者账号将被封禁!
查看《购买须知》>>>
重置密码
账号:
旧密码:
新密码:
确认密码:
确认修改
购买搜题卡查看答案
购买前请仔细阅读《购买须知》
请选择支付方式
微信支付
支付宝支付
点击支付即表示你同意并接受《服务协议》《购买须知》
立即支付
搜题卡使用说明

1. 搜题次数扣减规则:

功能 扣减规则
基础费
(查看答案)
加收费
(AI功能)
文字搜题、查看答案 1/每题 0/每次
语音搜题、查看答案 1/每题 2/每次
单题拍照识别、查看答案 1/每题 2/每次
整页拍照识别、查看答案 1/每题 5/每次

备注:网站、APP、小程序均支持文字搜题、查看答案;语音搜题、单题拍照识别、整页拍照识别仅APP、小程序支持。

2. 使用语音搜索、拍照搜索等AI功能需安装APP(或打开微信小程序)。

3. 搜题卡过期将作废,不支持退款,请在有效期内使用完毕。

请使用微信扫码支付(元)

订单号:

遇到问题请联系在线客服

请不要关闭本页面,支付完成后请点击【支付完成】按钮
遇到问题请联系在线客服
恭喜您,购买搜题卡成功 系统为您生成的账号密码如下:
重要提示:请勿将账号共享给其他人使用,违者账号将被封禁。
发送账号到微信 保存账号查看答案
怕账号密码记不住?建议关注微信公众号绑定微信,开通微信扫码登录功能
警告:系统检测到您的账号存在安全风险

为了保护您的账号安全,请在“简答题”公众号进行验证,点击“官网服务”-“账号验证”后输入验证码“”完成验证,验证成功后方可继续查看答案!

- 微信扫码关注简答题 -
警告:系统检测到您的账号存在安全风险
抱歉,您的账号因涉嫌违反简答题购买须知被冻结。您可在“简答题”微信公众号中的“官网服务”-“账号解封申请”申请解封,或联系客服
- 微信扫码关注简答题 -
请用微信扫码测试
欢迎分享答案

为鼓励登录用户提交答案,简答题每个月将会抽取一批参与作答的用户给予奖励,具体奖励活动请关注官方微信公众号:简答题

简答题官方微信公众号

简答题
下载APP
关注公众号
TOP