A、语言模型可用于评估某些词汇是否能组成一个合理的句子。
B、n-gram是一种常用的语言模型,可以通过在一个词前面的n个词确定其出现的可能性。
C、语言模型不需要训练就能使用。
D、n-gram语言模型的n取值越大效果一般越好。
A、向量空间模型是把文本表示成向量的形式,方便处理。
B、向量空间模型中的向量维度表示特征的重要度。
C、利用空间向量模型很容易对文本进行聚类分析。
D、通过向量空间模型可以计算文本的重要性。
A、文本不方便直接处理,需要提取表征内容的特征数值化。
B、TF-IDF和互信息都是文本特征提取的方法。
C、one-hot可以表示一个词的重要性。
D、信息增益是文本特征提取的方法。
A、英文文本不需要分词。
B、分词算法都需要一个词典。
C、基于统计的分词方法的性能与训练语料库的质量密切相关。
D、分词合适与否不会引起句子的歧义。
A、文本属于非结构化数据,因此需要经过预处理转化为向量等结构才方便处理。
B、处理文本分类需要经历原始文本的提取、分词等预处理、特征提取与表示、分类模型构建以及评估等阶段。
C、从一个文本集中查询包含某些主题的文本也属于文本分析。
D、从一个word文档中查询是否包含某个词汇属于文本分析。
A、句法分析是有关组成句子的词汇之间的语义关系。
B、依存句法分析组成句子的词与词之间的修饰关系。
C、依存句法分析主要靠大量的预料训练。
D、句法分析可以用于信息检索。
为了保护您的账号安全,请在“简答题”公众号进行验证,点击“官网服务”-“账号验证”后输入验证码“”完成验证,验证成功后方可继续查看答案!