伊芙·卡莉虽然一时有点难以接受这个事实,但她很快将心情平复下来。
无论是零和博弈也好,还是非零和博弈也罢。
虽然在和LIN HUI的竞争中她们团队落败了,但她输的心服口服。
LIN HUI的算法无论是在实际表现效率上还是算法理论上都是碾压式的领先,而不是领先一点半点。
如果只领先一点半点,那或许是侥幸而已,但碾压式的领先则意味着无法质疑的实力差距。
对此伊芙·卡莉认识的很深刻,LIN HUI提出来的生成式摘要算法甚至开创了一些前所未有的细分领域研究。
比较容易知道的全新细分领域有自然语言处理的情感分析。
这个方向对于以前只进行过抽取式文本摘要研究的伊芙·卡莉来说是个全新的课题。
但这远远不是全部,LIN HUI提出来的生成式摘要算法应该还会涉及很多开创性的东西。
但由于管中窥豹的原因,伊芙·卡莉暂时还不清楚LIN HUI的算法具体涉及到多少开创性的研究。
虽然不清楚具体涉及多少个全新细分领域。
但伊芙·卡莉凭借科研人的直觉,LIN HUI的算法保守估计要涉及到五六个开创性的细分领域研究。
然而也正是因此,让伊芙·卡莉很不理解。
明明LIN HUI的算法领先那么多,为什么还要寻求很多“低级”专利的收购呢?
伊芙·卡莉看了下专利网站上LIN HUI灰谋求收购的那几个专利。
似乎都很“低级”的样子。
说到低级和高级之分,专利本身拿出来并没有低级和高级的分别。
但在一个研究体系中却因负责的分工不同所处的层次不同会出现低级和高级之分。
在LIN HUI提出了生成式文本摘要算法之后。
现在的自动文摘实现方法主要分为抽取式方法和生成式方法。
经过近期对生成式摘要算法技术路线的研究伊芙·卡莉已经能够很容易的理解生成式文本摘要和传统抽取式文本摘要的区别。
所谓的抽取式摘要是从原始文档中提取关键文本单元来组成摘要。
而生成式摘要则是根据对输入原始文本的理解来形成摘要,生成式摘要模型试图去理解文本的内容,可以生成原文中没有的单词,更加接近摘要的本质,具有生成高质量摘要的潜力。
虽然这两者在具体摘要上略有区别,但此二者本质上都是自动文本摘要。
既然二者都是自动文本摘要,那么这两者的技术框架就都可以概括为:
内容表示→权重计算→内容选择→内容组织。
Ⅰ内容表示是将原始文本划分为文本单元的过程,主要是分字、词、句等预处理工作;
内容表示的主要目的是通过预处理将原始文本处理成算法容易进行分析的形式。
Ⅱ权重计算则是要对文本单元(即预处理后原始文本)计算相应的权重评分,权重的计算方式多样,如基于特征评分、序列标注、分类模型等提取内容特征计算权重。
这个步骤的目的是通过这一系列计算完成对预处理后的原始文本实现初步分析。
Ⅲ内容选择是对经过计算权重后的文本单元(即经过步骤Ⅱ权重分析过的文本)选择相应的文本单元子集组成摘要候选集,可根据要求的摘要长度、线性规划、次模函数、启发式算法等选择文本单元;
Ⅳ内容组织是指对候选集的内容进行整理形成最终摘要,可根据字数要求按顺序输出,也有研究者提出使用基于语义信息、模板和深度学习的方法来产生符合要求的摘要。
(ps:……通俗理解的话,Ⅱ有点类似于进行文章阅读概括的时候,找出关键段落;
Ⅲ类似于在Ⅱ的基础上进一步找出关键句、关键词的过程;
Ⅳ则类似于确定关键句、关键词之后用合适的语言形成最终阅读概括的过程)
从技术框架的这几个层次的对应描述来看,可以看出无论是权重计算还是内容选择抑或是内容组织此三者都是很重要的。
如果搞不定权重计算和内容选择的话则根本搞不清楚摘要的时候具体对文本哪些地方进行摘要。
毕竟一篇文章不是所有的地方都是重点,就像我们进行阅读概括的时候,一般都会将注意力放在首段末段和每段开头结尾处,可以说权重计算和内容选择所起的作用就是判断要处理的文本的对应文本特征点主要集中在什么位置。
如果搞不定内容组织的话即便能够找出文本特征最密集的地方也没办法得到合理通顺的文本摘要。
内容表示相对于此三者则显得不怎么重要。
正因为上述的分工,如果涉及到文本摘要的东西要分层次的话。
那么和权重计算、内容选择、内容组织这三者相关的专利都可以说是文本摘要这个体系中的高级专利。
而和内容表示有关的专利则是低级专利。
而《文本判断甄别比较的一种新方法》本质上是用来甄别原始文本的。
按照刚才的介绍这无