英语论文艺术论文会计审计论文土建类论文农业科学论文代写论文专区公文范文代发论文代写作业论文检索代写论文价格论文格式留学生论文高中教学论文哲学论文政治论文经济学论文理工科学论文护理学论文管理科学论文教育学论文其他资料计算机科学论文医药学论文法律论文日本语论文文学媒体论文文化历史学论文社会学论文代写体育论文

英语翻译论文英美文学论文英语语言学论文英语其它商务英语论文英美文化论文

学科教育论文信息技术论文德育管理论文素质教育论文图书馆学论文教育心理学论文小学语文高效课堂论文小学语文电教论文小学英语电教论文小学数学电教论文中学英语电教论文中学音乐电教论文小学电教教育论文小学科学电教论文中学数学电教论文初中数学电教论文生物自然教学论文历史教学论文地理教学论文教育理论论文教育管理论文基础教育论文中等教育论文高等教育论文职业教育论文英语教学论文语文教学论文政治教育论文数学教学论文物理教学论文化学教学论文体育教学论文美术论文音乐论文中学化学电教论文

药学论文医学论文题目医学论文投稿医学论文格式医学其他泌尿科论文眼科论文外科论文医学硕士论文呼吸消化论文医院管理论文临床医学论文中医学论文医患关系论文

建筑工程论文土木工程论文城市规划论文建筑论文

工商管理论文管理基本理论论文成本管理论文档案管理论文企业研究论文管理理论论文企业文化论文项目管理论文MPA论文经济管理论文风险管理论文行政管理论文图书馆管理论文公共管理论文工程管理论文旅游管理论文市场营销论文人力资源管理论文秘书文书论文物流供应链管理论文信息管理论文电子商务论文战略管理论文代写mba论文

财政税收论文技术经济学论文农业经济论文债务市场论文投资决策论文融资决策论文宏观经济论文经济相关论文货币银行论文保险论文金融证券论文国际贸易论文中国经济论文经济学理论论文行业经济论文国际经济论文发展战略论文国民经济核算论文

财务分析论文MPACC论文财务控制论文会计研究论文财务管理体制论文成本会计论文审计论文电算化会计论文CPA行业论文管理会计论文会计理论论文会计毕业论文

国际法论文法学史论文公司法论文合同法论文经济法论文知识产权法论文司法制度论文法学理论论文国际商法论文宪法论文行政法论文刑法论文民法论文诉讼法论文

软件工程论文计算机网络论文计算机应用论文计算机安全论文计算机专业论文计算机论文范文

汉语言学论文古代文学论文现当代文学论文新闻传播学论文

中国古代史论文中国近代史论文传统文化论文文化战略论文宗教文化论文

农村研究论文人口问题论文伦理道德论文心理学论文社会其他民俗学论文

民主制度论文毛泽东思想论文政治学论文国际关系论文科学发展观论文马克思主义论文资本主义论文社会主义论文政治哲学论文邓小平理论论文

逻辑学论文中国哲学论文西方哲学论文国学论文美学哲学论文

音乐舞蹈论文环境艺术设计论文园林艺术论文网页设计论文室内设计论文戏剧论文动漫设计论文平面设计论文美学论文艺术理论论文电影电视论文美术绘画论文传播学论文

主题模型的快速吉布斯采样主题推断算法计算机研究

时间:2018-12-21 22:30来源:硕士论文作者:lgg 点击:
本文是一篇计算机论文,计算机操作系统是管理、控制和监督计算机软、硬件资源协调运行的程序系统,由一系列具有不同控制和管理功能的程序组成,它是直接运行在计算机硬件上的、最基本
本文是一篇计算机论文,计算机操作系统是管理、控制和监督计算机软、硬件资源协调运行的程序系统,由一系列具有不同控制和管理功能的程序组成,它是直接运行在计算机硬件上的、最基本的系统软件,是系统软件的核心。(以上内容来自百度百科)今天为大家推荐一篇计算机论文,供大家参考。
 
1绪论
 
1.1研究意义
随着智能手机的逐渐普及以及互联网(尤其是移动互联网)的飞速发展,网络上文本类型数据的数量呈现近乎爆炸式地增长,政府、企业以及个人对智能文本挖掘方法的需求越来越强[1, 2]。为解决这些需求,学术界相继提出了一系列的智能文本挖掘方法[3-5],比如用于文本自动分类任务[6]中的朴素贝叶斯方法[7]、支持向量机方法[8]、K-最近邻方法[9]和人工神经网络方法[10]等。在已提出的众多文本挖掘方法中,主题模型(topic model)[11-14]是一类能够有效地挖掘和发现文本数据中潜在语义主题的非监督学习方法[15]。本质上,主题模型是基于概率图模型理论[16, 17]的一种概率生成模型(probabilistic generative model),是贝叶斯统计模型中的一种多层次混合模型(hierachical mixture model)。这类模型的一般性特点是:在模型的生成过程中假设文本是主题(topic)的混合,并且每个主题是词型(word type)上的一个概率分布。和传统的基于词项频率[18](term frequency)特征的判别方法(discriminative method)相比,主题模型能够有效地发现位于词项特征之上的隐含语义主题特征,以满足在更高抽象层次上对文本进行组织和管理的需求。通过采用主题模型对文本数据进行分析,我们可以从主题的角度对网络上的文本进行浏览和搜索,也可以对网络上某个主题随时间发生的演化进行分析[19-21]。从应用的角度来看,主题模型自提出后就被广泛地应用在机器学习和数据挖掘的多个子领域和任务中[22],包括文本分类[23-28]、特征降维[29, 30]、语音识别[31-34]、情感分析[35-39]、社交网络分析[40-43]、图像识别[44-46]、视频监控[47-51]等。这主要是因为,主题模型不仅能发现文本数据中的潜在语义主题,也能发现许多其他应用领域离散类型数据中潜在的高层抽象概念。在已提出的各种主题模型中,潜在狄利克雷分配(Latent Dirichlet Allocation, LDA)模型是最早被提出的一种典型的主题模型,也是最简单的一种有代表性的主题模型,最初,LDA模型作为一种非监督方法被提出,并仅用来处理没有标签信息的文本数据[52, 53]。随后,不同领域的学者在LDA模型的基础上进行了广泛而深入的研究[54]。通过结合各自领域的知识和数据特点,学者们对LDA模型进行相应的扩展,并提出了各种不同的主题模型[55]。
..........
 
1.2研究现状
主题模型是用于分析文本数据中的潜在主题,一般包括文本、主题和词项三个层次的一种概率生成模型。主题模型的主要想法是从语义特征层次对文本数据进行分析,以解决在词型特征层次对文本数据进行分析时遇到的问题。作为一种概率生成模型,主题模型在被提出之后经历了从部分概率化到完全概率化的完善过程。在完全概率化之后,主题模型又结合特定问题或者特定任务进一步地发展。下面从主题模型的针对问题、思路基础、提出和完善、以及后续发展等几个主要部分阐述主题模型的起源和发展。如前所述,主题模型从较抽象的语义特征层次对文本数据进行分析,以解决在较具体的词型特征层次对文本数据进行分析时遇到的问题。具体地,信息检索领域和文本分类任务中的判别方法主要是在以词型为特征的向量空间模型框架下基于词频的统计信息进行,存在“没有有效利用隐含在词型特征背后语义特征信息”的问题。以文本分类任务为例,由于文本数据中通常存在噪声、多义词、同义词等情况,会造成文本数据在词型向量空间中的类分布异常、类分布重叠、类分布不规则以及线性不可分等问题,而这些问题最终会在一定程度上会影响判别方法的实际效果。1990年,Deerwester等人[60]针对词频方法[18]不能挖掘潜在语义信息的问题,提出了潜在语义索引(Latent Semantic Index, LSI)模型。该模型通过奇异值分解寻找潜在语义特征空间,并能将文本或者词型映射到这个语义特征空间。LSI模型不仅能捕捉潜在的语义信息,同时能明显地降低特征空间的维度。然而,由于LSI模型不是概率生成模型,因此从严格意义上来看它不能算为主题模型。但是,LSI模型中挖掘和发现潜在语义的基本思想为之后主题模型的提出提供了思想基础。
..............
 
2本章介绍
 
2.1 LDA StdGibbs SparseLDA
LDA模型的关键思想是:假设每个主题是所有词型上的一个多项分布,并且每个文本内的各个词项由各主题的一个特定混合所生成。其中,每个词项的主题、每个文本内各主题的混合系数以及每个主题的多项分布都是非观测的隐变量,需要通过非监督的学习方法从数据集推断得到。从概率图模型的角度,LDA模型可以看作一个三层的层次贝叶斯模型。这三个层次分别对应文本层、主题层和词项层。需要说明的是,尽管LDA模型是在文本建模的背景下被提出来,但是它也可以应用到类似文本数据集的其他离散数据集上。此外,还需要说明的是wd,n是观测量,d,t和zd,n非观测量。具体地,d和t是需要学习的参数,zd,n是需要推断的变量。因此,总的来说LDA模型的主要任务就是在给定各文本内词项(wd,n)的情况下,计算各词项主题标识(zd,n)、各文本内主题混合比重(d)以及各主题内词型概率分布(t)的后验概率分布。作为计算后验概率分布的一种有效方法,吉布斯采样算法首先通过边缘化操作去除参数 和 ,然后对变量z进行推断,最后再由变量z得到参数 和 的估计。本章的下一小节将详细地介绍吉布斯采样算法推断LDA模型主题变量的具体过程和相关细节。
.........
 
2.2 BTM StdBTM
本节介绍BTM模型和它的标准吉布斯采样算法(StdBTM算法)。这些内容是本文第四章(SparseBTM算法)和第五章(ESparseBTM算法)的重要基础。本节的重点内容是StdBTM算法的框架流程和时间复杂度。和LDA模型通过学习文本内词项共现模式来挖掘潜在语义主题不同,BTM模型通过学习整个数据集内的词项共现模式来挖掘潜在语义主题。为捕捉整个数据集内的词项共现模式,BTM模型首先产生了一个双词数据集。在BTM模型中,一个双词是出现在同一个上下文中的两个词项组成的一个无序词项对。简单来说,这个上下文可以看作是包含一串连续词项的文本窗口。一般地,在短文本数据集中每个短文本可以看作是一个文本窗口。在这种情况下,任何两个出现在同一短文本中的词项可以组合成一个双词。举例来说,在短文本“She likes play piano”中,在去除停用词“She”之后总共产生了三个双词,包括(likes, play)、(likes, piano)和(play, piano)。同时,由于这三个双词彼此是不同的,所以每个双词对应一个双词类型。需要说明的是一个双词是一个无序词项对,因此双词(likes, play)和(likes,play)对应同一个双词类型。
.......
 
第3章 适用于长文本主题推断的快速吉布斯采样算法(ESparseLDA).....27
3.1引言.....27
3.2问题提出........29
3.3解决思路........29
3.4提出方法........31
3.5实验结果与分析.......38
3.6本章小结........49
第4章 适用于短文本主题推断的快速吉布斯采样算法(SparseBTM).....51
4.1引言.....514.2算法思路........52
4.3算法框架........58
4.4实验结果与分析.......66
4.5本章小结........74
第5章 基于重排双词的适用于短文本主题推断的快速吉布斯采样算法(ESparseBTM)....77
5.1引言.....77
5.2问题提出........78
5.3解决思路........78
5.4提出方法........79
5.5实验结果与分析.......82
5.6本章小结........86
 
第5章 基于重排双词的适用于短文本主题推断的快速吉布斯采样算法(ESparseBTM)
 
5.1引言
通过分析可以发现,BTM模型的SparseBTM算法采用缓存策略计算S项并将计算单个S项的时间复杂度由O(K)降为O(1),同时采用稀疏策略计算I项、J项和Q项并将计算单个I项、J项或者Q项的时间复杂度由O(K)降为O(Kw)。可以明显地看到,缓存策略(由O(K)降为O(1))能比稀疏策略(由O(K)降为O(Kw))减少更多的计算量。那么,l为什么在SparseBTM算法中I项、J项和Q项不能由用于计算S项的缓存策略得到?l如何能够在SparseBTM算法中采用缓存策略计算I项、J项和Q项?l采用缓存策略计算I项、J项和Q项能把SparseBTM算法的时间复杂度降低多少?本章将逐一解决这三个问题。在这个过程中本章基于SparseBTM算法提出了一种时效性更高的用于BTM模型双词主题推断的快速吉布斯采样算法——ESparseBTM算法。简单来说,ESparseBTM算法的主要想法是首先根据双词词型重排整个数据集的双词词项,然后在不改变SparseBTM算法精度的前提下,通过重用更多的中间计算结果来提高SparseBTM算法的时效性。ESparseBTM算法的想法简单直观并易于理解实现。理论上地,ESparseBTM算法将BTM模型推断双词主题的时间复杂度由SparseBTM算法的O(|B|Kw)降为O(Rb|B|Kw) (0<Rb<1,Rb表示整个数据集内的双词词型个数和双词词型个数的比值)(本章使用符号的说明参见表4.1)。实际情况中,对比实验的结果表明在使用的不同数据集上ESparseBTM算法的时效性高于SparseBTM算法6.4%至39.5%。
..........
 
结论
 
主题模型是一种能够有效地挖掘和发现文本数据中潜在语义主题的非监督学习方法。在主题模型研究领域中,提高挖掘主题的“准确性”和“时效性”是两个关键的基本问题。本文针对主题模型挖掘过程的“时效性”进行研究,在不改变算法结果“准确性”的前提下提出了三种用于主题模型的快速吉布斯采样主题推断算法——用于LDA模型的ESparseLDA算法以及用于BTM模型的SparseBTM算法和ESparseBTM算法。具体地,本文的主要工作内容如下:(1)为解决LDA模型的SparseLDA算法在主题推断过程中存在的“重用计算”问题,我们基于SparseLDA算法提出了一种精确的和时效性更高的用于LDA模型主题推断的快速吉布斯采样算法——ESparseLDA算法,并从理论分析和对比实验两个方面验证了ESparseLDA算法思路的正确性、结果的精确性和收敛速度的时效性。LDA模型是一种较具有代表性和一般性的主题模型。SparseLDA算法是用于LDA模型的一种精确的和快速的吉布斯采样主题推断算法。然而,由于在主题推断过程中“相邻词项的词型通常是不同的”导致它“不能重用更多的中间计算结果”。因此,它的时效性受到了限制而不能进一步地得到提高。ESparseLDA算法解决这个问题的核心想法是:首先根据词型重排每个文本内的词项,以使得文本内词型相同的词项聚集在一起;然后采用缓存策略以重用更多的中间计算结果,并最终达到提高算法时效性的目的。ESparseLDA算法完成和SparseLDA算法同样的任务,但是它通过重用更多的中间计算结果提高了主题推断过程的时效性,并且保证结果的精确度不变。理论上,ESparseLDA算法的时间复杂度低于SparseLDA算法。具体地,相比于SparseLDA算法ESparseLDA算法提升时效的百分比为(1-Rw)(Kw-C)/Kw′100%。其中,Rw(0<Rw<1)表示数据集内所有文本的宏平均词型词项比;Kw(0<Kw<K)表示主题-词型计数矩阵NTW中每个词型上非零主题计数元素的平均个数;C表示ESparseLDA算法中采用缓存策略计算一个词项的Q项所需的计算量。
..........
参考文献(略)
(责任编辑:gufeng)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
论文代写请联系:

论文代写电话:
论文代写电话:
email:@qq.com
论文代写qq:

\
论文代写 价格合理
QQ在线客服
中华论文网
咨询QQ
2628487918
15221741752