欢迎您访问大河网,请分享给你的朋友!

当前位置 : 首页 > 范文大全 > 工作范文

会计电算化的概念及其特征范例(3篇)

来源:其他 时间:2024-06-24 手机浏览

会计电算化的概念及其特征范文篇1

关键词:数字化数字证据视听资料书证数字证据规则

包括法律在内的社会科学往往随着自然科学的发展,在对自然科学所引导的社会关系进行调整的同时获得了自身的进一步发展与完善。从法律纵向发展历史来看,每次重大技术进步都会在刺激生产力飞跃提升的同时促进法律进步,工业革命时代如此,信息革命时代也是如此。数字技术的迅速发展,给法律提出了许多新的问题。这其中首先是实体法的扩展与创新,随之而来的则是程序法的修正。但是由于目前研究尚处于初始状态,许多问题并没有得到有效解决。

数字技术对法律提出的挑战,体现于合同法、知识产权法、行政法的一些程序流程中,我国在一些实体法中已开始逐渐解决,但在程序法上仍未开始这方面的尝试。在当前已经出现的大量技术含量极高的案例中,作为程序的核心——证据制度,不论是民事,还是刑事、行政证据制度在面对新问题时都处于一种尚付阙如的尴尬境地,这种尴尬在目前沸沸扬扬的新浪与搜狐的诉讼之争中又一次被重演。不仅当前制定证据法的学者们所提出的数稿中有的根本就没有此方面的规定,即使作为对以往司法实践的总结与最新证据规则的《最高人民法院关于民事诉讼证据的若干规定》,对数字技术引发出的愈来愈多的问题也依然未给予应有的注意。因此非常有必要在数字技术环境下对证据制度进行再研究(注:数字证据可以出现于三大程序法中,本文针对民事、行政、刑事程序法中的数字证据问题的共性进行讨论,并不涉及基于不同程序性质而产生的细节问题。同时,我们无意在此对我国原有证据体系的分类模式与合理性等进行论证,那并不是本文所主要研究的问题。)。

一、数字证据概念评析

使用精确的概念,进行内涵的准确界定与外延的清晰延展,对于一个科学体系的建立极具方法论意义,并且也符合社会学方法的规则,因此,建立一个体系首先进行的便应是概念的归纳。同时,一个精确的概念必须能够抽象归纳出所有客体的本质共性,必须能够把表现同性质的所有现象全部容纳进去。对数字证据进行概念归纳,基于其鲜明的技术特征,在归纳时要回归到数字技术层面,在其所使用的数字技术与存在的社会经济基础的结合中寻找恰当的突破点。

(一)数字证据与计算机证据、电子证据概念的比较首先必须明确的是,虽然各个概念所使用的语词不同,但在内涵上,计算机证据、电子证据都是针对不同于传统的数字化运算过程中产生的证据,在外延上一般囊括数字化运算中产生的全部信息资料。不过,计算机证据与电子证据这两个概念并不妥贴,不能充分表现该种证据的本质内涵,由此而容易导致概念在外延上不能涵盖该种证据的全部形态。

1.“计算机证据”概念。有人认为,“计算机证据,是指在计算机或计算机系统运行过程中产生的以其记录的内容来证明案件事实的电磁记录物”。[1]采取“计算机证据”概念来表述数字化过程中形成的证据具有一定合理性,因为计算机及以计算机为主导的网络是数字化运算的主要设备,并且目前数字化信息也大多存储于电磁性介质之中。从数字化所依靠的设备的角度来归纳此类证据的共性,在外延上能够涵盖绝大多数此类证据。然而,虽然计算机设备是当前数字化处理的主要设备,计算机中存储的资料也是当前此类证据中的主要部分,但是进行数字化运算处理的计算机这一技术设备并不是数字化的唯一设备,例如扫描仪、数码摄像机这些设备均是数字化运算不可或缺的设备,但并不能认为这些也属于计算机之列。从国外立法来看,没有国家采取computerevidence,采用这种概念的学者在论述中也往往又兼用了其他的概念。迪尔凯姆认为,研究事物之初,要从事物的外形去观察事物,这样更容易接触事物的本质,但却不可以在研究结束后,仍然用外形观察的结果来解释事物的实质。所以,“计算机证据”概念从事物外形上进行定义具有一定合理性,但是“计算机证据”概念未能归纳出数字化过程中形成的可以作为证明案件事实情况的证据共性,不能够涵盖数字化过程中产生的全部的信息资料,而且在法律上也不能对将来出现的证据类型预留出弹性空间。

2.“电子证据”概念。目前,采用“电子证据”者甚众,但对电子证据的具体含义则各有不同表述。有人认为:“电子证据,又称为计算机证据,是指在计算机或计算机系统运行过程中产生的以其记录的内容来证明案件事实的电磁记录物。”[2]有人认为:“电子证据,是指以数字的形式在计算机存储器或外部储存的介质中,能够证明案件真实情况的数据或信息。”[3]“电子证据是指以储存的电子化信息资料来证明案件真实情况的电子物品或电子记录,它包括视听资料和电子证据。”[4]加拿大明确采用了电子证据概念,在《统一电子证据法》(UniformElectronicEvidenceAct)的定义条款中规定:“电子证据,指任何记录于或产生于计算机或类似设备中的媒介中的资料,其可以为人或计算机或相关设备所读取或接收。”[5]

综合起来,各种电子证据的定义主要有两种:第一,狭义的电子证据,等同于计算机证据概念,即自计算机或计算机外部系统中所得到的电磁记录物,此种内涵过于狭小,不能涵盖数字化过程中生成的全部证据,不如第二种定义合理。第二,广义上的电子证据,包括视听资料与计算机证据两种证据,在内容上包含了第一种定义,并且还包括我国诉讼法中原有的视听资料。但我们认为,这些定义中不仅所使用的“电子”一词不妥,而且所下定义亦为不妥,理由如下:第一,将电子证据或者计算机证据定性为电磁记录物未免过于狭隘。虽然数字设备的整个运作过程一般由电子技术操控,各个构件以及构件相互之间以电子运动来进行信息传输,但是仍然不可以认为该种证据即为自电子运动过程中得到的资料。美国《统一电子交易法》2(5)中规定:“电子(electronic),是指含有电子的、数据的、磁性的、光学的、电磁的或类似性能的相关技术。”扩大解释了电子的语词内涵,使用各种不同的技术载体来表达扩大的电子语义,已经失去了“电子”一词的原义,原本意义上的电子只是其使用的“电子”概念中的一种技术而已,从而能够涵盖大多数此类证据。不过,既然如此,还不如直接使用能够涵盖这些技术特性的“数字”概念,在工具价值方面更有可取之处。加拿大《统一电子证据法》解释中之所以采取“电子”,“因为信息为计算机或类似设备所记录或存储”,但这个理由并不充分。并且接下来又承认有些数字信息(digitalinformation)未涵盖于本法,因为有其他的法律进行调整。第二,电子证据概念不能揭示此类证据的本质特征。电子运动只是数字化运算的手段,而非本质,并且也并不是所有数字设备的运算全都采取电子运动手段。进行数字化运算的计算机设备及其他数字设备的共同之处在于这些设备的运算均采取数字化方式,而非在于均采取电子运动手段。第三,不论是将视听资料这种已存的证据类型纳入电子证据中,还是将电子证据纳入视听资料中,都会致使“电子证据”与我国诉讼法中的“视听资料”相混淆,而此类证据与视听资料证据的本质共性并不相同。视听资料主要为录音、录像资料,其信息的存储以及传输等也都采取电子运动手段。录音、录像采取模拟信号方式,其波形连续;而在计算机等数字设备中,以不同的二进制数字组合代表不同的脉冲,表达不同信号,信息的存储、传输采取数字信号,其波形离散、不连续。二者的实现、表现、存储、转化都不相同。传统的电话、电视、录音、录像等都采取模拟信号进行通讯,这是视听资料的共性,而计算机与网络信息技术则采取数字化方式通信,这是数字化运算中生成的证据的共性,两者不同,不应混淆。

可见,狭义上的电子证据在外延上只能容纳数字化过程中产生的部分证据,失之过狭;广义上的电子证据确实能够在外延上容纳数字化过程中产生的全部证据,但却失之过宽,如将视听资料与计算机证据这两种差别极大的证据容于同一种证据类型中,将不得不针对两种证据进行规则的制定,从而导致同种证据类型的证据规则不相统一,很难建立起一个和谐一致的体系。

(二)数字证据概念的内涵与外延我们认为,数字证据就是信息数字化过程中形成的以数字形式读写的能够证明案件事实情况的资料。这里使用的“数字”(digital,digitspl.)与日常用语中的“数字”语义并不相同,虽并不如“电子”更为人们熟悉和容易理解,但重要的是根据科学的需要和借助于专门术语的表达,使用科学的概念来清晰地定义相关事物,况且“数字”概念在现今信息时代也并不是一个新概念,早已为人们广泛接受和使用。现代计算机与数字化理论认为,数是对世界真实和完全的反映,是一种客观存在。人类基因组的破译说明,甚至代表人类文明最高成就的人自身也可以数字化。[6]来势汹涌的全球信息化潮流实际上就是对事物的数字化(digitalization)处理过程,区别于纸质信件、电话、传真等传统信息交流方式,这种采用新的信息处理、存储、传输的数字方式在现代社会包括日常交往与商业贸易中逐步建立其不可替代的地位。毋庸置疑的是,数字技术还会不断地发展,因此在进行法律调整之时就更不能限定所使用的技术与存储的介质,从而在法律上为技术的发展留存一个宽松的空间。

1.数字证据有其数字技术性。信息数字化处理过程中,数字技术设备以"0"与"1"二进制代码进行数值运算与逻辑运算,所有的输入都转换为机器可直接读写而人并不能直接读写的"0"、"1"代码在数字技术设备中进行运算,然后再将运算结果转换为人可读的输出。数字证据以数字化为基础,以数字化作为区别于其他证据类型的根本特征。数字证据具有依赖性,其生成、存储、输出等都需借助于数字化硬件与软件设备;具有精确性,数字证据能准确地再现事实;具有易篡改性,数字化技术特性决定了数字资料可以方便地进行修正、补充,但这些优点在数字资料作为证据使用时成为缺点,使其极易被篡改或销毁,从而降低了数字证据的可靠性,这个特点也决定了在对数字证据进行规则的制定时应当切实保障其真实性。SWGDE(ScientificWorkingGrouponDigitalEvidence)与IODE(InternationalOrganizationonDigitalalvidence)在1999年在伦敦举办的旨在为各国提供数字证据交换规则的会议IHCFC(InternationalHi-TechCrimeandForensicsConference)上提交了一份名为《数字证据:标准与原则》的报告,对数字证据从技术方面进行了定义,“数字证据是指以数字形式存储或传输的信息或资料”,[7]在接下来的规则中则重点阐述了如何对数字证据的真实性进行保障。

2.数字证据有其外延广泛性。数字证据概念在外延上既可以容纳目前以数字形式存在的全部证据,又具有前瞻性,可以容纳以后随着技术与社会发展而出现的此类证据。数字证据可以产生于电子商务中,也可以产生于平时的日常关系中,表现为电子邮件、机器存储的交易记录、计算机中的文件、数码摄影机中存储的图片等。从美国FBI目前的犯罪执法中可以看到,现在专家越来越喜欢用数字技术对一些其他证据进行处理,例如用AvidXpress视频编辑系统、Dtective图像增强处理软件对取得的录像进行处理,并且这种处理也往往得到法庭的承认。这种对原始证据进行数字技术加工后形成的证据也可看作是一种传来数字证据,即形成了一种证据类型向另一种证据类型的转化,例如对我国视听资料中的录音、录像进行数字处理后可以认为是数字证据,适用数字证据规则。这一点很重要,因为不同的证据类型往往适用不同的证据规则,从而在真实性等方面可能作出不同的认定。

数字证据一般有两种存在形式:一是机器中存储的机器可读资料,二是通过输出设备输出的人可读资料,如显示设备显示出来或者打印设备打印出来的资料。前种作为数字证据毫无疑问,而后者从表面看来似乎可以认定为书证。其实,此种人可读的输出资料仍然属于数字证据,因为这些资料来源于数字化设备,是在设备运行过程中取得的,其产生完全依赖于前者,人可读的资料是由机器可读的资料经过一个转化过程而取得的,两种资料在内容上保持了一致性,具有同质性,只是表现方式不同而已。后者的真实性依赖于前者,在如何确保真实性、合法性等规则上,应适用数字证据的规则,却不可以因为其表现为传统的纸面形式就认为是书证,从而适用书证规则。

二、将数字证据纳入我国证据体系具有必要性与可行性

数字技术推动出现的社会经济关系提出新的要求,体现于法律之上,在实体法上表现为,要求更新确认这种新技术指示的新类型社会关系当事人间的权利义务关系;在程序法上表现为,当这种社会关系的当事人因权利义务关系发生纠纷时,应当存在与之相适应的相关程序,或者对已有程序进行完善,能够满足这种纠纷不同以往而与其技术特征相适应的要求。而在程序法证据制度上的一个基本表现就是,要求数字化过程中所产生的一些数据资料等能够纳入到证据体系中,得到证据规则的认可,能够被法庭接受成为证明案件事实的证据。

虽然数字证据并不单纯只是在电子商务关系中产生,其还可在其他社会关系中产生(注:以数字化设备为基础而生成的数字形式读写的证据均可认为是数字证据,其可以为民事程序法上的证据,也可以为刑事、行政程序法上的证据。不过,在现阶段,电子商务关系中产生的这类证据的数量多于其他类型社会关系,但不可以认为数字证据即为电子商务中产生的证据,例如内部局域网、个人计算机存储的资料也可成为数字证据。),但数字证据问题主要是出于电子商务的飞速发展而提出。出于电子商务交易追求交易的快速便捷、无纸化(paperlesstrading)流程,在很多交易过程中很少有甚至根本就没有任何纸质文件出现,电子商务交易中所存在的与交易相关的资料可能完全是以数字化形式存在于计算机等存储设备中。一旦产生纠纷,如果在程序法上不承认数字证据的证据力,当事人将没有任何证据来支持自己的权利主张,无法得到法律救济,商人对电子交易就难以产生依赖感,不利于电子商务的发展。

自20世纪90年代起,EDI数据交换方式便以其便捷、高效、准确而备受青睐。一些重要的国际组织对电子商务等进行大量的立法工作,欧美各国在实体上早已承认以数据电文方式订立合同、申报纳税与以信件、电报、传真等传统方式具有相同效力,在程序法上也作了相应的规定。美国《联邦证据规则》通过重申现行判例和成文法的形式肯定了数据电文无论是人工做成的还是计算机自动录入的都可作为诉讼证据。英国1968年《民事证据法》规定,在任何民事诉讼程序中,文书内容只要符合法庭规则就可被接受成为证明任何事实的证据,而不论文书的形式如何。[8]在1988年修正《治安与刑事证据法》(ThePoliceandCriminalEvidenceAct)也作出了类型的规定。加拿大通过R.V.McMullen(Ont.C.A.,1979)一案确立了新证据在普通法上的相关规则。联合国贸法会在《电子商务示范法》中规定,“不得仅仅以某项信息采用数据电文形式为理由而否定其法律效力、有效性和可执行性”,又承认了以数据电文方式订立的合同的有效性,并且认为,在一定情况下数据电文满足了对原件的要求,在诉讼中不得否认其为原件而拒绝接受为证据。这些规定运用功能等同法(functional-equivalent),认为只要与传统式具有相同的功能,即可认定为具有同等效力。我国也与这一国际立法趋势相靠拢,例如我国新修订的海关法中规定了电子数据报关方式。更为重要的是,我国在合同法中已承认以电子数据交换方式订立的合同的有效性,承认其符合法律对合同书面形式的要求。要使实体法的修改有实际意义,就必须设定相应的程序规则,使得以实体规定为依据,在诉讼中寻求救济时具有程序法基础,否则实体法上的修改不啻一纸空文。

会计电算化的概念及其特征范文

1投资的不可逆性

所谓不可逆性投资(irreversibleinvestment),是指用于购置生产中长期使用的设备和设施所进行的投资具有不可逆性特征川。投资的这一性质主要来源于生产性投资的具体产业特征。用于某种特定生产的投资一旦形成或部分形成,如果决策者改变计划或决定,将很难转换成其他产业或产品的生产,这部分投资成本将无法挽回,即使这一转换最终得以实现,用于原来目的的投资部分将会损失掉,即这就是投资的不可逆性。电信设备和设施投资数额往往较大,具有高度的专用性,多属于行业专用性投资,沉没成本巨大,建设投资几乎完全不可逆,因而电信投资属于典型的不可逆性投资.

2未来状态的不确定性

随着我国电信行业体制改革的逐步深入,处于技术、业务和需求大变革中的电信运营商在自主决策、自负盈亏的市场机制下,其投资决策将不可避免的受到市场、技术、信息产业政策、宏观经济形势等的影响,这使得电信投资具有了较大的不确定性和投资风险。可以说,不确定性贯穿电信投资活动从决策、实施、建设到运行

3管理的灵活性

在自主决策的市场机制下,电信运营商不仅有选择在什么时机进行投资的权利,还有投资多大规模的权利,即电信运营商可以根据电信业务市场、技术市场等情况的变动而调整投资策略和规模,如延迟投资、追加投资或放弃投资等,这被称为投资的管理柔性。在不确定性的投资环境下,电信运营商通过这种管理柔性可以更好的降低甚至避免项目投资失败所造成的损失,以实现电信运营商利润最大化的目标.

4不确定性与风险

对一般的项目投资决策而言,不确定性及风险分析是关键,电信项目投资也是如此。关于风险和不确定性的特征与区别,具有里程碑式意义的是美国经济学家奈特(Knight,1921)在《风险、不确定性与利润》一书中所表达的观点。奈特认为,风险的特征是可以对其进行概率测定,因而风险是有概率的随机性,可以被当做一种可保险的成本进行处理;而不确定性将不存在概率性结果,因而它与可计算的风险之间有根本区别。不确定性存在于变化当中。变化则有两种结果:可以预测和计算得到的变化和不能预测和计算的变化。第一种变化称之为“风险”,第二种变化称之为“不确定性”.

奈特的定义引发了就不确定性理论的长久争议,其最主要的问题在于人们是否能够给出它们的概率估计。例如美国加州大学洛彬矶分校经济学系教授赫什莱佛和赖利(Hirshleifer&Ri一ey,1992)就直言:“我们不同意奈特的划分,这种kIJ分已证明是不会有结果的。就我们的目的而言,风险和不确定性指的是同一件事。我们认为能否进行客观分类不是关键之所在。因为我们将用“主观”概率的概念(就如萨维奇1954专门发展的概念)来处理这类事:概率只能简单地算作相信的程度”.

会计电算化的概念及其特征范文

〔关键词〕社区问答;维基百科;特征扩展;短文本分类

〔中图分类号〕G254〔文献标识码〕A〔文章编号〕1008-0821(2013)10-0070-05

社区问答系统是一种基于Web的问答系统,如百度知道、yahoo!Answers等。作为一种具有开放性、交互性特点的知识共享模式,它能够更好的帮助人们利用互联网的资源来获取和分享信息。对用户提出的问题进行分类是社区问答系统服务的一个主要任务,将用户提问到合适的类别,可以方便其他用户发现和回答该提问,也有助于对系统积累的海量问答进行知识挖掘和兴趣推荐[1]。由于问题文本一般较短、特征稀疏,且中文文本特有的语言结构,所以传统的基于长文本的分类方法对于短文本并不能取得令人满意的效果。因此,研究中文短文本分类技术成为社区问答系统构建的一个关键问题。

短文本的长度通常小于160个字符,词汇个数少并且描述信息弱,具有稀疏性和不规范性,却隐含大量有价值的信息。目前,一些学者先后开始研究利用一些额外的信息来扩展文本特征辅助中文短文本分类。如王鹏[2]等利用依存关系对短文本进行特征扩充以实现有效的短文本分类。王细薇[3]等、曹叶盛[4]、Fan[5]等利用关联规则挖掘文本中词共现关系以构建特征共现集进行短文本特征扩展。宁亚辉[6]等提出借助知网对领域高频词进行特征扩展的短文本分类方法。王盛[7]等利用知网的上下位关系对短文本进行扩展。但是领域知识库一般由专家进行编撰,只包含小范围的领域和有限的主题,词汇可扩展性差且更新速度慢,难以满足社区问答系统中的问题分类的需求。范云杰[8]等利用维基百科对短文本进行特征扩展,其采用考虑概念类别因素基于tf-idf法计算概念间相关度。

为提高社区问答系统中的问题文类效果,本文研究将维基百科知识库引入到中文短文本分类过程中,提出一种基于特征扩展的中文短文本分类算法。本文利用维基百科所含有的类别、概念及其链接等信息,以词语间语义相关关系为基础对短文本特征词语进行语义特征扩展,以此提高特征词所描述概念的准确性、丰富语义表达,同时在一定程度上降低短文本特征稀疏对分类性能的影响。

1维基百科相关理论

维基百科作为一个以开放和用户协作编辑为特点的Web2.0知识系统,具有知识覆盖面广,结构化程度高,信息更新速度快等优点[9]。维基百科是一个以页面为单位组成的具有丰富链接结构的超文本文档集合,它主要包含以下重要元素:

1.1主题页面

主题页面作为维基百科中最基本、重要的元素,其含有惟一的ID标识用以描述一个单独的概念。概念是维基百科的基本单位,即指被解释的一个对象、事件或命名实体,如“情报”、“北京奥运会”、“姚明”等。

1.2类别体系

类别是维基百科中对概念页面信息进行组织的一种有效手段。每一个概念页面通常归属于一个类别或多个类别。如“文本挖掘”这个概念页面归属于“数据挖掘”、“人工智能应用”等多个类别。每个类别可以包含若干子类别,上下层类别之间不仅反映出继承的关系,也可能是实例、包含、属性等不同的语义关系。类别之间的这种关系构成一个巨大的分类体系。

1.3重定向

维基百科将同义的多个概念用一个页面进行描述,这些概念中只有一个概念的页面包含解释描述信息,其他的概念则使用重定向链接到这个页面,包含重定向链接的页面称作重定向页面[9]。重定向页面的概念与目标页面概念是同义词。例如“NBA”被重定向到“国家篮球协会”,这种重定向页面的机制同时能够处理大小写、缩写、拼写变体、专业术语等。

1.4消岐页

消岐页是为了处理一词多义的机制[9],例如消歧页面“风车(消歧义)”中,包含指向多个概念页面的链接:“风车”,“风车(玩具)”,“风车(农具)”等。

1.5链接

页面与页面之间通过主题页面内容中的超链接联系起来[10]。即概念的描述之间用超链接联系,其中蕴含着重要的事实联系或语义关系。

2基于维基百科的特征扩展

为提高短文本特征词的类别特征和最大限度的保留其语义信息,本文借助维基百科知识库来挖掘短文本所蕴含的隐性信息,通过选取一些在语义层面与特征词有高度相关关系的词对特征词进行扩展以辅助短文本分类,利用抽取的维基百科词语相关概念集合作为扩展词集合,通过扩展词集合从语义层面对特征进行扩展,以构建语义向量空间。

本文中的特征扩展以现实世界词语间的语义相关关系为基础,对文本特征词进行扩展,通过某个特征词关联出若干个特征词以提高其语义描述能力。例如,短文本“李娜获得法网冠军”,可以提取该文本的特征词{李娜,获得,法网,冠军},“李娜”这个词,我们很容易根据对常识的掌握联想到“网球”、“WTA”等词语,短文本被表示为{李娜,获得,法网,冠军,网球,WTA……}。

本文以维基百科知识库为数据源,利用其所蕴含的概念、重定向、类别体系结构及各类链接等信息进行词语的相关概念集合构建以进行特征扩展:首先将特征词转化为主题概念,即进行词语-概念匹配,其次进行相关概念的抽取,再次,对所抽取的相关概念与主题概念间的语义相关关系进行量化,以完成相关概念集合的构建。最后,从相关概念集合选取概念对特征词进行语义扩展。

特征扩展的具体过程如下:

Step1:进行词语——概念匹配。词语——概念匹配是将特征词tk映射为维基百科中存在的主题概念Ck。当该特征词存在重定向时,以重定向的概念作为特征词tk的主题概念,以首先解决同义词问题。如特征词“奥运会”匹配为概念“奥林匹克运动会”。

Step2:抽取主题概念Ck的相关概念。由于维基百科中的主题页面是对概念的解释,而且页面中的链接是维基百科贡献者根据锚文本与当前概念的相关性添加的,所以本文利用网页间链接关系从维基百科中抽取相关概念。由于页面上的部分锚文本所对应的概念与主题概念相关性不强,为了去除此种弱相关关系词,本文只选取与主题概念Ck具有互相链接关系的概念作为相关概念。因此,抽取相关概念时,对主题概念页面链出的概念进行跟踪,当且仅当该概念页面中也包含指向主题概念页面的链接时,则将此概念作为主题概念的相关概念。因此,可以得到主题概念Ck相关的概念集合Ck(C1,C2,……,Cn),其中Ck与Ci(1≤i≤n)间具有相互链接关系。

Step3:进行概念间语义相关关系量化。语义相关关系量化是为了区分相关概念集合中不同概念对主题概念的贡献度。本文主要运用维基百科的链接结构和类别体系分别计算概念距离和类别距离,然后将这两个值进行线性组合计算概念间的相关度。

2.1链接距离

本文计算链接距离的方法运用了Milne等提出的基于维基百科链接的概念间语义相关度计算方法WLM(WikipediaLink-basedMeasure)[11]的思想。WLM算法运用了Google距离的思想,其原理是概念Ck、Ci间共有的相关概念越多,概念间语义距离就越小,那么其相关性就越强。由于主题概念页面中包含其他概念的链接,表现为链出链接,而主题概念页面也可能会被其他概念页面链接,表现为链入链接。WLM法分别对这两种链接计算相关性后再综合完成概念间的相关性计算。受WLM法启发,本文定义的概念Ck、Ci间链接距离计算公式如下:

Dlink=log(max(A,B))-log(A∩B)1log(W)-log(minA,B))(1)

其中:Dlink是指概念Ck、Ci间的语义距离,A、B是指在维基百科中分别与概念Ck、Ci有相互链接关系的概念集合,W则指维基百科中所有概念解释页面的集合。符号“”表示取集合中的实体数量。

2.2类别距离

WLM算法虽然被证明在英文维基百科上效果不错,但中文维基百科在规模上不如英文维基百科,主题页面之间的链接存在一定的稀疏性。因此,对于中文维基百科仅用链接结构很难充分衡量概念间的语义距离。因此,本文在链接距离的基础上,通过计算概念所属的类别之间的距离,以便更准确衡量概念间的相关度。

在维基百科的类别体系中,一个分类节点可能包含多个上层和下层分类节点,因此两节点之间路径可能不惟一,即存在多条路径,但其中必然存在一条最短路径d,而两节点间的最短路径越小,则其距离就越近,那么类别间的相关程度也就越高。此外,由于概念可能属于多个类别,那么两个概念间就可能存在多种分类关系的组合,也就可能对应存在多个最短路径。本文将其中最小的最短路径值作为两概念之间的类别距离,则概念Ck与Ci之间的类别距离计算公式表示为:

Dcat(ck,ci)=log(min(dki)+1)(2)

其中dki代表概念Ck、Ci所属类别之间的最短路径距离,取log值是为了使dki变化幅度平均化,抑制类别距离与链接距离之间过大的差异。

2.3相关度计算方法

为了较全面的衡量概念间的相关度,概念间语义距离应该综合考虑维基百科链接结构和类别体系中蕴含的概念间关系。本文定义的主题概念Ck与其相关概念Ci间的概念语义距离计算方法如公式(3)所示,形式上表现为链接距离Dlink和类别距离Dcat的线性组合:

D(ck,ci)=αDlink(ck,ci)+(1-α)Dcat(ck,ci)(3)

其中α(0≤α≤1)为调节参数。由于概念与其本身的距离为0,相关度设为1,随着距离的增大,概念间的相关关系越小,当语义距离趋于无穷大时,相关度为0。因此,本文将概念间的相关度计算公式定义为:

R(ck,ci)=11D(ck,ci)+1(4)

Step4:经过上述步骤,特征词tk所对应的主题概念Ck构建的相关概念集合为((C1,R1),(C2,R2),……,(Cn,Rn)),Ri(1≤i≤n)代表相关概念与主题概念间的相关度,由公式(4)求得。为了避免维度灾难且不引入过多噪音数据,从上述过程构建的相关概念集合中选取相关度大于阈值μ的概念对主题概念进行特征扩展,即特征词tk所对应扩展概念为为((C1,R1),(C2,R2),……,(Cm,Rm)),其中Ri≥μ(1≤i≤m)。

3基于特征扩展的短文分类算法

3.1基本思想

本文通过结合维基百科语义知识库对特征词进行扩展以辅助中文短文本分类,以丰富文本特征的语义表达、提高文本特征描述能力。首先利用维基百科挖掘概念间的语义相关关系,进而构建相关概念集合对短文本特征进行扩展,以构建语义概念向量空间,使得语义向量空间中文本的语义更准确、完整,而且可以避免短文本特征稀疏的缺点,以提高短文本分类的准确度。

3.2分类模型

面向社区问答的短文本分类模型与传统长文本类似,主要包括训练和测试两个过程,如图1所示。

3.2.1训练过程

训练模块对己经标好类别的训练短文本集预处理,形成用一系列特征词表示的文本,即形成训练集的原始特征集合;然后运用基于维基百科的特征扩展方法对原始特征集合中的特征词进行语义扩展,形成新的特征集;计算特征集中每一个特征词在训练集中权重,将文本表示成由原始和扩展特征词及其权重表示的向量形式;最后用分类算1图1基于特征扩展的短文本分类模型1

法对训练集进行分类,形成分类模型。

3.2.2测试过程

同样使用已经标好类别的测试短文本进行预处理后,将测试短文本表示成向量形式;然后利用训练过程得到的分类模型进行分类测试,根据分类结果对分类过程中的相应参数进行调整,直到得到较好的分类效果。

3.3分类算法

根据上述基于特征扩展的短文本分类模型,可以得到相应的分类算法,算法流程具体描述如下:

输入:短文本训练集D,待分类短文本d

Step1:分别对短文本训练集D和待分类短文本d进行分词、去停用词等预处理,预处理之后可以得到每篇文章对应的原始特征集合。

Step2:分别将短文本训练集D和待分类短文本d由原始特征集合转化为语义文本特征向量。顺序遍历原始特征集合中的特征词ti,如果在维基百科中能匹配到ti对应的概念,则利用第3节中的方法,对该特征词进行特征扩展。

Step3:扩展完后进行特征权重计算,然后合并相同特征项,相应权重进行相加。由此文本有原始特征集合d={t1,t2,…,tn}转化为d((T1,w1),(T2,w2),…,(Tm,wm))。

其中权重的计算分两种情况,如果是原文档本身存在的特征词,则其权重由tf-idf[12]计算求得,而扩展来的词的权重计算方法如下:

wij=wi·Rij(5)

公式中wi为被扩展词ti的权重,Rij为ti的相关概念集合((C1,Ri1),(C2,Ri2),……,(Cn,Rin))中概念Cj与ti所对应概念的相关度。

Step4:用支持向量机分类算法[13]对训练集向量进行分类,形成分类模型。

Step5:根据训练过程得到的分类模型对待分类文本d进行分类。

输出:短文d所属的类别。

4实验与结果分析

本文对所提出的面向社区问答的中文短文本分类方法的效果进行了实验验证。实验语料来自“新浪爱问”中收集的10个类别各1000篇问题文本,维基百科数据来自维基百科网站下载的zhwiki-2013-02-15中文版XML数据集。本文实验采用5折交叉验证法,将每类文本随机平均分为5份,其中一份构成测试文本集,其它4份作为训练文本集,每份文本轮流作为测试集循环测试5次,取其均值为最终结果。具体实验过程如下:

4.1特征扩展时词语相关度阈值μ的确定实验

为了在不引入过多噪音数据的前提下进行高质量的特征扩展,以提高短文本分类的效果,本文首先进行不同词语相关度阈值下的分类效果对比试验,实验中统一采用本文所提出的基于特征扩展的短文本分类算法,为了得到较好的文本分类效果,通过反复试验,公式(3)中的参数α为0.7。实验中统一使用中科院的ICTCLAS进行分词。不同相关度阈值下的分类效果对比实验结果如下:表1不同的相关度阈值下的实验结果F1(%)比较

由表1平均F1可以看出,当词语相关度阈值μ取0.6左右时平均F1最高,分类效果达到最佳,因此后续实验征扩展时词语相关度阈值μ取0.6。

4.2与传统文本分类算法的分类效果对比实验

本实验共分3组,实验中分别采用本文所提出的分类算法与传统的贝叶斯分类算法与支持向量机分类算法进行分类:

第一组实验中短文本采用传统的短文本分类方法,即在分类过程中不进行特征扩展处理,分类算法采用贝叶斯分类算法。

第二组实验采用传统分类方法进行短文本分类,分类算法使用支持向量机,SVM的核函数为线性核函数。

第三组对本文提出的基于特征扩展的中文文本分类算法进行实验验证,即在分类过程中,对文本特征进行特征扩展以完成短文本分类过程。

由表2中实验结果对比可以看出,实验三较实验一、二的分类效果均有所提高,这表明本文所提出的基于特征扩展的短文本分类算法对短文本进行扩展能提高问题文本的语义表达能力,改善其分类效果。而部分类别分类效果提高较少的原因与扩展时引入的相关概念的质量有关,有时扩展的相关概念对文本的语义表达帮助较小,可能还会引入一些噪音数据。此外,文本分类的整体分类效果不高也与问题文本自身不规范性有关,同时也受到实验语料自身划分质量的影响。所以,如何提高短文本特征扩展的精度和效率是下一步研究的重点。

5结束语

针对社区问答系统中的问题文类任务,本文根据问题短文本的特点,结合维基百科提出一种基于特征扩展的短文本分类算法,该算法利用维基百科中的概念、链接及类别信息来挖掘概念间的语义相关关系,以此为基础对短文本的特征进行扩充,以弥补社区问答系统中问题短文本特征少、语义信息描述弱等不足。实验结果表明,该算法可满足问题短文本分类的需且具有较好的分类效果。

参考文献

[1]王君泽,黄本雄,胡广,等.社区问答服务中的问题分类任务研究[J].计算机工程与科学,2011,33(1):143-149.

[2]王鹏,樊兴华.中文文本分类中利用依存关系的实验研究[J].计算机工程与应用,2010,46(3):131-133.

[3]王细薇,樊兴华,赵军.一种基于特征扩展的中文短文本分类方法[J].计算机应用,2009,29(3):843-845.

[4]曹叶盛.基于关联扩展的中文短文本分类方法研究[D].北京:北京邮电大学,2012.

[5]FanXH,HuHG.UtilizingHigh-qualityFeatureExtensionModetoClassifyChineseShort-text[J].JournalofNetworks,2010,5(12):1417-1425.

[6]宁亚辉,樊兴华,吴渝.基于领域词语本体的短文本分类[J].计算机科学,2009,36(3):142-145.

[7]王盛,樊兴华,陈现麟.利用上下位关系的中文短文本分类[J].计算机应用,2010,30(3):603-611.

[8]范云杰,刘怀亮.基于维基百科的中文短文本分类研究[J].现代图书情报技术,2012,(3):47-52.

[9]涂新辉,张红春,周琨峰,等.中文维基百科的结构化信息抽取及词语相关度计算方法[J].中文信息学报,2012,26(3):109-115.

[10]王兰成,刘晓亮.维基百科知网的构建研究与应用进展[J].情报资料工作,2012,(5):56-60.

[11]DavidMilne,IanHWitten.Aneffective,low-costmeasureofsemanticrelatednessobtainedfromWikipedialinks[C]∥Proceedingsofthe23thAssociationfortheAdvancementofArtificialIntelligence,2008:25-30.