headermask image

header image

Monthly Archives: July 2008

转一篇论文:网页模糊归类算法的应用与实现

韩正忠          曹乐乐
东南大学应用数学系   东南大学软件学院
 
摘要:本文运用以模糊综合评判为核心的理论实现对网页的模糊自动归类,详细阐述了网页模糊归类算法(FWCA),并且通过一个实例阐明了实现过程。作者利用此算法亲自设计实现了一个“网页模糊归类测试系统”,通过分析大量实验数据证明了利用此算法得归类效果非常稳定和准确。
关键词:FWCA  模糊综合评判  网页归类  分类浏览  搜索引擎
 
自有文字和书籍以来,人类就开始注意文章的分门别类和编撰目录。那些目录事实上就将文章按照内容的类别进行了分类。九十年代以来,Internet 以惊人的速度发展起来,Web的容量增长迅速,平均每天增加100万个页面。计算技术发展到今天,靠人来阅读互联网上信息和对网上信息做分门别类和总结已经不可能。
搜索引擎的分类浏览模式由此应运而生。它的目录分类的质量较高,检索效果好;但是需要人工维护,因此存在成本高、信息更新慢、维护的工作量大的缺点。而基于模糊技术的网页自动归类能依据网页中所包含的文本的语义将大量的网页自动分门别类,从而更好地帮助人们把握网络信息。
网页模糊归类步骤与算法
简单地说,网页自动归类所要完成的任务就是在给定的分类体系下,根据网页的内容自动地确定网页关联的类别。如果从纯数学角度来看,网页分类的过程实际上就是一个多对多的映射过程。依据“贝叶斯假设”的内容,可以假定组成网页的元素在确定网页类别的作用上相互独立。这样,可以使用网页中出现的字或词的集合来代替网页,即用一个向量来表示文本:D(W1,W2,W3……Wn),其中 Wi 为第 i 个元素(以下均称为“特征项”)的数值。当然,这将丢失大量关于网页内容的信息,但是这种假设可以使网页的表示和处理形式化,从而让计算机可以处理网页。
构成网页中的文本的词汇,数量是相当大的,因此,表示网页的向量空间的维数也相当大,可以达到几万维,所有几万个词汇对网页分类的意义是不同的。首先,需要考虑词语的性质。一些通用的、各个类别都普遍存在的词汇对分类的贡献是很小的,因此特征提取过程需要去掉对表达网页类别不太重要的词汇。例如“的”、“地”、“得”、“着”、“了”等等。其次,在某特定类中出现比重大而在其他类中出现比重小的词汇对文本分类的贡献大,为了提高分类精度,可以利用词语的互信息量筛选出针对该类的特征项集合。具体操作方法是算出每个词语的互信息量并排序,然后抽取前n个词语作为该类别的特征项,抽取的原则是反复试验使得网页归类效果最优。互信息量(I)计算公式由下式给出:
为了让计算机为我们进行网页的自动归类,必须先对计算机进行训练。只要训练网页足够多,那么由计算机进行的归类活动也将是准确的。所有的训练样本都需表示为向量 。并使用每个词的相对词频(TF-IDF 公式)对网页样本的特征项进行量化。然后,将每个类别中的所有训练样本数据合成为一个平均参照样本,计算方法就是将每个特征项的值求算术平均。相对词频计算公式由下式给出:
在归类过程中,采用三级模糊综合评判。一级指标因素集(网页中出现位置)包括:网页题名、文章标题、第一段首句、第一段尾句、第二段首句、第二段尾句、第三段首句、第三段尾句、首段、尾段、HTML标记。二级指标因素集(词性)包括:名词, 动词, 形容词, 副词, 介词, 连词, 助词, 数字, 符号。三级指标因素集:待分类网页中所包含的全部词语的频数。评价集确定为V={V1(不属于0), V2(不太可能属于0.25), V3(可能属于0.5), V4(很可能属于0.75), V5(属于1)}。
专家随机抽取了300篇网页,对这些网页进行人工自由标引、人工打分、词频统计,并进行统计数据的分析、研究,将一级指标因素权重集确定为A={0.128, 0.128, 0.128, 0.104, 0.104, 0.104, 0.06, 0.06, 0.06, 0.06, 0.05, 0.05};根据语言学专家对各类别中不同词性的词语对标志一个类别(以中图分类法为标准)重要性程度统计和评分,将二级指标因素权重集确定为An={0.28, 0.18, 0.24, 0.06, 0.05, 0.04, 0.04, 0.06, 0.05};根据词语的互信息量确定出三级指标因素权重为Anm={Anm1, Anm2 … Anmx}  其中,Anmx即为对应词语的互信息量
隶属函数采用卡夫曼教授提出的隶属函数确定方法(正态分布模型)确定如下:
①     […]

水至清则无鱼,人至贱则无敌。

1.钱不是问题,问题是没钱!
2.喝醉了我谁也不服,我就扶墙!
3.我就像一只趴在玻璃上的苍蝇,前途一片光明,但又找不到出路.
4.大师兄,你知道吗?二师兄的肉现在比师傅的都贵了
5.如果多吃鱼可以补脑让人变聪明的话,那么你至少得吃一对儿鲸鱼……
6.水至清则无鱼,人至贱则无敌。
7.青春就像卫生纸,看着挺多得,用着用着就不够了~
8.怀才就像怀孕,时间久了才能让人看出来。
9.我身边的朋友们啊,你们快点出名吧,这样我的回忆录就可以畅销了~~~
10.同事去见客户,可能是紧张,一开口便是:“刘先生你好,请问你贵姓啊?”汗啊~~~~~~
11.一女同学黑了些,她男友又太白了些,有天宿舍里得毒舌天后突然对她冒出一句:“你们这样不行,你们会生出斑马来的”
12.老娘一向视帅哥与金钱如粪土,而他们也一直是这样看我的
13.不要和我比懒,我懒得和你比
14.我不是个随便的人 我随便起来不是人
15.上帝说,要有光,我说我反对,从此世界上有了黑暗
16.今天心情不好.我只有四句话想说.包括这句和前面的两句.我的话说完了……
17.做人就要做一个徘徊在牛A和牛C之间的人
18.我的大名叫上帝,小名叫耶稣,英文名God, 法号是如来…
19.人不能在一棵树上吊死,要在附近几棵树上多死几次试试
20.树不要皮,必死无疑;人不要脸,天下无敌。
21.农夫三拳有点疼
22.其实我一直很受人欢迎的:小时候的我人见人爱,如今的我人贱人爱
23.不怕虎一样的敌人,就怕猪一样的队友
24.走自己的路,让别人打车去吧
25.老鼠扛刀,满街找猫
26.只要功夫深,拉屎也认真
27.中国人谁跑的最快?是曹操(非刘翔)。因为说曹操曹操到
28.思想有多远,你就给我滚多远
29.只有在火车站大排长龙时,才能真正意识到自己是“龙的传人”。
30.有情人终成家属
31.春天来了,一群大雁正向北飞,一会儿排成B字型,一会儿排成T字型..
32.在哪里跌倒 就在哪里躺下
33.老虎不发威 你当我是HELLO KITTY!
34.驴是的念来过倒~

寂寞的季节

 
icon for podpress  Standard Podcast: Play Now | Play in Popup

 感觉满好听的一首歌,音乐应该是诗歌的延续,
如果说有轻缓的抒情诗的话,那么这首歌就应该是了。
寂寞的季节–陶喆
风吹落最后一片叶
我的心也飘着雪
爱只能往回忆里推荐 oh~
给下个季节
忽然间树梢冒花蕊
我怎么会都没有感觉 oh~
整条街都是恋爱的人
我独自走在暖风的夜
多想要向过去告别
当季节不停更迭 oh~
却还是少一点坚决
在这寂寞的季节
艳阳高照在那海边
爱情盛开的世界
远远看着热闹一切oh~
记得那狂烈
窗外是快枯黄的叶
感伤在心中有一些 oh~
我了解那些爱过的人
心是如何慢慢在凋谢
多想要向过去告别
当季节不停更迭oh~
却永远少一点坚决
在这寂寞的季节
又走过风吹的冷冽
最后一盏灯熄灭
从回忆我慢慢穿越
在这寂寞的季节
还是寂寞的季节
一样寂寞的季节

去爱吧,像不曾受过一次伤一样

去爱吧,像不曾受过一次伤一样
跳舞吧,像没有人欣赏一样
    
去爱吧,像不曾受过一次伤一样
    
唱歌吧,像没有任何人聆听一样
    
干活吧,像不需要钱一样
    
生活吧,像今天是末日一样
    
————艾佛烈德.德索萨
    
出处和原文如下
    For a long time it seemed to me that life was about to begin , real life. But, there was always some obsacle in the way, something to be gotten through first, some unfinnished business, time still to be served or a debt to be paid. Then life would begin. At last it dawned on […]

呵呵。。这个满逗的

女人是漂亮的不会下厨;能下厨的不温柔;温柔的没主见;有主见的没女人味;有女人味的乱花钱;不乱花钱的不时尚;时尚的不放心;放心的没法看。
男人是有才华的长得丑;长得帅的挣钱少;挣钱多的不顾家;顾了家的没出息;有出息的不浪漫;会浪漫的靠不住;靠得住的又窝囊