headermask image

header image

category archive listing Category Archives: 搜索技术与人工智能

转一篇论文:网页模糊归类算法的应用与实现

韩正忠          曹乐乐
东南大学应用数学系   东南大学软件学院
 
摘要:本文运用以模糊综合评判为核心的理论实现对网页的模糊自动归类,详细阐述了网页模糊归类算法(FWCA),并且通过一个实例阐明了实现过程。作者利用此算法亲自设计实现了一个“网页模糊归类测试系统”,通过分析大量实验数据证明了利用此算法得归类效果非常稳定和准确。
关键词:FWCA  模糊综合评判  网页归类  分类浏览  搜索引擎
 
自有文字和书籍以来,人类就开始注意文章的分门别类和编撰目录。那些目录事实上就将文章按照内容的类别进行了分类。九十年代以来,Internet 以惊人的速度发展起来,Web的容量增长迅速,平均每天增加100万个页面。计算技术发展到今天,靠人来阅读互联网上信息和对网上信息做分门别类和总结已经不可能。
搜索引擎的分类浏览模式由此应运而生。它的目录分类的质量较高,检索效果好;但是需要人工维护,因此存在成本高、信息更新慢、维护的工作量大的缺点。而基于模糊技术的网页自动归类能依据网页中所包含的文本的语义将大量的网页自动分门别类,从而更好地帮助人们把握网络信息。
网页模糊归类步骤与算法
简单地说,网页自动归类所要完成的任务就是在给定的分类体系下,根据网页的内容自动地确定网页关联的类别。如果从纯数学角度来看,网页分类的过程实际上就是一个多对多的映射过程。依据“贝叶斯假设”的内容,可以假定组成网页的元素在确定网页类别的作用上相互独立。这样,可以使用网页中出现的字或词的集合来代替网页,即用一个向量来表示文本:D(W1,W2,W3……Wn),其中 Wi 为第 i 个元素(以下均称为“特征项”)的数值。当然,这将丢失大量关于网页内容的信息,但是这种假设可以使网页的表示和处理形式化,从而让计算机可以处理网页。
构成网页中的文本的词汇,数量是相当大的,因此,表示网页的向量空间的维数也相当大,可以达到几万维,所有几万个词汇对网页分类的意义是不同的。首先,需要考虑词语的性质。一些通用的、各个类别都普遍存在的词汇对分类的贡献是很小的,因此特征提取过程需要去掉对表达网页类别不太重要的词汇。例如“的”、“地”、“得”、“着”、“了”等等。其次,在某特定类中出现比重大而在其他类中出现比重小的词汇对文本分类的贡献大,为了提高分类精度,可以利用词语的互信息量筛选出针对该类的特征项集合。具体操作方法是算出每个词语的互信息量并排序,然后抽取前n个词语作为该类别的特征项,抽取的原则是反复试验使得网页归类效果最优。互信息量(I)计算公式由下式给出:
为了让计算机为我们进行网页的自动归类,必须先对计算机进行训练。只要训练网页足够多,那么由计算机进行的归类活动也将是准确的。所有的训练样本都需表示为向量 。并使用每个词的相对词频(TF-IDF 公式)对网页样本的特征项进行量化。然后,将每个类别中的所有训练样本数据合成为一个平均参照样本,计算方法就是将每个特征项的值求算术平均。相对词频计算公式由下式给出:
在归类过程中,采用三级模糊综合评判。一级指标因素集(网页中出现位置)包括:网页题名、文章标题、第一段首句、第一段尾句、第二段首句、第二段尾句、第三段首句、第三段尾句、首段、尾段、HTML标记。二级指标因素集(词性)包括:名词, 动词, 形容词, 副词, 介词, 连词, 助词, 数字, 符号。三级指标因素集:待分类网页中所包含的全部词语的频数。评价集确定为V={V1(不属于0), V2(不太可能属于0.25), V3(可能属于0.5), V4(很可能属于0.75), V5(属于1)}。
专家随机抽取了300篇网页,对这些网页进行人工自由标引、人工打分、词频统计,并进行统计数据的分析、研究,将一级指标因素权重集确定为A={0.128, 0.128, 0.128, 0.104, 0.104, 0.104, 0.06, 0.06, 0.06, 0.06, 0.05, 0.05};根据语言学专家对各类别中不同词性的词语对标志一个类别(以中图分类法为标准)重要性程度统计和评分,将二级指标因素权重集确定为An={0.28, 0.18, 0.24, 0.06, 0.05, 0.04, 0.04, 0.06, 0.05};根据词语的互信息量确定出三级指标因素权重为Anm={Anm1, Anm2 … Anmx}  其中,Anmx即为对应词语的互信息量
隶属函数采用卡夫曼教授提出的隶属函数确定方法(正态分布模型)确定如下:
①     […]

100个经典的初等数学问题

第01题  阿基米德分牛问题Archimedes’ Problema Bovinum
    太阳神有一牛群,由白、黑、花、棕四种颜色的公、母牛组成.
    在公牛中,白牛数多于棕牛数,多出之数相当于黑牛数的1/2+1/3;黑牛数多于棕牛数,多出之数相当于花牛数的?+1/5;花牛数多于棕牛数,多出之数相当于白牛数的1/6+1/7.
    在母牛中,白牛数是全体黑牛数的1/3+?;黑牛数是全体花牛数?+1/5;花牛数是全体棕牛数的1/5+1/6;棕牛数是全体白牛数的1/6+1/7.
    问这牛群是怎样组成的?
 第02题  德·梅齐里亚克的法码问题The Weight Problem of Bachet de Meziriac
    一位商人有一个40磅的砝码,由于跌落在地而碎成4块.后来,称得每块碎片的重量都是整磅数,而且可以用这4块来称从1至40磅之间的任意整数磅的重物.
    问这4块砝码碎片各重多少?
 第03题  牛顿的草地与母牛问题Newton’s Problem of the Fields and Cows
    a头母牛将b块地上的牧草在c天内吃完了;
    a’头母牛将b’块地上的牧草在c’天内吃完了;
    a”头母牛将b”块地上的牧草在c”天内吃完了;
求出从a到c”9个数量之间的关系?
 第04题  贝韦克的七个7的问题Berwick’s Problem of the Seven Sevens
    在下面除法例题中,被除数被除数除尽:
    * * 7 * * * * * * * ÷ * * * * 7 * = * * 7 […]

布尔和它的思维定律An Investigation of the Laws of Thought

 布尔(Boole, George)英国数学家及逻辑学家。18i5年11月2日生于林肯:1864年12月8日卒于爱尔兰的科克。
 
布尔是鞋匠之子,他完全靠自己的力量爬上去。他原想做牧师,但是他十六岁时在私立学校教数学,
1835年,20岁的乔治.布尔开办了一所私人授课学校。为了给学生们开设必要的数学课程,他兴趣浓厚地读起了当时一些介绍数学知识的教科书。
不久,他就感到惊讶,这些东西就是数学吗?实在令人难以置信。于是,这位只学过初级数学的青年自学了艰深的《天体力学》和很抽象的《分析力学》。
由于他对代数关系的对称和美有很强的感觉,在孤独的研究中,他首先发现了不变量,并把这一成果写成论文发表。
这篇高质量的论文发表后,布尔仍然留在小学教书, 是他开始和许多第一流的英国数学家交往或通信,其中有数学家、逻辑学家德.摩根。
摩根在19世纪前半叶卷入了一场著名的争论,布尔知道摩根是对的,于是在1848年出版了一本薄薄的小册子来为朋友辩护。
这本书是他6年后更伟大的东西的预告,它一问世,立即激起了摩根的赞扬,肯定他开辟了新的、棘手的研究科目。
布尔此时已经在研究逻辑代数,即布尔代数。他把逻辑简化成极为容易和简单的一种代数。在这种代数中,适当的材料上的”推理”,成了公式的初等运算的事情,
这些公式比过去在中学代数第二年级课程中所运用的大多数公式要简单得多。这样,就使逻辑本身受数学的支配。
为了使自己的研究工作趋于完善,布尔在此后6年的漫长时间里,又付出了不同寻常的努力。
1854年,他发表了《思维规律》这部杰作,当时他已39岁,布尔代数问世了,数学史上树起了一座新的里程碑。
几乎像所有的新生事物一样,布尔代数发明后没有受到人们的重视。欧洲大陆著名的数学家蔑视地称它为没有数学意义的哲学上稀奇古怪的东西,
他们怀疑英伦岛国的数学家能在数学上做出独特贡献。布尔在他的杰作出版后不久就去世了。
20世纪初,罗素在《数学原理》中认为,”纯数学是布尔在一部他称之为《思维规律》的著作中发现的。
“此说一出,立刻引起世人对布尔代数的注意。今天,布尔发明的逻辑代数已经发展成为纯数学的一个主要分支。
布尔死于肺炎,这是由于他坚持上课而在十一月的冷雨中步行二英里淋湿后受凉而引起的。
前面对布尔作了一个基本的介绍。
毋庸置疑,布尔的贡献是极其巨大。我的问题是他的思维定律(An Investigation of the Laws of Thought)到底写了些什么?
现代计算机的应用是基于的是布尔代数方法。他的书名应该是“布尔代数”或者“逻辑的数学表示方法”什么的。他写书的初衷是
想用数学符号表示人类的思维方法吗?
找遍了整个网络也没找到电子书,这本书有版权。明天继续找!

麻省理工学院和它的公开课以及我想要得自然语言方面的资料

先简单介绍下麻省理工英文全称是Massachusetts Institute of Technology。
麻省理工是美国一所私立高等学校。一译马萨诸塞理工学院。
1861年由W.B.罗杰斯创办于波士顿,1916年迁至坎布里奇市。                                                        
有人称麻省理工学院为“疯癫精神病院”。对不知内情的人业说,第一印象或许如此。然而,麻理的最成功之处在于它独特的教育方法。
它“最基本的注意点是研究,即独立地去探索新问题”。例如,有一门课是这样进行的:学生们每人得到一个装满弹簧、电机等元件的箱子,
课程要求简单而明确——自行设计、装配一台机器。恰恰是这种奇异、怪癖、与众不同的环境,造就了一大批献身教育事业、顽强拼搏且成就卓著的科学家。
也正因为如此,才使它成为全世界有志青年衷心向往的“麦加圣地”。
麻省理工的首页是http://mit.edu/
今天找到了这个中文麻省理工基于网络的教学资源http://ocw.mit.edu/OcwWeb/web/courses/lang/cn2/cn2.htm 。
其中罗列的课程都已经翻译为中文。下面是电子和计算机部分的中文资源

6.004
Computation Structures
Fall 2002

6.012
Microelectronic Devices and Circuits
Fall 2005

6.012
Microelectronic Devices and Circuits
Fall 2003

6.013
Electromagnetics and Applications
Fall 2002

6.035
Computer Language Engineering (SMA 5502)
Fall 2005

6.050J
Information and Entropy
Spring 2003

6.101
Introductory Analog Electronics Laboratory
Fall 2002

6.170
Laboratory in Software Engineering
Fall 2005

6.231
Dynamic Programming and Stochastic Control
Fall 2002

6.241
Dynamic Systems & Control
Fall 2003

6.243J
Dynamics of […]

网友zhaoxiaoqiang的一家之言

科技的最终目标是发展生产。
人类能有今天,全靠大脑。
但是100万年来的进化,才到这个程度。
而现代知识的增长速度,在近200年呈指数增长。
从前人们只需十年寒窗,现在人们学到30岁才能对一个很小的领域有所作为。
人类的进化速度已经不能适应科技发展的需要。
解决方法有两个:
1、生物工程方法人工调整基因,加速人类进化,存在伦理问题。
2、人工智能方法,利用电脑强大的存储,快速的运算,来解脱人脑的负担。
我认为第二种方法更有实际意义。
但是现在中国基本上没有真正的人工智能专家,教材基本上全是照抄国外。
而外国专家的研究思路似乎有一些不正确。
人脑不可能十全十美,肯定有进化的缺陷。但是现在的科学家都在努力去模仿一个人脑。
正确的思路是解决一个问题:什么是生命和智能?我认为具有自我存在和完善能力的物质就是智能。
人工智能不应该是模仿人的智能,而应该创造比人强很多倍的新智能模式。
它应该是一段算法,不需要固定的输入,也不会有固定的输出,并在适当的时候自我编程,自我升级。

原文http://www.xiaoqiang.net/blog/index.php?job=art&articleid=a_20060116_013632