1.2 基于分类网页链接分析的领域新词语发现
网络是一个巨大的资源宝库,当观察或利用角度不同时,会有意想不到的收获。
在构建文本分类和主题词标引系统时,我们建立了一个超大规模的语料库。语料来自几个门户网站,时间跨度为4年(2002—2005),共约60万个网页,6亿字。对60万个网页提取出详细的语料信息,如标题、栏目、关键词、时间、同主题链接标题和正文。
同时,通过对4个门户网站、3个搜索引擎和13个主流报纸网站的栏目分类体系和传统分类体系的对比研究,经过同名栏目去重、相似栏目合并、异名同类栏目映射、子类栏目提炼上升等手段,最终,在求得各大网站栏目的共性的基础上,重点考虑“主题划分”、“生活优先”的原则,我们归纳出一个网页分类用类目体系。体系共15个大类,包括:
时政新闻__国际、时政新闻__国内、时政新闻__社会、时政新闻__军事、经济、科技、体育、教育、娱乐、旅游、汽车、文艺、游戏、房产、生活男女
层级类别体系最深为四级,如“科技__数码__视频__数字电视”、“体育__水上运动__跳水”、“经济__证券资讯__黄金市场”、“汽车__用车修车”,类目总共244个。
将语料库的网页栏目和已建立的网页分类体系进行映射,最终,语料库存储为XML格式详细标注语料属性的层级分类语料库。
在网页信息提取时,我们发现很多网页已经人工标引上了关键词,没有标引的网页也存在一些有用的词语信息,如“热门”、“搜索”或文中的词语超链接。
这些词语信息大体上可分为两类:
(1)网页关键词。
这是新词语主要的来源。关键词往往标引在标题下面,是那些具有文本主题表示功能的词语。“关键词”是对一个网页的主题进行描述的关键性词语,一般一个网页约两三个关键词。例如,一篇题为“安然高官仍受调查 前主席秘书承认犯内部交易罪”的文章的网页的关键词为“安然、内部交易罪”。
在网页源代码中关键词的存在形式类似:
“<meta name="keywords" content="安然 内部交易罪">”。
(2)网页上热门、焦点或搜索的内容、文中的词语链接。
为吸引用户眼球,网站在网页上放置了近期热门或焦点的词语的链接,用户点击即可进入相关页面。例如,2006年8月,某网站在网页上放置了“热点推荐”:“六方会谈”、“超级女声”,9月初的“卡特里娜飓风”。
在网页源代码中,其存在形式类似:
“热点搜索</font></a>:<a href="http://search.xxx.com/xxxnews.php?word=六方会谈" target="__blank"><font color=#0000FF><u>六方会谈</u>”(热点搜索)。
“<a href="http://auto.xxx.com/model/1747.html" target=__blank><font color=blue>新奥迪A6</font></a>”(正文中的词语超链接)。
在信息抽取时,只需定位到相应锚点,直接抽取即可获得大量词语。如在C#程序中,只需一条语句“public string Substring(int startIndex,int length)”,再按照该网页的栏目分类别存储。这种方法快捷高效,只需要简单的匹配即可,避免了规则方法或统计方法复杂烦琐的运算,而且准确率几乎百分之百。