1.2 基于分类网页链接分析的领域新词语发现_词语计算与应用-QQ阅读男生玄幻网

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

1.2 基于分类网页链接分析的领域新词语发现

网络是一个巨大的资源宝库，当观察或利用角度不同时，会有意想不到的收获。

在构建文本分类和主题词标引系统时，我们建立了一个超大规模的语料库。语料来自几个门户网站，时间跨度为4年（2002—2005），共约60万个网页，6亿字。对60万个网页提取出详细的语料信息，如标题、栏目、关键词、时间、同主题链接标题和正文。

同时，通过对4个门户网站、3个搜索引擎和13个主流报纸网站的栏目分类体系和传统分类体系的对比研究，经过同名栏目去重、相似栏目合并、异名同类栏目映射、子类栏目提炼上升等手段，最终，在求得各大网站栏目的共性的基础上，重点考虑“主题划分”、“生活优先”的原则，我们归纳出一个网页分类用类目体系。体系共15个大类，包括：

时政新闻__国际、时政新闻__国内、时政新闻__社会、时政新闻__军事、经济、科技、体育、教育、娱乐、旅游、汽车、文艺、游戏、房产、生活男女

层级类别体系最深为四级，如“科技__数码__视频__数字电视”、“体育__水上运动__跳水”、“经济__证券资讯__黄金市场”、“汽车__用车修车”，类目总共244个。

将语料库的网页栏目和已建立的网页分类体系进行映射，最终，语料库存储为XML格式详细标注语料属性的层级分类语料库。

在网页信息提取时，我们发现很多网页已经人工标引上了关键词，没有标引的网页也存在一些有用的词语信息，如“热门”、“搜索”或文中的词语超链接。

这些词语信息大体上可分为两类：

（1）网页关键词。

这是新词语主要的来源。关键词往往标引在标题下面，是那些具有文本主题表示功能的词语。“关键词”是对一个网页的主题进行描述的关键性词语，一般一个网页约两三个关键词。例如，一篇题为“安然高官仍受调查前主席秘书承认犯内部交易罪”的文章的网页的关键词为“安然、内部交易罪”。

在网页源代码中关键词的存在形式类似：

“＜meta name="keywords" content="安然内部交易罪"＞”。

（2）网页上热门、焦点或搜索的内容、文中的词语链接。

为吸引用户眼球，网站在网页上放置了近期热门或焦点的词语的链接，用户点击即可进入相关页面。例如，2006年8月，某网站在网页上放置了“热点推荐”：“六方会谈”、“超级女声”，9月初的“卡特里娜飓风”。

在网页源代码中，其存在形式类似：

“热点搜索＜/font＞＜/a＞：＜a href="http：//search.xxx.com/xxxnews.php？word=六方会谈" target="__blank"＞＜font color=#0000FF＞＜u＞六方会谈＜/u＞”（热点搜索）。

“＜a href="http：//auto.xxx.com/model/1747.html" target=__blank＞＜font color=blue＞新奥迪A6＜/font＞＜/a＞”（正文中的词语超链接）。

在信息抽取时，只需定位到相应锚点，直接抽取即可获得大量词语。如在C#程序中，只需一条语句“public string Substring（int startIndex，int length）”，再按照该网页的栏目分类别存储。这种方法快捷高效，只需要简单的匹配即可，避免了规则方法或统计方法复杂烦琐的运算，而且准确率几乎百分之百。