网页正文提取算法研究[非正则] 作品

网页正文提取算法研究[非正则] 互联网的页面展现形式相当丰富,但是如果按页面结构特征来分类,却不外乎以下几种类型:首页(包括栏目首页),列表页,内容页,评论页。 (1) 首页: 网站的首页, 一般含有多个栏目、图片、动画,以及若干文章标题链接。如: 网易首页。 (2) 列表页: 信息以列表的方式给出, 一般以表格的形式列出若干个条目, 经常含有分页功能。例...
jabin 发布于