信息资源整合平台_爬虫

信息资源整合平台

二期开发应用解决方案

V3.0

拟 制 人______________________

审 核 人______________________

文档修改记录

1 概述

为了解决一期资源信息整合平台爬虫爬取资源准确,对在线视频资源爬取及对资源信息搜索引擎整改等问题,提出二次开发需求,满足对资源信息准确及快速。

为满足需求对如下栏目进行调整:

● 网站管理

● 爬取资源规则

● 资源分类规则

● 搜索配置管理

● 搜索引擎

● 文件类型管理

● 资源搜索服务(爬虫)

● 资源订阅管理

2 功能模块

2.1 网站管理

为了解决爬虫对FTP 站点的爬取资源问题,系统对FTP 站点管理及维护。

2.1.1 FTP 站点类型

???

2.1.2 FTP 站点管理

FTP 站点信息管理面向管理员提供全系统范围内站点资源的管理与维护功能。站点包括以下基本信息:

● FTP 站点名称

● FTP 站点类型

● 站点属性

● 是否搜索(未开启搜索选项的,爬虫程序在资源搜索时将忽略该站点)

● 站点地址(Web 站点为URL 、FTP 站点为IP 地址)

● 站点端口

● 站点账号

● 账号密码

● 站点说明

FTP 站点信息管理模块具体包括以下功能点:

● 新增FTP 站点

● 修改FTP 站点

● 删除FTP 站点

● 查询FTP 站点(按照站点名称、属性、类型进行条件查询)

2.1.3 FTP 资源管理

FTP 资源信息管理面向管理员提供全系统范围内资源的管理与维护功能。资源包括以下基本信息:

● 资源名称(文件名,含文件类型)

● 资源类型

● 原始地址

● 获取时间

● 资源大小

● 资源说明

● 资源路径

资源信息管理模块具体包括以下功能点:

● 查询资源(按照资源名称、类型、站点及来源进行条件查询) ● 上传资源

● 修改资源信息

● 删除资源

● 下载资源

2.2 模块自定义显示管理

为了便于在系统首页灵活切换模块显示,系统实现如下管理:

2.2.1 资源类别管理

资源类别管理和维护,通过资源类别实现对首页页面栏目模块展示控制。主要功能:

● 添加资源类别

● 删除资源类别

● 修改资源类别

● 修改资源排列

● 资源查看

资源类别主要显示信息:

● 资源类别父级

● 资源名称

● 资源是否在首页显示

2.2.2 首页

主要显示最高层资源类别(也包括最高层下子类别)下最新资源,按照文件类型显示最新资源,显示类别是通过后台的资源类别管理来控制。主要功能:

● 展示栏目模块

● 展示资源下载排行

● 展示文件类型模块

● 查询资源

主要显示内容:

● 资源名称

● 获取资源时间

● 资源分类

● 资源文件类型

2.3 搜索引擎

不清楚

2.4 资源搜索服务(爬虫)

为提高资源搜索服务的速度及准确进行如下调整:

2.4.1 资源信息乱码

为了解决爬虫爬取页面资源信息时不能识别编码、错误识别编码等问题,系统添加自动识别编码,从而提高资源准确性。

2.4.2 资源文件重复

为了解决下载链接有随机码而资源却是同一个资源文件的问题,系统添加了文件MD5码识别,每次爬虫爬取资源文件时对文件MD5码进行匹配,从而减少对同一资源文件多次下载的现象。

2.4.3 爬取网站二级域名识别

爬虫对爬取网站不能识别二级域名,减少了对网站爬取范围。为了解决此类问题,网站添加了对网站二级域名的管理和维护,但二级域名繁多并且工作量大,系统添加自动识别二级域名识别,减少对网站维护管理。

2.4.4 对FTP 站点的爬取

管理员通过FTP 站点管理对FTP 站点的地址、用户名、密码及端口的定义,实现对FTP 站点的资源进行爬取。

2.4.5 对Web 站点穿插FTP 站点的资源链接爬取

爬虫程序分为WEB 站点和FTP 站点,但实际中WEB 站点中穿插着FTP 链接的资源,为了满足爬取WEB 站点时也能下载FTP 站点资源信息的需求。爬虫爬取WEB 站点能切换到FTP 站点的资源爬取。

2.4.6 获取资源信息不下载资源文件

爬取资源时存在大量视频资源文件,资源文件大及下载耗时,影响爬虫性能同时占用大量空间。为了解决此内问题,爬虫根据定义的站点是否需要爬取资源文件内容,来判断文件是否下载。

2.4.7 对在线视频资源的识别

爬虫主要识别A 标签中Href 链接资源并不能识别特别标签。为了解决此类问题系统爬虫通过搜索配置信息进行解析。从而实现对在线资源的链接识别。

2.4.8 对JS 资源的识别

爬虫不能识别JS 命令,为了解决该问题,虫爬系统通过搜索配置添加JS 命令及Js 参数名称,实现查找资源链接,解决对JS 资源识

别。

2.5 搜索配置管理

搜索配置管理面向管理员用户,管理员可以针对爬取的网站配置在线视频参数、JS 命令参数。该信息提供给爬虫,解决爬虫对在线视频资源的爬取和JS 资源爬取问题。

主要功能有:

● 添加搜索配置

● 删除搜索配置

● 修改搜索配置

● 查看搜索配置

每一条搜索配置主要显示内容:

● 站点名称

● 站点地址

● 在线视频链接参数

● JS 命令

● JS 参数1(参数2,参数3…)

2.6 爬取资源规则

为了提高爬取资源精准性,减少爬虫对垃圾资源文件处理,减少垃圾数据,提高爬虫效率和系统运行稳定性。爬取资源规则面向管理员用户,管理员可以设定一系列需要资源规则,通过定义规则来判断

是否需要下载该资源文件。爬取资源规则主要功能:

● 添加资源规则

● 删除资源规则

● 修改资源规则

● 查看爬取资源规则

主要显示信息内容:

● 规则名称

● 站点

● 资源文件时间段(开始时间-结束时间)

● 文件类型

● 关键字

2.7 资源分类规则

资源分类规则管理面向管理员用户,管理员可以设定一系列分类规则,由爬虫搜索获取的资源将按照这些规则自动进行归类。资源分类规则包括以下功能点:

● 新增资源分类规则

● 修改资源分类规则

● 删除资源分类规则

● 启用资源分类规则

● 停用资源分类规则

● 查看资源分类规则

每一条资源分类规则包括以下内容:

● 规则名称

● 关键字(与资源名称匹配,可以填写多个关键字使用“,”连接)

● 文件类型(与资源文件类型匹配,可以选择多种文件类型) ● 优先级(1-5级,当一个资源可以匹配多条规则时,按照优先级最高的最新一条规则进行归类处理)

● 资源归类(从资源类型中选取,制定具体一种类别)

2.8 文件类型管理

为了解决客户对爬取具体的资源文件类型及订阅具体资源文件类型的需求,提高爬虫性能,添加文件类型管理模块,文件类型管理面向管理员用户,管理员可以设定文件类型,该文件类型提供爬虫系统需要处理文件类型。主要功能:

● 添加文件类型

● 修改文件类型

● 删除文件类型

● 查看文件类型

● 修改文件类型排列顺序

文件类型显示信息:

● 文件类型名称(视频、文档、演示文档、压缩文件、电子表格、其它)

● 文件扩展名(doc 、txt 、pdf 、xls …)

2.9 资源查询及详细内容页面

为了区分资源是链接和还是具体资源文件,系统提供资源的原始地址及下载。

2.9.1 资源查询列表

资源查询面向所有用户,用户通过关键字、资源类别及文件类型查找需要资源。主要功能:

● 查询资源

● 下载资源

● 查看资源原始地址

列表显示内容:

● 资源名称

● 资源类别

● 文件类型

● 文件大小

● 获取时间

● 资源来源

● 资源备注

● 下载

● 资源原始地址

2.9.2 资源详细内容

查看具体资源信息,显示资源相关资源,同时提供下载地址及查看原始页面地址。具体功能:

● 查询资源

● 下载资源

● 查看资源原始地址

资源具体显示内容:

● 资源名称

● 资源类别

● 文件类型

● 文件大小

● 获取时间

● 资源来源

● 资源备注

● 下载

● 资源原始地址

2.10 资源订阅管理

一条订阅可以匹配对多个关键字订阅及多个文件类型,解决多次添加订阅信息问题,订阅信息的具体内容包括:

● 资源类型

● 关键字(可以填写多个关键字,使用“, ”连接) ● 文件类型(可以选择多个文件类型)

信息订阅管理主要包括以下功能点:

● 新增订阅

● 订阅查看

● 修改订阅

● 删除订阅

● 订阅失效

● 订阅生效

信息资源整合平台

二期开发应用解决方案

V3.0

拟 制 人______________________

审 核 人______________________

文档修改记录

1 概述

为了解决一期资源信息整合平台爬虫爬取资源准确,对在线视频资源爬取及对资源信息搜索引擎整改等问题,提出二次开发需求,满足对资源信息准确及快速。

为满足需求对如下栏目进行调整:

● 网站管理

● 爬取资源规则

● 资源分类规则

● 搜索配置管理

● 搜索引擎

● 文件类型管理

● 资源搜索服务(爬虫)

● 资源订阅管理

2 功能模块

2.1 网站管理

为了解决爬虫对FTP 站点的爬取资源问题,系统对FTP 站点管理及维护。

2.1.1 FTP 站点类型

???

2.1.2 FTP 站点管理

FTP 站点信息管理面向管理员提供全系统范围内站点资源的管理与维护功能。站点包括以下基本信息:

● FTP 站点名称

● FTP 站点类型

● 站点属性

● 是否搜索(未开启搜索选项的,爬虫程序在资源搜索时将忽略该站点)

● 站点地址(Web 站点为URL 、FTP 站点为IP 地址)

● 站点端口

● 站点账号

● 账号密码

● 站点说明

FTP 站点信息管理模块具体包括以下功能点:

● 新增FTP 站点

● 修改FTP 站点

● 删除FTP 站点

● 查询FTP 站点(按照站点名称、属性、类型进行条件查询)

2.1.3 FTP 资源管理

FTP 资源信息管理面向管理员提供全系统范围内资源的管理与维护功能。资源包括以下基本信息:

● 资源名称(文件名,含文件类型)

● 资源类型

● 原始地址

● 获取时间

● 资源大小

● 资源说明

● 资源路径

资源信息管理模块具体包括以下功能点:

● 查询资源(按照资源名称、类型、站点及来源进行条件查询) ● 上传资源

● 修改资源信息

● 删除资源

● 下载资源

2.2 模块自定义显示管理

为了便于在系统首页灵活切换模块显示,系统实现如下管理:

2.2.1 资源类别管理

资源类别管理和维护,通过资源类别实现对首页页面栏目模块展示控制。主要功能:

● 添加资源类别

● 删除资源类别

● 修改资源类别

● 修改资源排列

● 资源查看

资源类别主要显示信息:

● 资源类别父级

● 资源名称

● 资源是否在首页显示

2.2.2 首页

主要显示最高层资源类别(也包括最高层下子类别)下最新资源,按照文件类型显示最新资源,显示类别是通过后台的资源类别管理来控制。主要功能:

● 展示栏目模块

● 展示资源下载排行

● 展示文件类型模块

● 查询资源

主要显示内容:

● 资源名称

● 获取资源时间

● 资源分类

● 资源文件类型

2.3 搜索引擎

不清楚

2.4 资源搜索服务(爬虫)

为提高资源搜索服务的速度及准确进行如下调整:

2.4.1 资源信息乱码

为了解决爬虫爬取页面资源信息时不能识别编码、错误识别编码等问题,系统添加自动识别编码,从而提高资源准确性。

2.4.2 资源文件重复

为了解决下载链接有随机码而资源却是同一个资源文件的问题,系统添加了文件MD5码识别,每次爬虫爬取资源文件时对文件MD5码进行匹配,从而减少对同一资源文件多次下载的现象。

2.4.3 爬取网站二级域名识别

爬虫对爬取网站不能识别二级域名,减少了对网站爬取范围。为了解决此类问题,网站添加了对网站二级域名的管理和维护,但二级域名繁多并且工作量大,系统添加自动识别二级域名识别,减少对网站维护管理。

2.4.4 对FTP 站点的爬取

管理员通过FTP 站点管理对FTP 站点的地址、用户名、密码及端口的定义,实现对FTP 站点的资源进行爬取。

2.4.5 对Web 站点穿插FTP 站点的资源链接爬取

爬虫程序分为WEB 站点和FTP 站点,但实际中WEB 站点中穿插着FTP 链接的资源,为了满足爬取WEB 站点时也能下载FTP 站点资源信息的需求。爬虫爬取WEB 站点能切换到FTP 站点的资源爬取。

2.4.6 获取资源信息不下载资源文件

爬取资源时存在大量视频资源文件,资源文件大及下载耗时,影响爬虫性能同时占用大量空间。为了解决此内问题,爬虫根据定义的站点是否需要爬取资源文件内容,来判断文件是否下载。

2.4.7 对在线视频资源的识别

爬虫主要识别A 标签中Href 链接资源并不能识别特别标签。为了解决此类问题系统爬虫通过搜索配置信息进行解析。从而实现对在线资源的链接识别。

2.4.8 对JS 资源的识别

爬虫不能识别JS 命令,为了解决该问题,虫爬系统通过搜索配置添加JS 命令及Js 参数名称,实现查找资源链接,解决对JS 资源识

别。

2.5 搜索配置管理

搜索配置管理面向管理员用户,管理员可以针对爬取的网站配置在线视频参数、JS 命令参数。该信息提供给爬虫,解决爬虫对在线视频资源的爬取和JS 资源爬取问题。

主要功能有:

● 添加搜索配置

● 删除搜索配置

● 修改搜索配置

● 查看搜索配置

每一条搜索配置主要显示内容:

● 站点名称

● 站点地址

● 在线视频链接参数

● JS 命令

● JS 参数1(参数2,参数3…)

2.6 爬取资源规则

为了提高爬取资源精准性,减少爬虫对垃圾资源文件处理,减少垃圾数据,提高爬虫效率和系统运行稳定性。爬取资源规则面向管理员用户,管理员可以设定一系列需要资源规则,通过定义规则来判断

是否需要下载该资源文件。爬取资源规则主要功能:

● 添加资源规则

● 删除资源规则

● 修改资源规则

● 查看爬取资源规则

主要显示信息内容:

● 规则名称

● 站点

● 资源文件时间段(开始时间-结束时间)

● 文件类型

● 关键字

2.7 资源分类规则

资源分类规则管理面向管理员用户,管理员可以设定一系列分类规则,由爬虫搜索获取的资源将按照这些规则自动进行归类。资源分类规则包括以下功能点:

● 新增资源分类规则

● 修改资源分类规则

● 删除资源分类规则

● 启用资源分类规则

● 停用资源分类规则

● 查看资源分类规则

每一条资源分类规则包括以下内容:

● 规则名称

● 关键字(与资源名称匹配,可以填写多个关键字使用“,”连接)

● 文件类型(与资源文件类型匹配,可以选择多种文件类型) ● 优先级(1-5级,当一个资源可以匹配多条规则时,按照优先级最高的最新一条规则进行归类处理)

● 资源归类(从资源类型中选取,制定具体一种类别)

2.8 文件类型管理

为了解决客户对爬取具体的资源文件类型及订阅具体资源文件类型的需求,提高爬虫性能,添加文件类型管理模块,文件类型管理面向管理员用户,管理员可以设定文件类型,该文件类型提供爬虫系统需要处理文件类型。主要功能:

● 添加文件类型

● 修改文件类型

● 删除文件类型

● 查看文件类型

● 修改文件类型排列顺序

文件类型显示信息:

● 文件类型名称(视频、文档、演示文档、压缩文件、电子表格、其它)

● 文件扩展名(doc 、txt 、pdf 、xls …)

2.9 资源查询及详细内容页面

为了区分资源是链接和还是具体资源文件,系统提供资源的原始地址及下载。

2.9.1 资源查询列表

资源查询面向所有用户,用户通过关键字、资源类别及文件类型查找需要资源。主要功能:

● 查询资源

● 下载资源

● 查看资源原始地址

列表显示内容:

● 资源名称

● 资源类别

● 文件类型

● 文件大小

● 获取时间

● 资源来源

● 资源备注

● 下载

● 资源原始地址

2.9.2 资源详细内容

查看具体资源信息,显示资源相关资源,同时提供下载地址及查看原始页面地址。具体功能:

● 查询资源

● 下载资源

● 查看资源原始地址

资源具体显示内容:

● 资源名称

● 资源类别

● 文件类型

● 文件大小

● 获取时间

● 资源来源

● 资源备注

● 下载

● 资源原始地址

2.10 资源订阅管理

一条订阅可以匹配对多个关键字订阅及多个文件类型,解决多次添加订阅信息问题,订阅信息的具体内容包括:

● 资源类型

● 关键字(可以填写多个关键字,使用“, ”连接) ● 文件类型(可以选择多个文件类型)

信息订阅管理主要包括以下功能点:

● 新增订阅

● 订阅查看

● 修改订阅

● 删除订阅

● 订阅失效

● 订阅生效


    相关文章

    智慧物业整体规划方案0517V1.0

    智慧社区(物业)解决方案 一.智慧物业整体规划 建立"社区物业 + 社区住户 + 周边商家"之间的商务模式,并与多家大型超市联合,打造成"中国社区电子化运营商".是面向全国基于手机上的开放式智慧物业应 ...

    网络爬虫技术探究

    JIU JIANG UNIVERSITY 毕 业 论 文 题 目 网络爬虫技术探究 英文题目 院 系 信息科学与技术学院 专 业 计算机科学与技术 姓 名 闻泽 班级学号 A081129 指导教师 二○一二年五月 信息科学与技术学院学士学位 ...

    搜索引擎调查报告探测大众心中的秘密隐私

    二月初,珍妮·杰克逊(janet jackson)因为走光事件上升为yahoo搜索的人气冠军,其搜索请求达到总数的20%,创下了yahoo搜索关键词的历史最高记录。这一数字是艳星paris hilton曾经所创记录的60倍,是歌星小甜甜布莱 ...

    八爪鱼爬虫能爬取到哪些数据

    八爪鱼·云采集服务平台 www.bazhuayu.com 八爪鱼爬虫能爬取到哪些数据 八爪鱼采集器,是一款通用的网页数据采集器,可以通过规则配置,简单高效地将网页数据转化为结构化数据.没有使用过八爪鱼爬虫的人,可能会十分好奇,八爪鱼到底能爬 ...

    分布式数据采集平台介绍(网络爬虫)

    分布式数据采集平台(网络爬虫) 设计框架 作者:数荟集 CTO 时间:2016-6-8 产品特色 1. 高性能 2. 分布式部署,规模无限扩展 3. 配置灵活,可以任意配置规则 4. 支持对爬虫单独设置:执行周期.执行开始时间.执行间隔等参 ...

    化学主题网络爬虫的设计和实现

    化学主题网络爬虫的设计和实现 夏诏杰梁春燕郭力 (中国科学院过程工程所多相实验室,北京100080) E-mail:zjxia@home.ipe.ac.cn 摘 要由于通用搜索引擎检索返回的结果过多.主题相关性不强以及随着人们对提供的各项信 ...

    聚焦爬虫技术研究综述

    第25卷第9期 2005年9月 文章编号:1001-9081(2005) 09-1965-05 Computer App licati ons Edited by Foxit Reader Copyright(C) by Foxit Sof ...

    美团外卖商家数据分享

    大数据时代必备技能 - 神箭手云爬虫 -一站式云端通用爬虫开发平台 神箭手云爬虫多样化采集网页内容,快速产生大量而优质的内容. 1.打开神箭手云爬虫官网 2.创建爬虫任务 (1) 在首页点击"爬虫市场",在神箭手云市场中 ...

    垂直搜索引擎发展概述

    68 图书馆学研究2006.12 垂直搜索引擎发展概述 罗丽姗 [摘要]本文分析了垂直搜索引擎的产生,与水平搜索引擎的区别所在,数据来源,盈利模式以及发展方向. 垂直搜索 互联网 theformofverticalengines,their ...