信息资源整合平台
二期开发应用解决方案
V3.0
拟 制 人______________________
审 核 人______________________
文档修改记录
1 概述
为了解决一期资源信息整合平台爬虫爬取资源准确,对在线视频资源爬取及对资源信息搜索引擎整改等问题,提出二次开发需求,满足对资源信息准确及快速。
为满足需求对如下栏目进行调整:
● 网站管理
● 爬取资源规则
● 资源分类规则
● 搜索配置管理
● 搜索引擎
● 文件类型管理
● 资源搜索服务(爬虫)
● 资源订阅管理
2 功能模块
2.1 网站管理
为了解决爬虫对FTP 站点的爬取资源问题,系统对FTP 站点管理及维护。
2.1.1 FTP 站点类型
???
2.1.2 FTP 站点管理
FTP 站点信息管理面向管理员提供全系统范围内站点资源的管理与维护功能。站点包括以下基本信息:
● FTP 站点名称
● FTP 站点类型
● 站点属性
● 是否搜索(未开启搜索选项的,爬虫程序在资源搜索时将忽略该站点)
● 站点地址(Web 站点为URL 、FTP 站点为IP 地址)
● 站点端口
● 站点账号
● 账号密码
● 站点说明
FTP 站点信息管理模块具体包括以下功能点:
● 新增FTP 站点
● 修改FTP 站点
● 删除FTP 站点
● 查询FTP 站点(按照站点名称、属性、类型进行条件查询)
2.1.3 FTP 资源管理
FTP 资源信息管理面向管理员提供全系统范围内资源的管理与维护功能。资源包括以下基本信息:
● 资源名称(文件名,含文件类型)
● 资源类型
● 原始地址
● 获取时间
● 资源大小
● 资源说明
● 资源路径
资源信息管理模块具体包括以下功能点:
● 查询资源(按照资源名称、类型、站点及来源进行条件查询) ● 上传资源
● 修改资源信息
● 删除资源
● 下载资源
2.2 模块自定义显示管理
为了便于在系统首页灵活切换模块显示,系统实现如下管理:
2.2.1 资源类别管理
资源类别管理和维护,通过资源类别实现对首页页面栏目模块展示控制。主要功能:
● 添加资源类别
● 删除资源类别
● 修改资源类别
● 修改资源排列
● 资源查看
资源类别主要显示信息:
● 资源类别父级
● 资源名称
● 资源是否在首页显示
2.2.2 首页
主要显示最高层资源类别(也包括最高层下子类别)下最新资源,按照文件类型显示最新资源,显示类别是通过后台的资源类别管理来控制。主要功能:
● 展示栏目模块
● 展示资源下载排行
● 展示文件类型模块
● 查询资源
主要显示内容:
● 资源名称
● 获取资源时间
● 资源分类
● 资源文件类型
2.3 搜索引擎
不清楚
2.4 资源搜索服务(爬虫)
为提高资源搜索服务的速度及准确进行如下调整:
2.4.1 资源信息乱码
为了解决爬虫爬取页面资源信息时不能识别编码、错误识别编码等问题,系统添加自动识别编码,从而提高资源准确性。
2.4.2 资源文件重复
为了解决下载链接有随机码而资源却是同一个资源文件的问题,系统添加了文件MD5码识别,每次爬虫爬取资源文件时对文件MD5码进行匹配,从而减少对同一资源文件多次下载的现象。
2.4.3 爬取网站二级域名识别
爬虫对爬取网站不能识别二级域名,减少了对网站爬取范围。为了解决此类问题,网站添加了对网站二级域名的管理和维护,但二级域名繁多并且工作量大,系统添加自动识别二级域名识别,减少对网站维护管理。
2.4.4 对FTP 站点的爬取
管理员通过FTP 站点管理对FTP 站点的地址、用户名、密码及端口的定义,实现对FTP 站点的资源进行爬取。
2.4.5 对Web 站点穿插FTP 站点的资源链接爬取
爬虫程序分为WEB 站点和FTP 站点,但实际中WEB 站点中穿插着FTP 链接的资源,为了满足爬取WEB 站点时也能下载FTP 站点资源信息的需求。爬虫爬取WEB 站点能切换到FTP 站点的资源爬取。
2.4.6 获取资源信息不下载资源文件
爬取资源时存在大量视频资源文件,资源文件大及下载耗时,影响爬虫性能同时占用大量空间。为了解决此内问题,爬虫根据定义的站点是否需要爬取资源文件内容,来判断文件是否下载。
2.4.7 对在线视频资源的识别
爬虫主要识别A 标签中Href 链接资源并不能识别特别标签。为了解决此类问题系统爬虫通过搜索配置信息进行解析。从而实现对在线资源的链接识别。
2.4.8 对JS 资源的识别
爬虫不能识别JS 命令,为了解决该问题,虫爬系统通过搜索配置添加JS 命令及Js 参数名称,实现查找资源链接,解决对JS 资源识
别。
2.5 搜索配置管理
搜索配置管理面向管理员用户,管理员可以针对爬取的网站配置在线视频参数、JS 命令参数。该信息提供给爬虫,解决爬虫对在线视频资源的爬取和JS 资源爬取问题。
主要功能有:
● 添加搜索配置
● 删除搜索配置
● 修改搜索配置
● 查看搜索配置
每一条搜索配置主要显示内容:
● 站点名称
● 站点地址
● 在线视频链接参数
● JS 命令
● JS 参数1(参数2,参数3…)
2.6 爬取资源规则
为了提高爬取资源精准性,减少爬虫对垃圾资源文件处理,减少垃圾数据,提高爬虫效率和系统运行稳定性。爬取资源规则面向管理员用户,管理员可以设定一系列需要资源规则,通过定义规则来判断
是否需要下载该资源文件。爬取资源规则主要功能:
● 添加资源规则
● 删除资源规则
● 修改资源规则
● 查看爬取资源规则
主要显示信息内容:
● 规则名称
● 站点
● 资源文件时间段(开始时间-结束时间)
● 文件类型
● 关键字
2.7 资源分类规则
资源分类规则管理面向管理员用户,管理员可以设定一系列分类规则,由爬虫搜索获取的资源将按照这些规则自动进行归类。资源分类规则包括以下功能点:
● 新增资源分类规则
● 修改资源分类规则
● 删除资源分类规则
● 启用资源分类规则
● 停用资源分类规则
● 查看资源分类规则
每一条资源分类规则包括以下内容:
● 规则名称
● 关键字(与资源名称匹配,可以填写多个关键字使用“,”连接)
● 文件类型(与资源文件类型匹配,可以选择多种文件类型) ● 优先级(1-5级,当一个资源可以匹配多条规则时,按照优先级最高的最新一条规则进行归类处理)
● 资源归类(从资源类型中选取,制定具体一种类别)
2.8 文件类型管理
为了解决客户对爬取具体的资源文件类型及订阅具体资源文件类型的需求,提高爬虫性能,添加文件类型管理模块,文件类型管理面向管理员用户,管理员可以设定文件类型,该文件类型提供爬虫系统需要处理文件类型。主要功能:
● 添加文件类型
● 修改文件类型
● 删除文件类型
● 查看文件类型
● 修改文件类型排列顺序
文件类型显示信息:
● 文件类型名称(视频、文档、演示文档、压缩文件、电子表格、其它)
● 文件扩展名(doc 、txt 、pdf 、xls …)
2.9 资源查询及详细内容页面
为了区分资源是链接和还是具体资源文件,系统提供资源的原始地址及下载。
2.9.1 资源查询列表
资源查询面向所有用户,用户通过关键字、资源类别及文件类型查找需要资源。主要功能:
● 查询资源
● 下载资源
● 查看资源原始地址
列表显示内容:
● 资源名称
● 资源类别
● 文件类型
● 文件大小
● 获取时间
● 资源来源
● 资源备注
● 下载
● 资源原始地址
2.9.2 资源详细内容
查看具体资源信息,显示资源相关资源,同时提供下载地址及查看原始页面地址。具体功能:
● 查询资源
● 下载资源
● 查看资源原始地址
资源具体显示内容:
● 资源名称
● 资源类别
● 文件类型
● 文件大小
● 获取时间
● 资源来源
● 资源备注
● 下载
● 资源原始地址
2.10 资源订阅管理
一条订阅可以匹配对多个关键字订阅及多个文件类型,解决多次添加订阅信息问题,订阅信息的具体内容包括:
● 资源类型
● 关键字(可以填写多个关键字,使用“, ”连接) ● 文件类型(可以选择多个文件类型)
信息订阅管理主要包括以下功能点:
● 新增订阅
● 订阅查看
● 修改订阅
● 删除订阅
● 订阅失效
● 订阅生效
信息资源整合平台
二期开发应用解决方案
V3.0
拟 制 人______________________
审 核 人______________________
文档修改记录
1 概述
为了解决一期资源信息整合平台爬虫爬取资源准确,对在线视频资源爬取及对资源信息搜索引擎整改等问题,提出二次开发需求,满足对资源信息准确及快速。
为满足需求对如下栏目进行调整:
● 网站管理
● 爬取资源规则
● 资源分类规则
● 搜索配置管理
● 搜索引擎
● 文件类型管理
● 资源搜索服务(爬虫)
● 资源订阅管理
2 功能模块
2.1 网站管理
为了解决爬虫对FTP 站点的爬取资源问题,系统对FTP 站点管理及维护。
2.1.1 FTP 站点类型
???
2.1.2 FTP 站点管理
FTP 站点信息管理面向管理员提供全系统范围内站点资源的管理与维护功能。站点包括以下基本信息:
● FTP 站点名称
● FTP 站点类型
● 站点属性
● 是否搜索(未开启搜索选项的,爬虫程序在资源搜索时将忽略该站点)
● 站点地址(Web 站点为URL 、FTP 站点为IP 地址)
● 站点端口
● 站点账号
● 账号密码
● 站点说明
FTP 站点信息管理模块具体包括以下功能点:
● 新增FTP 站点
● 修改FTP 站点
● 删除FTP 站点
● 查询FTP 站点(按照站点名称、属性、类型进行条件查询)
2.1.3 FTP 资源管理
FTP 资源信息管理面向管理员提供全系统范围内资源的管理与维护功能。资源包括以下基本信息:
● 资源名称(文件名,含文件类型)
● 资源类型
● 原始地址
● 获取时间
● 资源大小
● 资源说明
● 资源路径
资源信息管理模块具体包括以下功能点:
● 查询资源(按照资源名称、类型、站点及来源进行条件查询) ● 上传资源
● 修改资源信息
● 删除资源
● 下载资源
2.2 模块自定义显示管理
为了便于在系统首页灵活切换模块显示,系统实现如下管理:
2.2.1 资源类别管理
资源类别管理和维护,通过资源类别实现对首页页面栏目模块展示控制。主要功能:
● 添加资源类别
● 删除资源类别
● 修改资源类别
● 修改资源排列
● 资源查看
资源类别主要显示信息:
● 资源类别父级
● 资源名称
● 资源是否在首页显示
2.2.2 首页
主要显示最高层资源类别(也包括最高层下子类别)下最新资源,按照文件类型显示最新资源,显示类别是通过后台的资源类别管理来控制。主要功能:
● 展示栏目模块
● 展示资源下载排行
● 展示文件类型模块
● 查询资源
主要显示内容:
● 资源名称
● 获取资源时间
● 资源分类
● 资源文件类型
2.3 搜索引擎
不清楚
2.4 资源搜索服务(爬虫)
为提高资源搜索服务的速度及准确进行如下调整:
2.4.1 资源信息乱码
为了解决爬虫爬取页面资源信息时不能识别编码、错误识别编码等问题,系统添加自动识别编码,从而提高资源准确性。
2.4.2 资源文件重复
为了解决下载链接有随机码而资源却是同一个资源文件的问题,系统添加了文件MD5码识别,每次爬虫爬取资源文件时对文件MD5码进行匹配,从而减少对同一资源文件多次下载的现象。
2.4.3 爬取网站二级域名识别
爬虫对爬取网站不能识别二级域名,减少了对网站爬取范围。为了解决此类问题,网站添加了对网站二级域名的管理和维护,但二级域名繁多并且工作量大,系统添加自动识别二级域名识别,减少对网站维护管理。
2.4.4 对FTP 站点的爬取
管理员通过FTP 站点管理对FTP 站点的地址、用户名、密码及端口的定义,实现对FTP 站点的资源进行爬取。
2.4.5 对Web 站点穿插FTP 站点的资源链接爬取
爬虫程序分为WEB 站点和FTP 站点,但实际中WEB 站点中穿插着FTP 链接的资源,为了满足爬取WEB 站点时也能下载FTP 站点资源信息的需求。爬虫爬取WEB 站点能切换到FTP 站点的资源爬取。
2.4.6 获取资源信息不下载资源文件
爬取资源时存在大量视频资源文件,资源文件大及下载耗时,影响爬虫性能同时占用大量空间。为了解决此内问题,爬虫根据定义的站点是否需要爬取资源文件内容,来判断文件是否下载。
2.4.7 对在线视频资源的识别
爬虫主要识别A 标签中Href 链接资源并不能识别特别标签。为了解决此类问题系统爬虫通过搜索配置信息进行解析。从而实现对在线资源的链接识别。
2.4.8 对JS 资源的识别
爬虫不能识别JS 命令,为了解决该问题,虫爬系统通过搜索配置添加JS 命令及Js 参数名称,实现查找资源链接,解决对JS 资源识
别。
2.5 搜索配置管理
搜索配置管理面向管理员用户,管理员可以针对爬取的网站配置在线视频参数、JS 命令参数。该信息提供给爬虫,解决爬虫对在线视频资源的爬取和JS 资源爬取问题。
主要功能有:
● 添加搜索配置
● 删除搜索配置
● 修改搜索配置
● 查看搜索配置
每一条搜索配置主要显示内容:
● 站点名称
● 站点地址
● 在线视频链接参数
● JS 命令
● JS 参数1(参数2,参数3…)
2.6 爬取资源规则
为了提高爬取资源精准性,减少爬虫对垃圾资源文件处理,减少垃圾数据,提高爬虫效率和系统运行稳定性。爬取资源规则面向管理员用户,管理员可以设定一系列需要资源规则,通过定义规则来判断
是否需要下载该资源文件。爬取资源规则主要功能:
● 添加资源规则
● 删除资源规则
● 修改资源规则
● 查看爬取资源规则
主要显示信息内容:
● 规则名称
● 站点
● 资源文件时间段(开始时间-结束时间)
● 文件类型
● 关键字
2.7 资源分类规则
资源分类规则管理面向管理员用户,管理员可以设定一系列分类规则,由爬虫搜索获取的资源将按照这些规则自动进行归类。资源分类规则包括以下功能点:
● 新增资源分类规则
● 修改资源分类规则
● 删除资源分类规则
● 启用资源分类规则
● 停用资源分类规则
● 查看资源分类规则
每一条资源分类规则包括以下内容:
● 规则名称
● 关键字(与资源名称匹配,可以填写多个关键字使用“,”连接)
● 文件类型(与资源文件类型匹配,可以选择多种文件类型) ● 优先级(1-5级,当一个资源可以匹配多条规则时,按照优先级最高的最新一条规则进行归类处理)
● 资源归类(从资源类型中选取,制定具体一种类别)
2.8 文件类型管理
为了解决客户对爬取具体的资源文件类型及订阅具体资源文件类型的需求,提高爬虫性能,添加文件类型管理模块,文件类型管理面向管理员用户,管理员可以设定文件类型,该文件类型提供爬虫系统需要处理文件类型。主要功能:
● 添加文件类型
● 修改文件类型
● 删除文件类型
● 查看文件类型
● 修改文件类型排列顺序
文件类型显示信息:
● 文件类型名称(视频、文档、演示文档、压缩文件、电子表格、其它)
● 文件扩展名(doc 、txt 、pdf 、xls …)
2.9 资源查询及详细内容页面
为了区分资源是链接和还是具体资源文件,系统提供资源的原始地址及下载。
2.9.1 资源查询列表
资源查询面向所有用户,用户通过关键字、资源类别及文件类型查找需要资源。主要功能:
● 查询资源
● 下载资源
● 查看资源原始地址
列表显示内容:
● 资源名称
● 资源类别
● 文件类型
● 文件大小
● 获取时间
● 资源来源
● 资源备注
● 下载
● 资源原始地址
2.9.2 资源详细内容
查看具体资源信息,显示资源相关资源,同时提供下载地址及查看原始页面地址。具体功能:
● 查询资源
● 下载资源
● 查看资源原始地址
资源具体显示内容:
● 资源名称
● 资源类别
● 文件类型
● 文件大小
● 获取时间
● 资源来源
● 资源备注
● 下载
● 资源原始地址
2.10 资源订阅管理
一条订阅可以匹配对多个关键字订阅及多个文件类型,解决多次添加订阅信息问题,订阅信息的具体内容包括:
● 资源类型
● 关键字(可以填写多个关键字,使用“, ”连接) ● 文件类型(可以选择多个文件类型)
信息订阅管理主要包括以下功能点:
● 新增订阅
● 订阅查看
● 修改订阅
● 删除订阅
● 订阅失效
● 订阅生效