本站联系方式
   联系QQ  :1095080675
   联系QQ  :1223950575
  技术指导:1353934434
  
  电子邮箱:1095080675@qq.com
标题  基于.NET3.5的网络信息采集系统的开发
编号  12167
编程语言  ASP.NET, C#
开发环境  Visual Studio 2005 或 2008
数据库  SQL Server 2000及以上版本
资料明细  论文、程序
推荐指数  ★★★★★
内容介绍

l 基本原理
从一个初始的URL集出发,将这些URL全部放入到一个 URLS数据表里。而采集器从这个URLS数据表里按顺序取出 URL,获取URL所指向的页面,然后从这些已获取的页面中 提取出新的URL,并将它们继续放入到URLS数据表里,然 后重复上面的过程,直到URLS数据表里没有可用的URL。 将采集到的页面数据和相关处理结果存储、索引并在此基础 上对内容进行语义分析。
2 Ajax技术简介
Ajax(Asynchronous JavaScript And XML,异步JavaScript和XML)是一个前台工具,是新兴的网络开发技术的象征。 它由JavaScript脚本语言、CSS样式表、XMLHttpRequest数据交换对象、DOM文档对象操作等技术组成。主要可以实现以 下功能:
①局部刷新:当页面上的某一个标签内容需要刷新 时,为了不引起整个页面的回发,通常使用Ajax技术,只刷 新需要改变的数据,这样就避免了回发整个页面所带来的时 间的性能问题。
②获取其他网页的内容:当本面的内容基于 其他网站时(如天气预报),通常常使用“Ajax+正则表达 示”的方法,从外网载取自己需要的内容,填充在网页内。
3 集系统设计
系统运行平台采用ASP.NET 3.5,数据库采用SQL Server 2005,服务器采用IIS,开发语言采用咪进行编程实现, 使用Visual Studio 2008作为开发环境。
3.1总体设计
本系统是基于B/S架构实现的,服务器端为用户提供数 据信息采集定制功能以及数据的异步传输服务,客户端可以 使用信息采集定制功能定制自己关心的数据,并设定数据采 集的时间;当时间到达时,采集器开始从网络采集数据,利 用Ajax实现数据采集过程的提示,并保存于本地XML中,同 时在适当的时候将它异步传输到服务器端,服务器端在处理 完成后保存在本地数据库中。
3.2定制信息采集规则
信息采集规则的定制主要有两方面内容。
(1)设定信息采集的网页
因为做采集时需要遍历很多网页,需要给定“列表开始地址”,以及“列表的下一页”。有这两个条件,程序就可以 自动遍历所有关心的网页了。在网页中寻找“下一页”链接所在的位置,例如:”后一 页</a>”,其中【value】中的值就是下页的地址。首先从URLS数据表中取出一条网址记录,检测当前网址链接的有 效性。如果有效,则将当前网址对应的HTML页面保存到本地磁盘,然后将该HTML页面上的所有超链摘取出来,将此 超链集合以追加的形式加人到URLS数据表的尾部,并以广度优先搜索算法遍历URLS数据表。URLS数据表的作用在于 存储从HTML页面上摘取的超链集合,搜集器就是通过该数据库取出网址,然后根据该网址去下载所指定的下一个 HTML页面,并将下载下来的页面保存到本地磁盘。在URLS数据表中,URL字段设为主键,这样可以防止重复链接的出 现。在数据表中将检测过的URL,无论是否有效,都将checked字段置为0,将刚从HTML页面摘取出来的URL所 对应的checked字段置为l,这样,在程序重启的时候,都能在中断的那条记录继续往下走,保证了运行效率。

说明
 以上是论文部分内容。如果对以上内容感兴趣,可以QQ:1095080675或邮件1095080675@qq.com继续联系我们。
相关文章
  •  报名管理信息系统
  •  交通信息网上查询系统的设计与实现
  •  基于.NET的房屋销售信息管理系统的设计与实现
  •  企业信息管理系统的设计与实现
  •  信息安全研究所设备管理系统的设计与实现
  • 文章导航
  • 上一篇:协同设计系统的开发(论文+程序)
  • 下一篇:基于ASP.NET3.5和AJAX在线考试系统的设计与实现