本系统的特点是建立分布式的垃圾邮件过滤和分析系统。前端的邮件过滤系统采用网络层拦截技术,也就是在邮件服务器之前建立邮件过滤网关,全部邮件必须通过网关过滤。同时,通过设置网络层的屏蔽规则拦截对邮件服务器的有害访问和攻击。并建立垃圾邮件的海量信息处理平台,处理中心中采用最新的Internet网络技术-网格计算技术来从庞大的垃圾邮件的信息中进行数据挖掘和分析判断,从而产生相应的过滤规则并实时发布到网络中所有的垃圾过滤系统中,来使整个网络协同阻止接收垃圾邮件。
产品的创新点包括:
(1)先进的启发式过滤技术(原理创新)。传统的过滤技术主要是根据邮件的来源和内容进行过滤。通过数字签名等技术对邮件的来源和内容提取特征,从而生成垃圾邮件的内容和来源的特征库,由此可以根据特征库来对后续的垃圾邮件进行过滤。在我们的产品中,采用了指纹算法等模糊模式识别技术以及Bayes(贝叶斯算法)、KNN(K近邻法)、SVM(支持向量机算法)等机器学习技术,并通过对这些算法原理的改造和提升,使之适用于垃圾邮件处理系统,使得具有类似特征的垃圾邮件也能被及时地过滤和处理。
(2)分布式可伸缩的系统结构(结构创新)。该技术主要通过分布在网络中各个的垃圾邮件过滤器协同工作,各个垃圾邮件过滤器采用了分布式的垃圾邮件特征数据库,任何一个垃圾邮件过滤器发现的垃圾邮件特征可以实时分发给网络中所有的垃圾邮件过滤器,实现全网一致的垃圾邮件过滤的效果。
(3)基于网格的海量信息处理和分析(应用创新)。在分布式系统设置垃圾邮件处理中心,采用新一代的Internet的网络技术-网格计算,来对海量垃圾邮件进行数据挖掘和分析处理。通过海量信息分析、分类、快速存储与再挖掘技术,更深层次地挖掘出垃圾邮件内部以及之间的关联信息,使得过滤系统可依赖的特征得到极大的增强。处理和分析中心产生的新的特征值还可以实时地发布到网络中的各个特征数据库中,提高对垃圾邮件的处理能力,增强垃圾邮件处理的时效性及能力。
(4)基于人工智能文本分类的过滤方法。由于文本信息的变化具有速度快和成本低廉等优势,所以文本过滤方法仍然是现代过滤技术的重要一环,只是本产品对文本过滤技术创新地使用了多项基于人工智能的过滤方法,其原理在于高性能计算分析出特定垃圾的用词规律特点然后进行分类,再利用统计方法对邮件的文本特征进行计算,如果特征值大于一定的经验值则可以判断该邮件为垃圾邮件类,再辅以其他特征即可判断过滤即使一封垃圾邮件。这对那些用词汇比较有规律的垃圾和反动邮件特别有效。
(5)图像视频过滤方法。对邮件中的广告、不良内容和色情图像等进行过滤是本产品将先进技术应用于邮件处理的另外一个成功地例子。现在可以处理的格式包括gif,jpg,bmp等不同图像格式。其原理是对邮件中的图像的内容和行为进行分析,从而形成特征数据库,然后对邮件中的图像进行特征提取并利用模式识别和模糊匹配技术与数据库中的图像特征进行匹配和甄别。随着技术的不断发展和更新。功能扩展:在实现对图像过滤的基础上,可以考虑将功能扩展为对视频的过滤。
|