[go: up one dir, main page]

CN107786604B - 一种确定内容服务器的方法及装置 - Google Patents

一种确定内容服务器的方法及装置 Download PDF

Info

Publication number
CN107786604B
CN107786604B CN201610767748.3A CN201610767748A CN107786604B CN 107786604 B CN107786604 B CN 107786604B CN 201610767748 A CN201610767748 A CN 201610767748A CN 107786604 B CN107786604 B CN 107786604B
Authority
CN
China
Prior art keywords
urls
url
target
condition
sorting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610767748.3A
Other languages
English (en)
Other versions
CN107786604A (zh
Inventor
槐昱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Henan Kunlun Technology Co ltd
XFusion Digital Technologies Co Ltd
Original Assignee
Huawei Digital Technologies Suzhou Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Digital Technologies Suzhou Co Ltd filed Critical Huawei Digital Technologies Suzhou Co Ltd
Priority to CN201610767748.3A priority Critical patent/CN107786604B/zh
Publication of CN107786604A publication Critical patent/CN107786604A/zh
Application granted granted Critical
Publication of CN107786604B publication Critical patent/CN107786604B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • H04L67/1004Server selection for load balancing
    • H04L67/101Server selection for load balancing based on network conditions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • H04L67/1004Server selection for load balancing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • H04L67/1004Server selection for load balancing
    • H04L67/1008Server selection for load balancing based on parameters of servers, e.g. available memory or workload
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/60Scheduling or organising the servicing of application requests, e.g. requests for application data transmissions using the analysis and optimisation of the required network resources

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明实施例公开了一种确定内容服务器的方法及装置,涉及网站检测技术领域,用以提高确定内容服务器的效率。该方法包括:网关设备获取预设时间段内的网站访问记录,网站访问记录包括预设时间段内被访问的N个URL和与N个URL对应的访问次数;网关设备根据网站访问记录在N个URL中确定M个目标URL,M个目标URL为N个URL中为内容服务器的概率最大的M个URL;网关设备访问M个目标URL中的每个URL对应的Host,并接收运行M个目标URL的M个Host的多个目标服务器返回的M个参数,一个参数包括HTTP返回值以及返回数据字节数;网关设备根据M个参数确定M个目标URL中的内容服务器。

Description

一种确定内容服务器的方法及装置
技术领域
本发明涉及网站检测技术领域,尤其涉及一种确定内容服务器的方法及装置。
背景技术
内容服务器是一类网站,该类网站用于为其他网站提供服务,例如为其他网站存储图片、分析浏览者信息、进行流量评级和内容过滤等,该类网站一般不直接对用户显示。
用户在终端设备的浏览器里输入一个网址并搜索后,浏览器除了会访问该网址对应的网站还会伴随访问多个网站(该多个网站中有很多属于内容服务器类网站),该多个网站用于为用户直接访问的网站提供广告内容、统计访问信息或提供图片等,浏览器伴随访问的多个网站用户是无法感知的。
由于内容服务器一般不是恶意网站,在进行网站安全检测时,若可以过滤掉内容服务器,则可以提升网站安全检测的效率。
目前,确定网站是否为内容服务器的方法具体为:用户通过终端设备的浏览器访问某个网站时,浏览器向网关设备发起访问该网站的请求,网关设备获取该请求,根据该请求确定出该网站的统一资源定位符(Uniform Resource Locator,简称URL),记录该URL,将该请求向目标服务器(运行该网站的服务器)转发,目标服务器在接收到该请求后,对该请求进行响应,并向网关设备返回响应消息,网关设备根据响应消息中包含的数据判断该URL是否为内容服务器。例如,当响应消息中包含的数据为一段话、空白内容或1×1的图片时,确定该URL为内容服务器。
上述确定内容服务器的方法效率不高。
发明内容
本发明的实施例提供了一种确定内容服务器的方法及装置,用以提高确定内容服务器的效率。
为达到上述目的,本发明的实施例采用如下技术方案:
第一方面,提供了一种确定内容服务器的方法,包括:网关设备获取预设时间段内的网站访问记录,网站访问记录包括预设时间段内被访问的N个统一资源定位符URL和与N个URL对应的访问次数,N为大于0的整数;网关设备根据网站访问记录在N个URL中确定M个目标URL,M个目标URL为N个URL中为内容服务器的概率最大的M个URL,M为大于0小于等于N的整数;网关设备访问M个目标URL中的每个URL对应的主机Host,并接收运行M个目标URL的M个Host的多个目标服务器返回的M个参数,一个参数包括超文本传输协议HTTP返回值以及返回数据字节数;网关设备根据M个参数确定M个目标URL中的内容服务器。
第一方面提供的方法,通过采用网站的访问记录排除多个网站的URL中的为内容服务器的概率较小的URL,使得网关设备需要确定是否为内容服务器的URL的个数大大减少,从而提高了网关设备确定内容服务器的效率。在进行网站安全检测时,由于排除掉的URL为内容服务器的概率较小,即使其中包含内容服务器,个数也是很少的,不会对网站安全检测的效率有太大的影响。
结合第一方面,在第一种可能的实现方式中,网关设备根据网站访问记录在N个URL中确定M个目标URL,包括:网关设备将N个URL中的满足条件1和/或条件2的URL确定为目标URL,条件1为:URL对应的一级域名在第一排序结果中处于前X%,第一排序结果为按照访问次数由大至小的顺序对N个URL对应的一级域名进行排序后得到的结果,或者,URL对应的Host在第二排序结果中处于前Y%,第二排序结果为按照访问次数由大至小的顺序对N个URL对应的Host进行排序后得到的结果;条件2为:URL对应的Host没有被单独访问,X、Y均为大于0小于100的整数。
结合第一方面,在第二种可能的实现方式中,网站访问记录还包括预设时间段内访问N个URL的终端设备的标识,网关设备根据网站访问记录在N个URL中确定M个目标URL,包括:网关设备将N个URL中的满足条件1、条件2和条件3中的一个或多个条件的URL确定为目标URL,条件1为:URL对应的一级域名在第一排序结果中处于前X%,第一排序结果为按照访问次数由大至小的顺序对N个URL对应的一级域名进行排序后得到的结果,或者,URL对应的Host在第二排序结果中处于前Y%,第二排序结果为按照访问次数由大至小的顺序对N个URL对应的Host进行排序后得到的结果;条件2为:URL对应的Host没有被单独访问;条件3为:访问URL的终端设备的标识的个数大于或等于第一预设阈值,X、Y均为大于0小于100的整数。
在上述两种可能的实现方式中,满足预设条件(预设条件为条件1、条件2或条件3中的一个或多个条件)的URL比不满足预设条件的URL为内容服务器的概率大。
结合第一方面、第一方面的第一种可能的实现方式或第二种可能的实现方式,在第三种可能的实现方式中,网关设备根据M个参数确定M个目标URL中的内容服务器,包括:当一个目标URL对应的参数中的HTTP返回值为非200,或者,一个目标URL对应的参数中的HTTP返回值为200、且返回数据字节数小于或等于第二预设阈值时,网关设备确定该目标URL为内容服务器。
第二方面,提供了一种网关设备,包括:获取单元,用于获取预设时间段内的网站访问记录,网站访问记录包括预设时间段内被访问的N个统一资源定位符URL和与N个URL对应的访问次数,N为大于0的整数;第一确定单元,用于根据网站访问记录在N个URL中确定M个目标URL,M个目标URL为N个URL中为内容服务器的概率最大的M个URL,M为大于0小于等于N的整数;收发单元,用于访问M个目标URL中的每个URL对应的主机Host,并接收运行M个目标URL的M个Host的多个目标服务器返回的M个参数,一个参数包括超文本传输协议HTTP返回值以及返回数据字节数;第二确定单元,用于根据M个参数确定M个目标URL中的内容服务器。
第二方面提供的网关设备中的各个单元用于执行第一方面提供的方法,因此,该网关设备的有益效果可以参见第一方面提供的方法的有益效果,在此不再赘述。
结合第二方面,在第一种可能的实现方式中,第一确定单元具体用于:将N个URL中的满足条件1和/或条件2的URL确定为目标URL,条件1为:URL对应的一级域名在第一排序结果中处于前X%,第一排序结果为按照访问次数由大至小的顺序对N个URL对应的一级域名进行排序后得到的结果,或者,URL对应的Host在第二排序结果中处于前Y%,第二排序结果为按照访问次数由大至小的顺序对N个URL对应的Host进行排序后得到的结果;条件2为:URL对应的Host没有被单独访问,X、Y均为大于0小于100的整数。
结合第二方面,在第二种可能的实现方式中,网站访问记录还包括预设时间段内访问N个URL的终端设备的标识,第一确定单元具体用于:将N个URL中的满足条件1、条件2和条件3中的一个或多个条件的URL确定为目标URL,条件1为:URL对应的一级域名在第一排序结果中处于前X%,第一排序结果为按照访问次数由大至小的顺序对N个URL对应的一级域名进行排序后得到的结果,或者,URL对应的Host在第二排序结果中处于前Y%,第二排序结果为按照访问次数由大至小的顺序对N个URL对应的Host进行排序后得到的结果;条件2为:URL对应的Host没有被单独访问;条件3为:访问URL的终端设备的标识的个数大于或等于第一预设阈值,X、Y均为大于0小于100的整数。
在上述两种可能的实现方式中,满足预设条件(预设条件为条件1、条件2或条件3中的一个或多个条件)的URL比不满足预设条件的URL为内容服务器的概率大。
结合第二方面、第二方面的第一种可能的实现方式或第二种可能的实现方式,在第三种可能的实现方式中,第二确定单元具体用于:当一个目标URL对应的参数中的HTTP返回值为非200,或者,一个目标URL对应的参数中的HTTP返回值为200、且返回数据字节数小于或等于第二预设阈值时,确定该目标URL为内容服务器。
第三方面,提供了一种网关设备,包括:存储器、处理器和收发器,存储器用于存储代码,处理器用于根据该代码执行以下动作:获取预设时间段内的网站访问记录,网站访问记录包括预设时间段内被访问的N个统一资源定位符URL和与N个URL对应的访问次数,N为大于0的整数;根据网站访问记录在N个URL中确定M个目标URL,M个目标URL为N个URL中为内容服务器的概率最大的M个URL,M为大于0小于等于N的整数;收发器,用于访问M个目标URL中的每个URL对应的主机Host,并接收运行M个目标URL的M个Host的多个目标服务器返回的M个参数,一个参数包括超文本传输协议HTTP返回值以及返回数据字节数;处理器,还用于根据M个参数确定M个目标URL中的内容服务器。
第三方面提供的网关设备中的各个器件用于执行第一方面提供的方法,因此,该网关设备的有益效果可以参见第一方面提供的方法的有益效果,在此不再赘述。
结合第三方面,在第一种可能的实现方式中,处理器具体用于:将N个URL中的满足条件1和/或条件2的URL确定为目标URL,条件1为:URL对应的一级域名在第一排序结果中处于前X%,第一排序结果为按照访问次数由大至小的顺序对N个URL对应的一级域名进行排序后得到的结果,或者,URL对应的Host在第二排序结果中处于前Y%,第二排序结果为按照访问次数由大至小的顺序对N个URL对应的Host进行排序后得到的结果;条件2为:URL对应的Host没有被单独访问,X、Y均为大于0小于100的整数。
结合第三方面,在第二种可能的实现方式中,网站访问记录还包括预设时间段内访问N个URL的终端设备的标识,处理器具体用于:将N个URL中的满足条件1、条件2和条件3中的一个或多个条件的URL确定为目标URL,条件1为:URL对应的一级域名在第一排序结果中处于前X%,第一排序结果为按照访问次数由大至小的顺序对N个URL对应的一级域名进行排序后得到的结果,或者,URL对应的Host在第二排序结果中处于前Y%,第二排序结果为按照访问次数由大至小的顺序对N个URL对应的Host进行排序后得到的结果;条件2为:URL对应的Host没有被单独访问;条件3为:访问URL的终端设备的标识的个数大于或等于第一预设阈值,X、Y均为大于0小于100的整数。
在上述两种可能的实现方式中,满足预设条件(预设条件为条件1、条件2或条件3中的一个或多个条件)的URL比不满足预设条件的URL为内容服务器的概率大。
结合第三方面、第三方面的第一种可能的实现方式或第二种可能的实现方式,在第三种可能的实现方式中,处理器具体用于:当一个目标URL对应的参数中的HTTP返回值为非200,或者,一个目标URL对应的参数中的HTTP返回值为200、且返回数据字节数小于或等于第二预设阈值时,确定该目标URL为内容服务器。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种网络系统的组成示意图;
图2为本发明实施例提供的一种网关设备的组成示意图;
图3为本发明实施例提供的一种确定内容服务器的方法的流程图;
图4为本发明实施例提供的又一种确定内容服务器的方法的流程图;
图5为本发明实施例提供的一种网关设备的组成示意图;
图6为本发明实施例提供的又一种网关设备的组成示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。本文中的“多个”是指两个或者两个以上。
本发明实施例提供了一种用于实现本发明实施例提供的方法的网络系统,如图1所示,包括:一个或多个终端设备、与一个或多个终端设备连接的网关设备以及与网关设备连接的一个或多个目标服务器。其中,用户可以通过终端设备访问网站,终端设备可以为计算机、手机或平板电脑等,网关设备部署在终端设备网络的出口处,用于对终端设备和目标服务器之间通信的报文进行处理(例如,报文过滤或报文检测)和/或转发,网关设备具体可以为路由器或防火墙等,一个目标服务器上可以运行一个或多个网站。需要说明的是,为了使得描述更加的清楚,在本发明实施例的描述中,内容服务器是指一类网站,该类网站用于为其他网站提供服务,目标服务器是指运行网站的硬件载体。
执行本发明实施例提供的方法的设备可以为网关设备,网关设备的硬件架构组成可以参见图2,包括:网络接口、与网络接口连接的存储器以及与存储器连接的中央处理器(Central Processing Unit,简称CPU)等。
网络接口具体可以分为输入接口和输出接口,输入接口用于向网关设备输入网络数据,输出接口用于从网关设备输出网络数据;
CPU由运算器和控制器组成,运算器主要用于对网络数据进行加工处理,控制器用于分析指令,并根据指令的要求有序、有目的地向系统的各个部件发出控制信号,使整个系统协调一致地工作。存储器能够保存网络数据,还可以根据命令读取已保存的网络数据。CPU具体可以为ARM(Advanced RISC Machines)、MIPS(Microprocessor withoutInterlocked Pipeline Stages)、X86处理器等。
本发明实施例提供了一种确定内容服务器的方法,如图3所示,包括:
301、网关设备获取预设时间段内的网站访问记录,网站访问记录包括预设时间段内被访问的N个URL和与N个URL对应的访问次数,N为大于0的整数。
预设时间段的长度可以根据实际的应用场景或需求进行设置,例如,预设时间段可以为5分钟或10分钟,本发明实施例对预设时间段的长度不作具体限定。
具体的,在网站访问记录中,一个URL代表一个网站,一个URL对应一个该URL的访问次数。网关设备可以将预设时间段内被访问的全部URL进行记录,再对每个URL的访问次数进行统计得到网站访问记录。示例性的,网站访问记录可以如表1所示,其中,URL1的访问次数为3,URL2的访问次数为9,URL3的访问次数为7。
表1
URL 访问次数
URL1 3
URL2 9
URL3 7
为了使得网关设备获取URL的方式更加的清楚,首先对用户访问网站的过程做简单说明。用户通过终端设备访问一个网站时,终端设备会向网关设备发送访问该网站的请求,网关设备根据该网关设备提供的功能对该请求进行处理后向运行该网站的目标服务器发送,该目标服务器对该请求进行响应后将响应消息向网关设备返回,网关设备根据提供的功能对响应消息中包含的数据进行检测后将数据向终端设备返回。
网关设备可以根据接收到的终端设备访问网站的请求获取网站的URL。具体的,网关设备接收到的访问网站的请求可以为HTTP报文,访问该网站的请求的报文头中包括Host(主机)字段和Path(路径)字段,将Host字段和Path字段中的内容顺序连接即可得到该网站的URL。例如,若Host字段中的内容为s3.tbcdn.com,Path字段中的内容为get/img/3.js,则该网站的URL为s3.tbcdn.com/get/img/3.js。本发明实施例中提供的方法由于可以基于实际的访问网站的请求确定内容服务器,因此,可以适应不断变化或新增的内容服务器。
302、网关设备根据网站访问记录在N个URL中确定M个目标URL,M个目标URL为N个URL中为内容服务器的概率最大的M个URL,M为大于0小于等于N的整数。
可选的,步骤302在具体实现时可以包括:将N个URL中的满足条件1和/或条件2的URL确定为目标URL。
可选的,网站访问记录还包括预设时间段内访问N个URL的终端设备的标识,该情况下,步骤302在具体实现时可以包括:将N个URL中的满足条件1、条件2和条件3中的一个或多个条件的URL确定为目标URL。其中,终端设备的标识用于唯一标识该终端设备,具体可以为终端设备的网络互连协议(Internet Protocol,简称IP)地址或介质访问控制(MediaAccess Control,简称MAC)地址等。网关设备可以根据网关设备与访问一个网站的终端设备建立连接的过程获取访问该网站的终端设备的标识。具体的,在预设时间段内,访问一个URL的不同终端设备有多少个,网站访问记录中包括的访问该URL的终端设备的标识就有多少个。
上述两种可选的方法中,条件1为:URL对应的一级域名在第一排序结果中处于前X%,第一排序结果为按照访问次数由大至小的顺序对N个URL对应的一级域名进行排序后得到的结果,或者,URL对应的Host在第二排序结果中处于前Y%,第二排序结果为按照访问次数由大至小的顺序对N个URL对应的Host进行排序后得到的结果;条件2为:URL对应的Host没有被单独访问;条件3为:访问URL的终端设备的标识的个数大于或等于第一预设阈值,X、Y均为大于0小于100的整数。
X的值可以根据实际应用场景进行确定,例如,当N的值很大时,X的值可以设置的较大,当N的值比较小时,X的值可以设置的较小,示例性的,X可以为80或50。Y的值的确定同理。第一预设阈值可以根据实际的应用场景确定,本发明实施例对此不做具体限定,例如,当确定一个企业中的终端设备访问的网站中的内容服务器时,第一预设阈值可以设置为该企业中的终端设备的总个数的10%或20%。
其中,URL包括Host和Path,比如URL为s3.tbcdn.com/get/img/3.js时,该URL的Host为:s3.tbcdn.com,Path为:get/img/3.js,在该示例中,URL对应的一级域名为:tbcdn.com。当一个URL仅仅包括Host时,该URL对应的Host即该URL。
具体的,由于内容服务器的访问次数比一般网站(即非内容服务器)的访问次数高,因此,当URL的一级域名或Host的访问次数越大时,该URL为内容服务器的概率越大;由于大部分人都会访问常用网站(比如,百度或淘宝)的URL的Host,并且常用网站不是内容服务器,则若一个URL的Host没有被单独访问,则该URL为内容服务器的概率较大;由于内容服务器为伴随访问的网站而不是用户直接访问的网站,当不同的用户访问不同的网站时可能伴随访问同一个内容服务器,因此,当访问URL的终端设备的标识的个数越多时,该URL为内容服务器的概率越大。
以下通过具体的示例对步骤302作示例性说明,在该示例中,条件1为:URL对应的一级域名在第一排序结果中处于前X%。若N=10,10个URL分别为:s3.tbcdn.com/get/img/3.js、da.so.com/q/136614、s3.tbcdn.com、china.baidu.com/question/64、wenwen.sogou.com/ques、mingyi.sogou.com/mingyiquery、pic.tbcdn.com/p=&w=06050、china.baidu.com、s3.tbcdn.com/pestion/64、wenwen.sogou.com/?query,10个URL的一级域名分别为:tbcdn.com、so.com、tbcdn.com、baidu.com、sogou.com、sogou.com、tbcdn.com、baidu.com、tbcdn.com、sogou.com。则10个URL对应的一级域名被访问的次数如表2所示。
表2
一级域名 访问次数
tbcdn.com 4
so.com 1
baidu.com 2
sogou.com 3
则按照访问次数由大至小的顺序对N个URL对应的一级域名进行排序后得到的结果为:tbcdn.com、sogou.com、baidu.com、so.com,当X=50时,则在排序结果中处于前50%的一级域名为tbcdn.com和sogou.com。
在基于表2所述的示例中,URL对应的Host没有被单独访问的URL包括:da.so.com/q/136614、wenwen.sogou.com/ques、mingyi.sogou.com/mingyiquery、pic.tbcdn.com/p=&w=06050和wenwen.sogou.com/?query。
在该示例中,步骤302在具体实现时,若将10个URL中的满足条件1和条件2的URL确定为目标URL,则目标URL为:
wenwen.sogou.com/?query、mingyi.sogou.com/mingyiquery、wenwen.sogou.com/ques和pic.tbcdn.com/p=&w=06050。
303、网关设备访问M个目标URL中的每个URL对应的Host,并接收运行M个目标URL的M个Host的多个目标服务器返回的M个参数,一个参数包括超文本传输协议(HyperTextTransfer Protocol,简称HTTP)返回值以及返回数据字节数。
具体的,网关设备可以根据运行目标URL的目标服务器返回的响应消息获取该目标URL对应的参数。网关设备接收到的目标服务器返回的响应消息可以为HTTP报文,响应消息中包括HTTP返回值和返回的数据,在响应消息中会包含用于指示返回的数据的字节数的字段,网关设备可以根据该字段获取返回数据字节数。
具体的,当HTTP返回值为200时,表示目标服务器成功返回了网关设备请求的数据,响应消息中包含的数据即网关设备请求的数据。当HTTP返回值不是200时,表示目标服务器未成功返回网关设备请求的数据。
304、网关设备根据M个参数确定M个目标URL中的内容服务器。
步骤304在具体实现时可以为:当一个目标URL对应的参数中的HTTP返回值为非200,或者,一个目标URL对应的参数中的HTTP返回值为200、且返回数据字节数小于或等于第二预设阈值时,确定该目标URL为内容服务器。
其中,第二预设阈值可以为经验值,一般不大于100,具体可以根据实际经验设置为几或几十。
本发明实施例还提供了一种确定内容服务器的方法,用于对基于图3所述的方法进行示例性说明,在该示例中,目标URL满足条件1、条件2和条件3,条件1为:URL对应的一级域名在第一排序结果中处于前X%,该示例中的与上述实施例相关的内容的解释可以参见上文,如图4所示,该方法包括:
401、网关设备获取预设时间段内的网站访问记录。
其中,网站访问记录包括预设时间段内被访问的N个URL、与N个URL对应的访问次数以及预设时间段内访问N个URL的终端设备的标识。
402、网关设备按照访问次数由大至小的顺序对N个URL对应的一级域名进行排序,得到第一排序结果。
403、网关设备确定N个URL中的每个URL对应的一级域名在第一排序结果中是否处于前X%。
若是,执行步骤404,若否,执行步骤409。
404、网关设备确定该URL对应的Host是否没有被单独访问。
若是,执行步骤405,若否,执行步骤409。
405、网关设备确定访问该URL的终端设备的不同标识的个数是否大于或等于第一预设阈值。
若是,执行步骤406,若否,执行步骤409。
406、网关设备访问该URL对应的Host,并接收运行该Host的目标服务器返回的参数。
其中,该参数包括HTTP返回值以及返回数据字节数。
407、网关设备确定HTTP返回值是否为非200,或者,确定HTTP返回值为200且返回数据字节数是否小于或等于第二预设阈值。
若是,执行步骤408,若否,执行步骤409。
408、确定该URL为内容服务器。
409、确定该URL不是内容服务器。
根据基于图4所述的实施例的描述可知,通过在网关设备中部署用于实现图4所示的方法的程序可以在网关设备上在线检测URL是否为内容服务器。
本发明实施例提供的方法,通过采用网站的访问记录排除多个网站的URL中的为内容服务器的概率较小的URL,使得网关设备需要确定是否为内容服务器的URL的个数大大减少,从而提高了网关设备确定内容服务器的效率。在进行网站安全检测时,由于排除掉的URL为内容服务器的概率较小,即使其中包含内容服务器,个数也是很少的,不会对网站安全检测的效率有太大的影响。
本发明实施例还提供了一种网关设备50,如图5所示,包括:
获取单元501,用于获取预设时间段内的网站访问记录,所述网站访问记录包括所述预设时间段内被访问的N个统一资源定位符URL和与所述N个URL对应的访问次数,N为大于0的整数;
第一确定单元502,用于根据所述网站访问记录在所述N个URL中确定M个目标URL,所述M个目标URL为所述N个URL中为内容服务器的概率最大的M个URL,M为大于0小于等于N的整数;
收发单元503,用于访问所述M个目标URL中的每个URL对应的主机Host,并接收运行所述M个目标URL的M个Host的多个目标服务器返回的M个参数,一个参数包括超文本传输协议HTTP返回值以及返回数据字节数;
第二确定单元504,用于根据所述M个参数确定所述M个目标URL中的内容服务器。
可选的,所述第一确定单元502具体用于:将所述N个URL中的满足条件1和/或条件2的URL确定为目标URL,条件1为:URL对应的一级域名在第一排序结果中处于前X%,所述第一排序结果为按照访问次数由大至小的顺序对所述N个URL对应的一级域名进行排序后得到的结果,或者,URL对应的Host在第二排序结果中处于前Y%,所述第二排序结果为按照访问次数由大至小的顺序对所述N个URL对应的Host进行排序后得到的结果;条件2为:URL对应的Host没有被单独访问,X、Y均为大于0小于100的整数。
可选的,所述网站访问记录还包括所述预设时间段内访问所述N个URL的终端设备的标识,所述第一确定单元502具体用于:将所述N个URL中的满足条件1、条件2和条件3中的一个或多个条件的URL确定为目标URL,条件1为:URL对应的一级域名在第一排序结果中处于前X%,所述第一排序结果为按照访问次数由大至小的顺序对所述N个URL对应的一级域名进行排序后得到的结果,或者,URL对应的Host在第二排序结果中处于前Y%,所述第二排序结果为按照访问次数由大至小的顺序对所述N个URL对应的Host进行排序后得到的结果;条件2为:URL对应的Host没有被单独访问;条件3为:访问URL的终端设备的标识的个数大于或等于第一预设阈值,X、Y均为大于0小于100的整数。
可选的,所述第二确定单元504具体用于:当一个目标URL对应的参数中的HTTP返回值为非200,或者,一个目标URL对应的参数中的HTTP返回值为200、且返回数据字节数小于或等于第二预设阈值时,确定该目标URL为内容服务器。
本发明实施例提供的网关设备50中的各个单元用于执行上述方法,因此,网关设备50的有益效果可以参见上述方法的有益效果,在此不再赘述。
本发明实施例还提供了一种网关设备60,如图6所示,包括:存储器601、处理器602、收发器603和总线系统604,存储器601用于存储代码,处理器602用于根据该代码执行如图3所示的方法中的步骤301-302和步骤304,收发器603用于执行如图3所示的方法中的步骤303,处理器602还用于执行如图4所示的方法中的步骤401-405和步骤407-409,收发器603还用于执行如图4所示的方法中的步骤406。
其中,存储器601、处理器602和收发器603之间是通过总线系统604耦合在一起的,其中存储器601可能包含随机存取存储器,也可能还包括非易失性存储器,例如至少一个磁盘存储器。总线系统604可以是工业标准体系结构(Industry Standard Architecture,简称ISA)总线、外部设备互连(Peripheral Component,简称PCI)总线或扩展工业标准体系结构(Extended Industry Standard Architecture,简称EISA)总线等。该总线系统604可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
其中,图5中的收发单元503可以为收发器603,其余单元可以为处理器602,其余单元可以以硬件形式内嵌于或独立于网关设备的处理器中,也可以以软件形式存储于网关设备的存储器中,以便于处理器调用执行以上各个单元对应的操作,该处理器可以为CPU、特定集成电路(Application Specific Integrated Circuit,简称ASIC)或者是被配置成实施本发明实施例的一个或多个集成电路。
本发明实施例提供的网关设备60中的各个器件用于执行上述方法,因此,该网关设备的有益效果可以参见上述方法的有益效果,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
上述以软件功能模块的形式实现的集成的模块,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims (12)

1.一种确定内容服务器的方法,其特征在于,包括:
网关设备获取预设时间段内的网站访问记录,所述网站访问记录包括所述预设时间段内被访问的N个统一资源定位符URL和与所述N个URL对应的访问次数,N为大于0的整数;
所述网关设备根据所述网站访问记录在所述N个URL中确定M个目标URL,所述M个目标URL为所述N个URL中为内容服务器的概率最大的M个URL,M为大于0小于等于N的整数;
所述网关设备访问所述M个目标URL中的每个URL对应的主机Host,并接收运行所述M个目标URL的M个Host的多个目标服务器返回的M个参数,一个参数包括超文本传输协议HTTP返回值以及返回数据字节数;
所述网关设备根据所述M个参数确定所述M个目标URL中的内容服务器。
2.根据权利要求1所述的方法,其特征在于,所述网关设备根据所述网站访问记录在所述N个URL中确定M个目标URL,包括:
所述网关设备将所述N个URL中的满足条件1和/或条件2的URL确定为目标URL,条件1为:URL对应的一级域名在第一排序结果中处于前X%,所述第一排序结果为按照访问次数由大至小的顺序对所述N个URL对应的一级域名进行排序后得到的结果,或者,URL对应的Host在第二排序结果中处于前Y%,所述第二排序结果为按照访问次数由大至小的顺序对所述N个URL对应的Host进行排序后得到的结果;条件2为:URL对应的Host没有被单独访问,X、Y均为大于0小于100的整数。
3.根据权利要求1所述的方法,其特征在于,所述网站访问记录还包括所述预设时间段内访问所述N个URL的终端设备的标识,所述网关设备根据所述网站访问记录在所述N个URL中确定M个目标URL,包括:
所述网关设备将所述N个URL中的满足条件1、条件2和条件3中的一个或多个条件的URL确定为目标URL,条件1为:URL对应的一级域名在第一排序结果中处于前X%,所述第一排序结果为按照访问次数由大至小的顺序对所述N个URL对应的一级域名进行排序后得到的结果,或者,URL对应的Host在第二排序结果中处于前Y%,所述第二排序结果为按照访问次数由大至小的顺序对所述N个URL对应的Host进行排序后得到的结果;条件2为:URL对应的Host没有被单独访问;条件3为:访问URL的终端设备的标识的个数大于或等于第一预设阈值,X、Y均为大于0小于100的整数。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述网关设备根据所述M个参数确定所述M个目标URL中的内容服务器,包括:
当一个目标URL对应的参数中的HTTP返回值为非200,或者,一个目标URL对应的参数中的HTTP返回值为200、且返回数据字节数小于或等于第二预设阈值时,所述网关设备确定该目标URL为内容服务器。
5.一种网关设备,其特征在于,包括:
获取单元,用于获取预设时间段内的网站访问记录,所述网站访问记录包括所述预设时间段内被访问的N个统一资源定位符URL和与所述N个URL对应的访问次数,N为大于0的整数;
第一确定单元,用于根据所述网站访问记录在所述N个URL中确定M个目标URL,所述M个目标URL为所述N个URL中为内容服务器的概率最大的M个URL,M为大于0小于等于N的整数;
收发单元,用于访问所述M个目标URL中的每个URL对应的主机Host,并接收运行所述M个目标URL的M个Host的多个目标服务器返回的M个参数,一个参数包括超文本传输协议HTTP返回值以及返回数据字节数;
第二确定单元,用于根据所述M个参数确定所述M个目标URL中的内容服务器。
6.根据权利要求5所述的网关设备,其特征在于,所述第一确定单元具体用于:
将所述N个URL中的满足条件1和/或条件2的URL确定为目标URL,条件1为:URL对应的一级域名在第一排序结果中处于前X%,所述第一排序结果为按照访问次数由大至小的顺序对所述N个URL对应的一级域名进行排序后得到的结果,或者,URL对应的Host在第二排序结果中处于前Y%,所述第二排序结果为按照访问次数由大至小的顺序对所述N个URL对应的Host进行排序后得到的结果;条件2为:URL对应的Host没有被单独访问,X、Y均为大于0小于100的整数。
7.根据权利要求5所述的网关设备,其特征在于,所述网站访问记录还包括所述预设时间段内访问所述N个URL的终端设备的标识,所述第一确定单元具体用于:
将所述N个URL中的满足条件1、条件2和条件3中的一个或多个条件的URL确定为目标URL,条件1为:URL对应的一级域名在第一排序结果中处于前X%,所述第一排序结果为按照访问次数由大至小的顺序对所述N个URL对应的一级域名进行排序后得到的结果,或者,URL对应的Host在第二排序结果中处于前Y%,所述第二排序结果为按照访问次数由大至小的顺序对所述N个URL对应的Host进行排序后得到的结果;条件2为:URL对应的Host没有被单独访问;条件3为:访问URL的终端设备的标识的个数大于或等于第一预设阈值,X、Y均为大于0小于100的整数。
8.根据权利要求5-7任一项所述的网关设备,其特征在于,所述第二确定单元具体用于:
当一个目标URL对应的参数中的HTTP返回值为非200,或者,一个目标URL对应的参数中的HTTP返回值为200、且返回数据字节数小于或等于第二预设阈值时,确定该目标URL为内容服务器。
9.一种网关设备,其特征在于,包括:存储器、处理器和收发器,所述存储器用于存储代码,所述处理器用于根据该代码执行以下动作:
获取预设时间段内的网站访问记录,所述网站访问记录包括所述预设时间段内被访问的N个统一资源定位符URL和与所述N个URL对应的访问次数,N为大于0的整数;
根据所述网站访问记录在所述N个URL中确定M个目标URL,所述M个目标URL为所述N个URL中为内容服务器的概率最大的M个URL,M为大于0小于等于N的整数;
所述收发器,用于访问所述M个目标URL中的每个URL对应的主机Host,并接收运行所述M个目标URL的M个Host的多个目标服务器返回的M个参数,一个参数包括超文本传输协议HTTP返回值以及返回数据字节数;
所述处理器,还用于根据所述M个参数确定所述M个目标URL中的内容服务器。
10.根据权利要求9所述的网关设备,其特征在于,所述处理器具体用于:
将所述N个URL中的满足条件1和/或条件2的URL确定为目标URL,条件1为:URL对应的一级域名在第一排序结果中处于前X%,所述第一排序结果为按照访问次数由大至小的顺序对所述N个URL对应的一级域名进行排序后得到的结果,或者,URL对应的Host在第二排序结果中处于前Y%,所述第二排序结果为按照访问次数由大至小的顺序对所述N个URL对应的Host进行排序后得到的结果;条件2为:URL对应的Host没有被单独访问,X、Y均为大于0小于100的整数。
11.根据权利要求9所述的网关设备,其特征在于,所述网站访问记录还包括所述预设时间段内访问所述N个URL的终端设备的标识,所述处理器具体用于:
将所述N个URL中的满足条件1、条件2和条件3中的一个或多个条件的URL确定为目标URL,条件1为:URL对应的一级域名在第一排序结果中处于前X%,所述第一排序结果为按照访问次数由大至小的顺序对所述N个URL对应的一级域名进行排序后得到的结果,或者,URL对应的Host在第二排序结果中处于前Y%,所述第二排序结果为按照访问次数由大至小的顺序对所述N个URL对应的Host进行排序后得到的结果;条件2为:URL对应的Host没有被单独访问;条件3为:访问URL的终端设备的标识的个数大于或等于第一预设阈值,X、Y均为大于0小于100的整数。
12.根据权利要求9-11任一项所述的网关设备,其特征在于,所述处理器具体用于:
当一个目标URL对应的参数中的HTTP返回值为非200,或者,一个目标URL对应的参数中的HTTP返回值为200、且返回数据字节数小于或等于第二预设阈值时,确定该目标URL为内容服务器。
CN201610767748.3A 2016-08-30 2016-08-30 一种确定内容服务器的方法及装置 Active CN107786604B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610767748.3A CN107786604B (zh) 2016-08-30 2016-08-30 一种确定内容服务器的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610767748.3A CN107786604B (zh) 2016-08-30 2016-08-30 一种确定内容服务器的方法及装置

Publications (2)

Publication Number Publication Date
CN107786604A CN107786604A (zh) 2018-03-09
CN107786604B true CN107786604B (zh) 2020-04-28

Family

ID=61440789

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610767748.3A Active CN107786604B (zh) 2016-08-30 2016-08-30 一种确定内容服务器的方法及装置

Country Status (1)

Country Link
CN (1) CN107786604B (zh)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6185619B1 (en) * 1996-12-09 2001-02-06 Genuity Inc. Method and apparatus for balancing the process load on network servers according to network and serve based policies
JP2003256310A (ja) * 2002-03-05 2003-09-12 Nec Corp サーバ負荷分散システム、サーバ負荷分散装置、コンテンツ管理装置、及びサーバ負荷分散プログラム
CN105323320B (zh) * 2015-11-11 2018-09-25 中国联合网络通信集团有限公司 一种内容分发的方法及装置

Also Published As

Publication number Publication date
CN107786604A (zh) 2018-03-09

Similar Documents

Publication Publication Date Title
CN102752288B (zh) 网络访问行为识别方法和装置
US10043199B2 (en) Method, device and system for publishing merchandise information
CN106933854B (zh) 短链接处理方法、装置及服务器
CN106933871B (zh) 短链接处理方法、装置及短链接服务器
KR101514738B1 (ko) 애플리케이션-생성 소셜 컨텐츠 기반 광고
CN105516821B (zh) 弹幕筛选的方法及装置
CN104392008B (zh) 网页数据获取方法、浏览器客户端及cdn服务器
US7921097B1 (en) Systems and methods for generating a descriptive uniform resource locator (URL)
KR20140101697A (ko) 애플리케이션 스토어와 관련된 허위 등급들/코멘트들의 자동 검출
US9021085B1 (en) Method and system for web filtering
CN109657434B (zh) 应用访问方法及装置
CN104219230A (zh) 识别恶意网站的方法及装置
CN102629265B (zh) 一种建立网页数据库的方法及系统
CN108228864A (zh) 网络爬虫识别方法、装置、计算机设备和存储介质
CN104699837B (zh) 网页配图选取方法、装置及服务器
CN105138912A (zh) 钓鱼网站检测规则的自动生成方法及装置
CN111767481A (zh) 访问处理方法、装置、设备和存储介质
CN107483565B (zh) 一种服务后台识别方法、代理服务器及计算机存储介质
CN105187439A (zh) 钓鱼网站检测方法及装置
CN106131069A (zh) 一种Web异常检测方法和装置
CN106202297A (zh) 识别用户兴趣的方法及装置
CN108664493B (zh) 统计url是否有效的方法、装置、电子设备和存储介质
CN113127767B (zh) 手机号码提取方法、装置、电子设备及存储介质
CN107786604B (zh) 一种确定内容服务器的方法及装置
CN107784054B (zh) 一种页面发布方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20211222

Address after: 518129 Bantian HUAWEI headquarters office building, Longgang District, Guangdong, Shenzhen

Patentee after: HUAWEI TECHNOLOGIES Co.,Ltd.

Address before: 215123 Building A3, Creative Industry Park, 328 Xinghu Street, Suzhou Industrial Park, Jiangsu Province

Patentee before: Huawei digital technology (Suzhou) Co.,Ltd.

Effective date of registration: 20211222

Address after: 450046 Floor 9, building 1, Zhengshang Boya Plaza, Longzihu wisdom Island, Zhengdong New Area, Zhengzhou City, Henan Province

Patentee after: xFusion Digital Technologies Co., Ltd.

Address before: 518129 Bantian HUAWEI headquarters office building, Longgang District, Guangdong, Shenzhen

Patentee before: HUAWEI TECHNOLOGIES Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20250306

Address after: 450046, 10th Floor, North Chuangzhi Tiandi Building, Dongshigeng Street, Longzihu Wisdom Island Middle Road East, Zhengdong New District, Zhengzhou City, Henan Province

Patentee after: Henan Kunlun Technology Co.,Ltd.

Country or region after: China

Patentee after: xFusion Digital Technologies Co., Ltd.

Address before: 450046 Floor 9, building 1, Zhengshang Boya Plaza, Longzihu wisdom Island, Zhengdong New Area, Zhengzhou City, Henan Province

Patentee before: xFusion Digital Technologies Co., Ltd.

Country or region before: China