[go: up one dir, main page]

CN104199844A - 新发布的站点收录方法和装置 - Google Patents

新发布的站点收录方法和装置 Download PDF

Info

Publication number
CN104199844A
CN104199844A CN201410389303.7A CN201410389303A CN104199844A CN 104199844 A CN104199844 A CN 104199844A CN 201410389303 A CN201410389303 A CN 201410389303A CN 104199844 A CN104199844 A CN 104199844A
Authority
CN
China
Prior art keywords
site
webpage
time
sensitive
site information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410389303.7A
Other languages
English (en)
Inventor
王智广
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201410389303.7A priority Critical patent/CN104199844A/zh
Publication of CN104199844A publication Critical patent/CN104199844A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明提供了一种新发布的站点收录方法和装置。该方法包括:判断网页是否为时效性网页;解析判断为时效性网页中的时效性内容,获取其中包含的其他站点信息,其中,所述其他站点信息与所述时效性网页的站点信息不同;验证所述其他站点信息是否对应为新发布的站点,如果是,则将所述其他站点信息对应的站点作为新发布的站点进行收录。本发明实施例能够及时、有效地收录那些无法通过传统网页超链方式来收录的新站点,避免了人工参与带来的滞后性,提高时间效率,为后续使用新站点提供便利。

Description

新发布的站点收录方法和装置
技术领域
本发明涉及互联网应用技术领域,特别是涉及一种新发布的站点收录方法和装置。
背景技术
在计算机领域,站点(site)是指物理上具有较好的线路连接的能实现较快通信速率的计算机的集合(一般是指一个局域网),站点之间一般是通过慢速连接来实现信息通信(一般是指广域网),即站点是对网上计算机的实际的物理分布的一种客观反映。
随着互联网业务的发展,互联网的更新速度极快,每天甚至数小时或数分钟均可能存在着新站点的“诞生”,对于搜索引擎而言及时收录新站点是一项基本的要求。相关技术中,新站点启用时可以通过其他网页的超链链接出来。然而,存在一部分站点只是通过新闻报道、发帖、发微博等方式提及新站点已启用。如图1所示的新闻报道,报道中提及的新站点cloud.360.cn在上线时很长时间内无法找到包含其的超链关系,此时无法通过传统网页超链方式来收录该新站点,需要通过手工的方式收录,而人工参与具有滞后性。
因此,如何及时、有效地收录那些无法通过传统网页超链方式来收录的新站点,成为目前亟需解决的技术问题。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的新发布的站点收录方法和相应的装置。
依据本发明的一个方面,提供了一种新发布的站点收录方法,包括:判断网页是否为时效性网页;解析判断为时效性网页中的时效性内容,获取其中包含的其他站点信息,其中,所述其他站点信息与所述时效性网页的站点信息不同;验证所述其他站点信息是否对应为新发布的站点,如果是,则将所述其他站点信息对应的站点作为新发布的站点进行收录。
可选地,所述判断网页是否为时效性网页,包括:根据所述网页的网页发布时间和/或前链网页信息确认所述网页是否为时效性网页。
可选地,所述解析判断为时效性网页中的时效性内容,获取其中包含的其他站点信息,包括:解析所述时效性网页的页面内容部分和/或超链部分;获取所述页面内容部分中提及的站点信息,和/或,所述超链部分的站点信息。
可选地,所述解析判断为时效性网页中的时效性内容之后,获取其中包含的其他站点信息之前,还包括:所述时效性网页的网页为多个时,根据每个网页的内容确定每个网页的质量,其中,所述网页包含的有效内容与所述网页的质量成正比;选择质量超过指定阈值的多个网页;在选择的多个网页中获取其中包含的其他站点信息。
可选地,所述时效性内容包括下列至少之一:
标题;
正文;
相关链接。
可选地,验证所述其他站点信息是否对应为新发布的站点,包括:解析所述其他站点信息,得到域名信息;判断所述域名信息是否之前已被收录;若否,则确认所述其他站点信息对应的站点为新发布的站点;若是,则确认所述其他站点信息对应的站点不为新发布的站点。
可选地,验证所述其他站点信息是否对应为新发布的站点,包括:解析所述其他站点信息,查找互联网协议IP信息;若所述其他站点信息具有IP,且搜索引擎中未收录过所述其他站点信息,则验证所述其他站点信息对应的站点为新发布的站点。
依据本发明的另一个方面,还提供了一种新发布的站点收录装置,包括:
判断模块,适于判断网页是否为时效性网页;
获取模块,适于解析判断为时效性网页中的时效性内容,获取其中包含的其他站点信息,其中,所述其他站点信息与所述时效性网页的站点信息不同;
验证模块,适于验证所述其他站点信息是否对应为新发布的站点;
收录模块,适于如果验证模块的验证结果为是,则将所述其他站点信息对应的站点作为新发布的站点进行收录。
可选地,所述判断模块还适于:根据所述网页的网页发布时间和/或前链网页信息确认所述网页是否为时效性网页。
可选地,所述获取模块还适于:解析所述时效性网页的页面内容部分和/或超链部分;获取所述页面内容部分中提及的站点信息,和/或,所述超链部分的站点信息。
可选地,所述获取模块还适于:所述时效性网页的网页为多个时,根据每个网页的内容确定每个网页的质量,其中,所述网页包含的有效内容与所述网页的质量成正比;选择质量超过指定阈值的多个网页;在选择的多个网页中获取其中包含的其他站点信息。
可选地,所述时效性内容包括下列至少之一:
标题;
正文;
相关链接。
可选地,所述验证模块还适于:解析所述其他站点信息,得到域名信息;判断所述域名信息是否之前已被收录;若否,则确认所述其他站点信息对应的站点为新发布的站点;若是,则确认所述其他站点信息对应的站点不为新发布的站点。
可选地,所述验证模块还适于:解析所述其他站点信息,查找互联网协议IP信息;若所述其他站点信息具有IP,且搜索引擎中未收录过所述其他站点信息,则验证所述其他站点信息对应的站点为新发布的站点。
依据本发明的技术方案,通过解析时效性网页中的时效性内容,获取其中包含的其他站点信息,并验证获取的其他站点信息对应的站点是否为新发布的站点,若是,则将其他站点信息对应的站点作为新发布的站点进行收录。由此可见,本发明实施例能够解析时效性网页中的时效性内容,获取其中包含的其他站点信息,并验证获取的其他站点信息对应的站点是否为新发布的站点,而无需人工发现时效性网页中的其他站点信息,也无需人工判断其他站点信息对应的站点是否为新发布的站点,从而解决了现有技术提及的:由于只是通过新闻报道、发帖、发微博等方式提及新站点已启用,因而无法通过传统网页超链方式来收录该新站点,需要通过手工的方式收录,而人工参与具有滞后性这一问题。因此,本发明实施例能够及时、有效地收录那些无法通过传统网页超链方式来收录的新站点,避免了人工参与带来的滞后性,提高时间效率,为后续使用新站点提供便利。并且,对搜索引擎而言,大大提升了其收录站点的全面性和时效性,起到搜索引擎优化的作用。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
根据下文结合附图对本发明具体实施例的详细描述,本领域技术人员将会更加明了本发明的上述以及其他目的、优点和特征。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了通过新闻报道提及新站点已启用的示意图;
图2示出了根据本发明一个实施例的新发布的站点收录方法的流程图;
图3示出了通过发微博方式提及新站点已启用的示意图;
图4示出了根据本发明一个实施例的基于查看域名的新发布的站点收录方法的流程图;
图5示出了根据本发明一个实施例的基于查找IP的新发布的站点收录方法的流程图;以及
图6示出了根据本发明一个实施例的新发布的站点收录装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
为解决上述技术问题,本发明实施例提供了一种新发布的站点收录方法,图2示出了根据本发明一个实施例的新发布的站点收录方法的流程图。如图2所示,该方法至少包括以下步骤S202至步骤S208。
步骤S202、判断网页是否为时效性网页,若是,则继续执行步骤S204;否则,结束本次流程。
步骤S204、解析判断为时效性网页中的时效性内容,获取其中包含的其他站点信息,其中,其他站点信息与时效性网页的站点信息不同。
步骤S206、验证其他站点信息是否对应为新发布的站点,若是,则继续执行步骤S208;否则,结束本次流程。
步骤S208、将其他站点信息对应的站点作为新发布的站点进行收录。
依据本发明的技术方案,通过解析时效性网页中的时效性内容,获取其中包含的其他站点信息,并验证获取的其他站点信息对应的站点是否为新发布的站点,若是,则将其他站点信息对应的站点作为新发布的站点进行收录。由此可见,本发明实施例能够解析时效性网页中的时效性内容,获取其中包含的其他站点信息,并验证获取的其他站点信息对应的站点是否为新发布的站点,而无需人工发现时效性网页中的其他站点信息,也无需人工判断其他站点信息对应的站点是否为新发布的站点,从而解决了现有技术提及的:由于只是通过新闻报道、发帖、发微博等方式提及新站点已启用,因而无法通过传统网页超链方式来收录该新站点,需要通过手工的方式收录,而人工参与具有滞后性这一问题。因此,本发明实施例能够及时、有效地收录那些无法通过传统网页超链方式来收录的新站点,避免了人工参与带来的滞后性,提高时间效率,为后续使用新站点提供便利。并且,对搜索引擎而言,大大提升了其收录站点的全面性和时效性,起到搜索引擎优化的作用。
上文步骤S202中提及的时效性网页是指发布时间距当前不超过指定时长,且搜索引擎未收录过的网页。进一步地,步骤S202可以采用的技术手段为:根据网页的网页发布时间和/或前链网页信息确认网页是否为时效性网页。例如,当前时间为上午9:00,可以将网页发布时间为上午7:00至9:00的网页确认为时效性网页。又例如,若网页的前链网页是由搜索引擎利用搜索关键词搜索到的搜索结果所在的网页,即在搜索结果中链接到该网页,则认为该网页被搜索引擎收录过,该网页不为时效性网页;反之,该网页为时效性网页。
步骤S202判断网页为时效性网页后,步骤S204进一步解析时效性网页中的时效性内容,这里的时效性内容可以是网页时效性主体内容,如正文、标题、相关链接等。步骤S204可以采用的技术手段为:解析时效性网页的页面内容部分和/或超链部分,进而获取页面内容部分中提及的站点信息,和/或,超链部分的站点信息。例如,在图1中,该网页为时效性网页,则解析该网页的页面内容部分和/或超链部分,此时获取到页面内容部分中提及的站点信息,即“cloud.360.cn”。又例如,图3为通过发微博方式提及新站点已启用的示意图,该条微博所在的网页为时效性网页,则解析该网页的页面内容部分和/或超链部分,此时获取到超链部分的站点信息,即“cloud.360.cn”。当然,本领域技术人员可以理解的是,本发明实施例中获取的站点信息并不限于一条站点信息,可以根据实际的时效性内容提取多条站点信息,均属于本发明的保护范围。
由于低质量的垃圾时效性网页提炼出来的站点的质量往往较低,本发明实施例可以进一步将低质量的时效性网页识别出来。即步骤S204可以采用的技术手段为:时效性网页的网页为多个时,根据每个网页的内容确定每个网页的质量,其中,网页包含的有效内容与网页的质量成正比,进而选择质量超过指定阈值的多个网页,随后在选择的多个网页中获取其中包含的其他站点信息。
在上文步骤S204获取到其他站点信息后,步骤S206进一步验证其他站点信息是否对应为新发布的站点,可以通过查看域名或查找IP(Internet Protocol,互联网协议)的方式来验证,下面将详细说明这两种方式。
方式一,通过查看域名的方式进行验证。
在方式一中,可以通过解析其他站点信息,得到域名信息,进而判断该域名信息是否之前已被收录,例如判断该域名信息是否之前已被爬虫收录。若该域名信息之前未被收录,则确认其他站点信息对应的站点为新发布的站点;反之,则确认其他站点信息对应的站点不为新发布的站点,可能该站点曾经被使用过,后成为无效或失效站点,现又重新启用。
方式二,通过查找IP的方式进行验证。
在方式二中,可以通过解析其他站点信息,查找IP信息。若其他站点信息具有IP,且搜索引擎中未收录过其他站点信息,则验证其他站点信息对应的站点为新发布的站点。若其他站点信息具有IP,且搜索引擎中已收录过其他站点信息,则验证其他站点信息对应的站点不为新发布的站点,可能该站点曾经被使用过,后成为无效或失效站点,现又重新启用。若其他站点信息不具有IP,则验证其他站点信息对应的站点不为新发布的站点。
以上介绍了图2所示的实施例中各环节的多种实现方式,下面通过具体的优选实施例对本发明实施例提供的新发布的站点收录方法做进一步说明。
实施例一
图4示出了根据本发明一个实施例的基于查看域名的新发布的站点收录方法的流程图。如图4所示,该方法包括以下步骤S402至步骤S412。
步骤S402、根据网页的网页发布时间和/或前链网页信息确认网页是否为时效性网页,若是,则继续执行步骤S404;否则,结束本次流程。这里的时效性网页是指发布时间距当前不超过指定时长,且搜索引擎未收录过的网页。例如,当前时间为上午9:00,可以将网页发布时间为上午7:00至9:00的网页确认为时效性网页。又例如,若网页的前链网页是由搜索引擎利用搜索关键词搜索到的搜索结果所在的网页,即在搜索结果中链接到该网页,则认为该网页被搜索引擎收录过,该网页不为时效性网页;反之,该网页为时效性网页。
步骤S404、解析判断为时效性网页中的时效性内容,获取其中包含的其他站点信息,其中,其他站点信息与时效性网页的站点信息不同。这里的时效性内容可以是网页时效性主体内容,如正文、标题、相关链接等。例如,解析时效性网页的页面内容部分和/或超链部分,进而获取页面内容部分中提及的站点信息,和/或,超链部分的站点信息。
进一步地,若时效性网页的网页为多个时,可以根据每个网页的内容确定每个网页的质量,其中,网页包含的有效内容与网页的质量成正比,进而选择质量超过指定阈值的多个网页,随后在选择的多个网页中获取其中包含的其他站点信息,从而可以将低质量的时效性网页识别出来。
步骤S406、通过解析其他站点信息,得到域名信息。
步骤S408、判断该域名信息是否之前已被收录,若是,则继续执行步骤S410;否则,继续执行步骤S412。
步骤S410、确认其他站点信息对应的站点不为新发布的站点,并结束本次流程。
步骤S412、确认其他站点信息对应的站点为新发布的站点,并将其他站点信息对应的站点作为新发布的站点进行收录。
实施例一中,能够解析时效性网页中的时效性内容,获取其中包含的其他站点信息,并基于查看域名的方式验证其他站点信息是否对应为新发布的站点,而无需人工发现时效性网页中的其他站点信息,也无需人工判断其他站点信息对应的站点是否为新发布的站点,实现及时、有效地收录那些无法通过传统网页超链方式来收录的新站点,避免了人工参与带来的滞后性,提高时间效率,为后续使用新站点提供便利。
实施例二
图5示出了根据本发明一个实施例的基于查找IP的新发布的站点收录方法的流程图。如图5所示,该方法包括以下步骤S502至步骤S514。
步骤S502、根据网页的网页发布时间和/或前链网页信息确认网页是否为时效性网页,若是,则继续执行步骤S504;否则,结束本次流程。这里的时效性网页是指发布时间距当前不超过指定时长,且搜索引擎未收录过的网页。例如,当前时间为上午9:00,可以将网页发布时间为上午7:00至9:00的网页确认为时效性网页。又例如,若网页的前链网页是由搜索引擎利用搜索关键词搜索到的搜索结果所在的网页,即在搜索结果中链接到该网页,则认为该网页被搜索引擎收录过,该网页不为时效性网页;反之,该网页为时效性网页。
步骤S504、解析判断为时效性网页中的时效性内容,获取其中包含的其他站点信息,其中,其他站点信息与时效性网页的站点信息不同。这里的时效性内容可以是网页时效性主体内容,如正文、标题、相关链接等。例如,解析时效性网页的页面内容部分和/或超链部分,进而获取页面内容部分中提及的站点信息,和/或,超链部分的站点信息。
进一步地,若时效性网页的网页为多个时,可以根据每个网页的内容确定每个网页的质量,其中,网页包含的有效内容与网页的质量成正比,进而选择质量超过指定阈值的多个网页,随后在选择的多个网页中获取其中包含的其他站点信息,从而可以将低质量的时效性网页识别出来。
步骤S506、通过解析其他站点信息,查找IP信息。
步骤S508、判断其他站点信息是否具有IP,若是,则继续执行步骤S510;否则,继续执行步骤S512。
步骤S510、判断搜索引擎中是否收录过其他站点信息,若是,则继续执行步骤S512;否则,继续执行步骤S514。
步骤S512、确认其他站点信息对应的站点不为新发布的站点,并结束本次流程。
步骤S514、确认其他站点信息对应的站点为新发布的站点,并将其他站点信息对应的站点作为新发布的站点进行收录。
实施例二中,能够解析时效性网页中的时效性内容,获取其中包含的其他站点信息,并基于查找IP的方式验证其他站点信息是否对应为新发布的站点,而无需人工发现时效性网页中的其他站点信息,也无需人工判断其他站点信息对应的站点是否为新发布的站点,实现及时、有效地收录那些无法通过传统网页超链方式来收录的新站点,避免了人工参与带来的滞后性,提高时间效率,为后续使用新站点提供便利。
需要说明的是,实际应用中,上述所有可选实施方式可以采用结合的方式任意组合,形成本发明的可选实施例,在此不再一一赘述。
基于同一发明构思,本发明实施例还提供了一种新发布的站点收录装置,以实现上述新发布的站点收录方法。
图6示出了根据本发明一个实施例的新发布的站点收录装置的结构示意图。参见图6,该装置至少包括:判断模块610、获取模块620、验证模块630以及收录模块640。
现介绍本发明实施例的新发布的站点收录装置的各组成或器件的功能以及各部分间的连接关系:
判断模块610,适于判断网页是否为时效性网页;
获取模块620,与判断模块610相耦合,适于解析判断为时效性网页中的时效性内容,获取其中包含的其他站点信息,其中,其他站点信息与时效性网页的站点信息不同;
验证模块630,与获取模块620相耦合,适于验证其他站点信息是否对应为新发布的站点;
收录模块640,与验证模块630相耦合,适于如果验证模块630的验证结果为是,则将其他站点信息对应的站点作为新发布的站点进行收录。
在一个实施例中,判断模块610还可以适于:根据网页的网页发布时间和/或前链网页信息确认网页是否为时效性网页。
在一个实施例中,获取模块620还可以适于:解析时效性网页的页面内容部分和/或超链部分;获取页面内容部分中提及的站点信息,和/或,超链部分的站点信息。
在一个实施例中,获取模块620还可以适于:时效性网页的网页为多个时,根据每个网页的内容确定每个网页的质量,其中,网页包含的有效内容与网页的质量成正比;选择质量超过指定阈值的多个网页;在选择的多个网页中获取其中包含的其他站点信息。
在一个实施例中,时效性内容包括下列至少之一:
标题;
正文;
相关链接。
在一个实施例中,验证模块630还可以适于:解析其他站点信息,得到域名信息;判断域名信息是否之前已被收录;若否,则确认其他站点信息对应的站点为新发布的站点;若是,则确认其他站点信息对应的站点不为新发布的站点。
在一个实施例中,验证模块630还可以适于:解析其他站点信息,查找IP信息;若其他站点信息具有IP,且搜索引擎中未收录过其他站点信息,则验证其他站点信息对应的站点为新发布的站点。
根据上述任意一个优选实施例或多个优选实施例的组合,本发明实施例能够达到如下有益效果:
依据本发明的技术方案,通过解析时效性网页中的时效性内容,获取其中包含的其他站点信息,并验证获取的其他站点信息对应的站点是否为新发布的站点,若是,则将其他站点信息对应的站点作为新发布的站点进行收录。由此可见,本发明实施例能够解析时效性网页中的时效性内容,获取其中包含的其他站点信息,并验证获取的其他站点信息对应的站点是否为新发布的站点,而无需人工发现时效性网页中的其他站点信息,也无需人工判断其他站点信息对应的站点是否为新发布的站点,从而解决了现有技术提及的:由于只是通过新闻报道、发帖、发微博等方式提及新站点已启用,因而无法通过传统网页超链方式来收录该新站点,需要通过手工的方式收录,而人工参与具有滞后性这一问题。因此,本发明实施例能够及时、有效地收录那些无法通过传统网页超链方式来收录的新站点,避免了人工参与带来的滞后性,提高时间效率,为后续使用新站点提供便利。并且,对搜索引擎而言,大大提升了其收录站点的全面性和时效性,起到搜索引擎优化的作用。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的新发布的站点收录装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
至此,本领域技术人员应认识到,虽然本文已详尽示出和描述了本发明的多个示例性实施例,但是,在不脱离本发明精神和范围的情况下,仍可根据本发明公开的内容直接确定或推导出符合本发明原理的许多其他变型或修改。因此,本发明的范围应被理解和认定为覆盖了所有这些其他变型或修改。
本发明还提供A1、一种新发布的站点收录方法,包括:
判断网页是否为时效性网页;
解析判断为时效性网页中的时效性内容,获取其中包含的其他站点信息,其中,所述其他站点信息与所述时效性网页的站点信息不同;
验证所述其他站点信息是否对应为新发布的站点,如果是,则将所述其他站点信息对应的站点作为新发布的站点进行收录。
A2、根据A1所述的方法,其中,所述判断网页是否为时效性网页,包括:
根据所述网页的网页发布时间和/或前链网页信息确认所述网页是否为时效性网页。
A3、根据A1或A2所述的方法,其中,所述解析判断为时效性网页中的时效性内容,获取其中包含的其他站点信息,包括:
解析所述时效性网页的页面内容部分和/或超链部分;
获取所述页面内容部分中提及的站点信息,和/或,所述超链部分的站点信息。
A4、根据A1至A3任一项所述的方法,其中,所述解析判断为时效性网页中的时效性内容之后,获取其中包含的其他站点信息之前,还包括:
所述时效性网页的网页为多个时,
根据每个网页的内容确定每个网页的质量,其中,所述网页包含的有效内容与所述网页的质量成正比;
选择质量超过指定阈值的多个网页;
在选择的多个网页中获取其中包含的其他站点信息。
A5、根据A1至A4任一项所述的方法,其中,所述时效性内容包括下列至少之一:
标题;
正文;
相关链接。
A6、根据A1至A5任一项所述的方法,其中,验证所述其他站点信息是否对应为新发布的站点,包括:
解析所述其他站点信息,得到域名信息;
判断所述域名信息是否之前已被收录;
若否,则确认所述其他站点信息对应的站点为新发布的站点;
若是,则确认所述其他站点信息对应的站点不为新发布的站点。
A7、根据A1至A6任一项所述的方法,其中,验证所述其他站点信息是否对应为新发布的站点,包括:
解析所述其他站点信息,查找互联网协议IP信息;
若所述其他站点信息具有IP,且搜索引擎中未收录过所述其他站点信息,则验证所述其他站点信息对应的站点为新发布的站点。
B8、一种新发布的站点收录装置,包括:
判断模块,适于判断网页是否为时效性网页;
获取模块,适于解析判断为时效性网页中的时效性内容,获取其中包含的其他站点信息,其中,所述其他站点信息与所述时效性网页的站点信息不同;
验证模块,适于验证所述其他站点信息是否对应为新发布的站点;
收录模块,适于如果验证模块的验证结果为是,则将所述其他站点信息对应的站点作为新发布的站点进行收录。
B9、根据B8所述的装置,其中,所述判断模块还适于:
根据所述网页的网页发布时间和/或前链网页信息确认所述网页是否为时效性网页。
B10、根据B8或B9所述的装置,其中,所述获取模块还适于:
解析所述时效性网页的页面内容部分和/或超链部分;
获取所述页面内容部分中提及的站点信息,和/或,所述超链部分的站点信息。
B11、根据B8至B10任一项所述的装置,其中,所述获取模块还适于:
所述时效性网页的网页为多个时,
根据每个网页的内容确定每个网页的质量,其中,所述网页包含的有效内容与所述网页的质量成正比;
选择质量超过指定阈值的多个网页;
在选择的多个网页中获取其中包含的其他站点信息。
B12、根据B8至B11任一项所述的装置,其中,所述时效性内容包括下列至少之一:
标题;
正文;
相关链接。
B13、根据B8至B12任一项所述的装置,其中,所述验证模块还适于:
解析所述其他站点信息,得到域名信息;
判断所述域名信息是否之前已被收录;
若否,则确认所述其他站点信息对应的站点为新发布的站点;
若是,则确认所述其他站点信息对应的站点不为新发布的站点。
B14、根据B8至B13任一项所述的装置,其中,所述验证模块还适于:
解析所述其他站点信息,查找互联网协议IP信息;
若所述其他站点信息具有IP,且搜索引擎中未收录过所述其他站点信息,则验证所述其他站点信息对应的站点为新发布的站点。

Claims (10)

1.一种新发布的站点收录方法,包括:
判断网页是否为时效性网页;
解析判断为时效性网页中的时效性内容,获取其中包含的其他站点信息,其中,所述其他站点信息与所述时效性网页的站点信息不同;
验证所述其他站点信息是否对应为新发布的站点,如果是,则将所述其他站点信息对应的站点作为新发布的站点进行收录。
2.根据权利要求1所述的方法,其中,所述判断网页是否为时效性网页,包括:
根据所述网页的网页发布时间和/或前链网页信息确认所述网页是否为时效性网页。
3.根据权利要求1或2所述的方法,其中,所述解析判断为时效性网页中的时效性内容,获取其中包含的其他站点信息,包括:
解析所述时效性网页的页面内容部分和/或超链部分;
获取所述页面内容部分中提及的站点信息,和/或,所述超链部分的站点信息。
4.根据权利要求1至3任一项所述的方法,其中,所述解析判断为时效性网页中的时效性内容之后,获取其中包含的其他站点信息之前,还包括:
所述时效性网页的网页为多个时,
根据每个网页的内容确定每个网页的质量,其中,所述网页包含的有效内容与所述网页的质量成正比;
选择质量超过指定阈值的多个网页;
在选择的多个网页中获取其中包含的其他站点信息。
5.根据权利要求1至4任一项所述的方法,其中,所述时效性内容包括下列至少之一:
标题;
正文;
相关链接。
6.根据权利要求1至5任一项所述的方法,其中,验证所述其他站点信息是否对应为新发布的站点,包括:
解析所述其他站点信息,得到域名信息;
判断所述域名信息是否之前已被收录;
若否,则确认所述其他站点信息对应的站点为新发布的站点;
若是,则确认所述其他站点信息对应的站点不为新发布的站点。
7.根据权利要求1至6任一项所述的方法,其中,验证所述其他站点信息是否对应为新发布的站点,包括:
解析所述其他站点信息,查找互联网协议IP信息;
若所述其他站点信息具有IP,且搜索引擎中未收录过所述其他站点信息,则验证所述其他站点信息对应的站点为新发布的站点。
8.一种新发布的站点收录装置,包括:
判断模块,适于判断网页是否为时效性网页;
获取模块,适于解析判断为时效性网页中的时效性内容,获取其中包含的其他站点信息,其中,所述其他站点信息与所述时效性网页的站点信息不同;
验证模块,适于验证所述其他站点信息是否对应为新发布的站点;
收录模块,适于如果验证模块的验证结果为是,则将所述其他站点信息对应的站点作为新发布的站点进行收录。
9.根据权利要求8所述的装置,其中,所述判断模块还适于:
根据所述网页的网页发布时间和/或前链网页信息确认所述网页是否为时效性网页。
10.根据权利要求8或9所述的装置,其中,所述获取模块还适于:
解析所述时效性网页的页面内容部分和/或超链部分;
获取所述页面内容部分中提及的站点信息,和/或,所述超链部分的站点信息。
CN201410389303.7A 2014-08-08 2014-08-08 新发布的站点收录方法和装置 Pending CN104199844A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410389303.7A CN104199844A (zh) 2014-08-08 2014-08-08 新发布的站点收录方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410389303.7A CN104199844A (zh) 2014-08-08 2014-08-08 新发布的站点收录方法和装置

Publications (1)

Publication Number Publication Date
CN104199844A true CN104199844A (zh) 2014-12-10

Family

ID=52085137

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410389303.7A Pending CN104199844A (zh) 2014-08-08 2014-08-08 新发布的站点收录方法和装置

Country Status (1)

Country Link
CN (1) CN104199844A (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070073696A1 (en) * 2005-09-28 2007-03-29 Google, Inc. Online data verification of listing data
CN103092937A (zh) * 2013-01-08 2013-05-08 合一网络技术(北京)有限公司 可视化网页收录检测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070073696A1 (en) * 2005-09-28 2007-03-29 Google, Inc. Online data verification of listing data
CN103092937A (zh) * 2013-01-08 2013-05-08 合一网络技术(北京)有限公司 可视化网页收录检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
GUJUNSEO.COM: ""解读百度站长社区资料:时效性资源收录问题"", 《HTTP://WWW.CHINAZ.COM/WEB/2012/0531/254926.SHTML》 *
闫峻: ""新一代搜索引擎准确性收录技术的研究"", 《万方数据知识服务平台》 *

Similar Documents

Publication Publication Date Title
CN102982162B (zh) 网页信息的获取系统
CN104090976B (zh) 搜索引擎爬虫抓取网页的方法及装置
WO2015196907A1 (zh) 一种挖掘用户需求的搜索推送方法和装置
WO2014000537A1 (zh) 一种钓鱼网站查找系统及方法
CN104317931B (zh) 网页标题的确定方法和装置
CN103530336B (zh) 统一资源定位符url中无效参数的识别设备及方法
CN103077254B (zh) 网页获取方法和装置
CN103559203A (zh) 网页排序方法、装置和系统
CN103617213A (zh) 识别新闻网页属性特征的方法和系统
CN105224661A (zh) 会话式的信息搜索方法及装置
CN103530337B (zh) 识别统一资源定位符url中无效参数的设备及方法
CN105808605B (zh) 一种搜索日志合并方法和系统
CN104008213B (zh) 一种网页信息更新发现与统计的方法和装置
CN102937977A (zh) 一种搜索服务器及搜索方法
CN102819613B (zh) Rss信息分页抓取系统及方法
CN106131069A (zh) 一种Web异常检测方法和装置
CN104331458B (zh) 以锚文本作为网页标题的方法和装置
CN104778233A (zh) 一种基于点击量的搜索方法和装置
CN103678601A (zh) 一种范文检索请求的处理方法和装置
CN103838865A (zh) 用于挖掘时效性种子页的方法及装置
CN104199844A (zh) 新发布的站点收录方法和装置
CN102930039B (zh) 收藏夹信息的处理方法及装置、浏览器装置
CN104182485B (zh) 重启用站点的收录方法和系统
CN104317930B (zh) 终端搜索的呈现优化方法和装置
CN103279527A (zh) 一种用户兴趣网址挖掘方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20141210

RJ01 Rejection of invention patent application after publication