CN119003890A - 一种数据分析处理方法 - Google Patents
一种数据分析处理方法 Download PDFInfo
- Publication number
- CN119003890A CN119003890A CN202411479432.5A CN202411479432A CN119003890A CN 119003890 A CN119003890 A CN 119003890A CN 202411479432 A CN202411479432 A CN 202411479432A CN 119003890 A CN119003890 A CN 119003890A
- Authority
- CN
- China
- Prior art keywords
- access
- website
- user name
- historical
- access user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/957—Browsing optimisation, e.g. caching or content distillation
- G06F16/9574—Browsing optimisation, e.g. caching or content distillation of access to content, e.g. by caching
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种数据分析处理方法,属于数据处理技术领域,包括以下步骤:S1、采集网站的历史访问信息;S2、根据网站的历史访问信息,确定网站的动态用户集;S3、获取动态用户集中各个动态用户的访问数据,为网站生成感兴趣内容。该数据分析处理方法收集网站一段时间内访问用户的历史访问信息,根据每个历史访问用户名的历史访问记录,提取较为活跃的历史访问用户名,作为动态用户集;将动态用户集中各个历史访问用户名的访问记录作为基础,更具针对性地提取网站的感兴趣内容;最后生成的感兴趣内容可以反映用户在使用该网站时更倾向阅读的文章,便于网站管理者了解用户画像,管理网站,为用户提供更好的浏览体验。
Description
技术领域
本发明属于数据处理技术领域,具体涉及一种数据分析处理方法。
背景技术
传统网页大而全的信息展示方式,信息量巨大又不易于查看,往往让用户无法准确获取所需信息,极大地降低用户使用效率。在以用户为中心的设计理念深入人心的互联网时代,传统网站也急需跟上个性化智能服务的步伐,根据用户在网站内的访问数据,确定用户在网站真正感兴趣的内容,方便网站管理者对网站内容排版进行及时调整。
发明内容
本发明为了解决以上问题,提出了一种数据分析处理方法。
本发明的技术方案是:一种数据分析处理方法包括以下步骤:
S1、采集网站的历史访问信息;
S2、根据网站的历史访问信息,确定网站的动态用户集;
S3、获取动态用户集中各个动态用户的访问数据,为网站生成感兴趣内容。
进一步地,S1中,网站的历史访问信息包括各个历史访问用户名在网站所阅读的文章、各个历史访问用户名的访问模式;其中,访问模式包括登录访问和游客访问。
进一步地,S2包括以下子步骤:
S21、根据各个历史访问用户名在网站所阅读的文章,为各个历史访问用户名构建数字访问队列;
S22、基于历史访问用户名的数字访问队列,得到历史访问用户名的数字访问量;
S23、根据各个历史访问用户名的数字访问量以及访问模式,确定历史访问用户名与网站之间的加载系数;
S24、将加载系数排名前50%的历史访问用户名作为动态用户集。
上述进一步方案的有益效果是:在本发明中,在多位用户访问网站并点击阅读文章后,会在网站留下访问记录;本发明采集用户访问留下的历史访问信息,并根据历史访问信息中各个历史访问用户名对每篇文章的阅读时长以及访问网址次数等,来确定比较活跃的用户(即加载系数从大到小排序,排名前50%),作为动态用户集,动态用户集使用该网站的时长较长且频率较高,可以为网站收集用户的感兴趣内容提供基础,保证提取的内容准确且有针对性。
进一步地,述S21中,数字访问队列Task的表达式为:
;式中,M表示历史访问用户名访问网站的次数,N表示历史访问用户名每次访问网站所阅读的文章篇数,表示历史访问用户名第1次访问网站所阅读的第1篇文章的实际阅读时长,表示历史访问用户名第1次访问网站所阅读的第N篇文章的实际阅读时长,表示历史访问用户名第2次访问网站所阅读的第1篇文章的实际阅读时长,表示历史访问用户名第2次访问网站所阅读的第N篇文章的实际阅读时长,表示历史访问用户名第m次访问网站所阅读的第1篇文章的实际阅读时长,表示历史访问用户名第m次访问网站所阅读的第N篇文章的实际阅读时长,表示历史访问用户名第M次访问网站所阅读的第1篇文章的实际阅读时长,表示历史访问用户名第M次访问网站所阅读的第N篇文章的实际阅读时长。
数字访问队列主要用于记载历史访问用户名访问网站的次数以及每次访问网站所阅读的文章篇数,还需要记载每次访问网站时所阅读的每篇文章的阅读时间。
进一步地,S22中,数字访问量V的计算公式为:
;式中,M表示历史访问用户名访问网站的次数,N表示历史访问用户名每次访问网站所阅读的文章篇数,表示历史访问用户名第m次访问网站所阅读的第n篇文章的实际阅读时长,表示历史访问用户名第m次访问网站所阅读的第n篇文章的预计阅读时长,Tm表示历史访问用户名第m次访问网站的总访问时长,e表示指数,Gapm表示历史访问用户名第m次访问网站结束至下一次开始访问网站之间的间隔时长。
进一步地,S23包括以下子步骤:
S231、获取网站的首字节时间和首屏加载时间;
S232、根据历史访问用户名的访问模式以及网站的首字节时间和首屏加载时间,确定历史访问用户名与网站之间的时间交换系数;
S232、基于历史访问用户名的数字访问量,对历史访问用户名与网站之间的时间交换系数进行调整,确定历史访问用户名与网站之间的加载系数。
首字节时间指开始向客户端浏览器传输数据的时间。首屏加载时间:即浏览器显示第一屏页面所消耗的时间,首屏是指网页中适合浏览器窗口的区域,用户无需向下滚动即可,这是用户首先看到的内容。
进一步地,S232中,历史访问用户名与网站之间的时间交换系数C的计算公式为:
;式中,Tbyte表示网站的首字节时间,Tscreen表示首屏加载时间,表示向上取整运算,γ表示历史访问用户名的访问模式对应的权重系数。
用户的访问模式对应的权重系数可以人为设置,要求是登录访问的权重系数比游客访问的权重系数高,比如登录访问的权重系数为3,游客访问的权重系数为2。
进一步地,S233中,历史访问用户名与网站之间的加载系数L的计算公式为:
;式中,V表示历史访问用户名的数字访问量,C表示历史访问用户名与网站之间的时间交换系数。
进一步地,S3中,为网站生成感兴趣内容的具体方法为:提取动态用户集中各个动态用户所阅读的文章,生成感兴趣文章集合,提取感兴趣文章集合中每篇文章标题的关键词,作为网站的感兴趣内容。
本发明的有益效果是:该数据分析处理方法收集网站一段时间内访问用户的历史访问信息,根据每个历史访问用户名的历史访问记录,提取较为活跃的历史访问用户名,作为动态用户集;将动态用户集中各个历史访问用户名的访问记录作为基础,更具针对性地提取网站的感兴趣内容;最后生成的感兴趣内容可以反映用户在使用该网站时更倾向阅读的文章,便于网站管理者了解用户画像,管理网站,为用户提供更好的浏览体验。
附图说明
图1为数据分析处理方法的流程图。
具体实施方式
下面结合附图对本发明的实施例作进一步的说明。
如图1所示,本发明提供了一种数据分析处理方法,包括以下步骤:
S1、采集网站的历史访问信息;
S2、根据网站的历史访问信息,确定网站的动态用户集;
S3、获取动态用户集中各个动态用户的访问数据,为网站生成感兴趣内容。
在本发明实施例中,S1中,网站的历史访问信息包括各个历史访问用户名在网站所阅读的文章、各个历史访问用户名的访问模式;其中,访问模式包括登录访问和游客访问。
在本发明实施例中,S2包括以下子步骤:
S21、根据各个历史访问用户名在网站所阅读的文章,为各个历史访问用户名构建数字访问队列;
S22、基于历史访问用户名的数字访问队列,得到历史访问用户名的数字访问量;
S23、根据各个历史访问用户名的数字访问量以及访问模式,确定历史访问用户名与网站之间的加载系数;
S24、将加载系数排名前50%的历史访问用户名作为动态用户集。
在本发明中,在多位用户访问网站并点击阅读文章后,会在网站留下访问记录;本发明采集用户访问留下的历史访问信息,并根据历史访问信息中各个历史访问用户名对每篇文章的阅读时长以及访问网址次数等,来确定比较活跃的用户(即加载系数从大到小排序,排名前50%),作为动态用户集,动态用户集使用该网站的时长较长且频率较高,可以为网站收集用户的感兴趣内容提供基础,保证提取的内容准确且有针对性。
在本发明实施例中,述S21中,数字访问队列Task的表达式为:
;式中,M表示历史访问用户名访问网站的次数,N表示历史访问用户名每次访问网站所阅读的文章篇数,表示历史访问用户名第1次访问网站所阅读的第1篇文章的实际阅读时长,表示历史访问用户名第1次访问网站所阅读的第N篇文章的实际阅读时长,表示历史访问用户名第2次访问网站所阅读的第1篇文章的实际阅读时长,表示历史访问用户名第2次访问网站所阅读的第N篇文章的实际阅读时长,表示历史访问用户名第m次访问网站所阅读的第1篇文章的实际阅读时长,表示历史访问用户名第m次访问网站所阅读的第N篇文章的实际阅读时长,表示历史访问用户名第M次访问网站所阅读的第1篇文章的实际阅读时长,表示历史访问用户名第M次访问网站所阅读的第N篇文章的实际阅读时长。
数字访问队列主要用于记载历史访问用户名访问网站的次数以及每次访问网站所阅读的文章篇数,还需要记载每次访问网站时所阅读的每篇文章的阅读时间。
在本发明实施例中,S22中,S22中,数字访问量V的计算公式为:
;式中,M表示历史访问用户名访问网站的次数,N表示历史访问用户名每次访问网站所阅读的文章篇数,表示历史访问用户名第m次访问网站所阅读的第n篇文章的实际阅读时长,表示历史访问用户名第m次访问网站所阅读的第n篇文章的预计阅读时长,Tm表示历史访问用户名第m次访问网站的总访问时长,e表示指数,Gapm表示历史访问用户名第m次访问网站结束至下一次开始访问网站之间的间隔时长。
在本发明实施例中,S23包括以下子步骤:
S231、获取网站的首字节时间和首屏加载时间;
S232、根据历史访问用户名的访问模式以及网站的首字节时间和首屏加载时间,确定历史访问用户名与网站之间的时间交换系数;
S232、基于历史访问用户名的数字访问量,对历史访问用户名与网站之间的时间交换系数进行调整,确定历史访问用户名与网站之间的加载系数。
首字节时间指开始向客户端浏览器传输数据的时间。首屏加载时间:即浏览器显示第一屏页面所消耗的时间,首屏是指网页中适合浏览器窗口的区域,用户无需向下滚动即可,这是用户首先看到的内容。
在本发明实施例中,S232中,历史访问用户名与网站之间的时间交换系数C的计算公式为:
;式中,Tbyte表示网站的首字节时间,Tscreen表示首屏加载时间,表示向上取整运算,γ表示历史访问用户名的访问模式对应的权重系数。
用户的访问模式对应的权重系数可以人为设置,要求是登录访问的权重系数比游客访问的权重系数高,比如登录访问的权重系数为3,游客访问的权重系数为2。
在本发明实施例中,S233中,历史访问用户名与网站之间的加载系数L的计算公式为:
;式中,V表示历史访问用户名的数字访问量,C表示历史访问用户名与网站之间的时间交换系数。
在本发明实施例中,S3中,为网站生成感兴趣内容的具体方法为:提取动态用户集中各个动态用户所阅读的文章,生成感兴趣文章集合,提取感兴趣文章集合中每篇文章标题的关键词,作为网站的感兴趣内容。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。
Claims (9)
1.一种数据分析处理方法,其特征在于,包括以下步骤:
S1、采集网站的历史访问信息;
S2、根据网站的历史访问信息,确定网站的动态用户集;
S3、获取动态用户集中各个动态用户的访问数据,为网站生成感兴趣内容。
2.根据权利要求1所述的数据分析处理方法,其特征在于,所述S1中,网站的历史访问信息包括各个历史访问用户名在网站所阅读的文章、各个历史访问用户名的访问模式;其中,访问模式包括登录访问和游客访问。
3.根据权利要求1所述的数据分析处理方法,其特征在于,所述S2包括以下子步骤:
S21、根据各个历史访问用户名在网站所阅读的文章,为各个历史访问用户名构建数字访问队列;
S22、基于历史访问用户名的数字访问队列,得到历史访问用户名的数字访问量;
S23、根据各个历史访问用户名的数字访问量以及访问模式,确定历史访问用户名与网站之间的加载系数;
S24、将加载系数排名前50%的历史访问用户名作为动态用户集。
4.根据权利要求3所述的数据分析处理方法,其特征在于,所述S21中,数字访问队列Task的表达式为:
;式中,M表示历史访问用户名访问网站的次数,N表示历史访问用户名每次访问网站所阅读的文章篇数,表示历史访问用户名第1次访问网站所阅读的第1篇文章的实际阅读时长,表示历史访问用户名第1次访问网站所阅读的第N篇文章的实际阅读时长,表示历史访问用户名第2次访问网站所阅读的第1篇文章的实际阅读时长,表示历史访问用户名第2次访问网站所阅读的第N篇文章的实际阅读时长,表示历史访问用户名第m次访问网站所阅读的第1篇文章的实际阅读时长,表示历史访问用户名第m次访问网站所阅读的第N篇文章的实际阅读时长,表示历史访问用户名第M次访问网站所阅读的第1篇文章的实际阅读时长,表示历史访问用户名第M次访问网站所阅读的第N篇文章的实际阅读时长。
5.根据权利要求3所述的数据分析处理方法,其特征在于,所述S22中,数字访问量V的计算公式为:
;式中,M表示历史访问用户名访问网站的次数,N表示历史访问用户名每次访问网站所阅读的文章篇数,表示历史访问用户名第m次访问网站所阅读的第n篇文章的实际阅读时长,表示历史访问用户名第m次访问网站所阅读的第n篇文章的预计阅读时长,Tm表示历史访问用户名第m次访问网站的总访问时长,e表示指数,Gapm表示历史访问用户名第m次访问网站结束至下一次开始访问网站之间的间隔时长。
6.根据权利要求3所述的数据分析处理方法,其特征在于,所述S23包括以下子步骤:
S231、获取网站的首字节时间和首屏加载时间;
S232、根据历史访问用户名的访问模式以及网站的首字节时间和首屏加载时间,确定历史访问用户名与网站之间的时间交换系数;
S232、基于历史访问用户名的数字访问量,对历史访问用户名与网站之间的时间交换系数进行调整,确定历史访问用户名与网站之间的加载系数。
7.根据权利要求6所述的数据分析处理方法,其特征在于,所述S232中,历史访问用户名与网站之间的时间交换系数C的计算公式为:
;式中,Tbyte表示网站的首字节时间,Tscreen表示首屏加载时间,表示向上取整运算,γ表示历史访问用户名的访问模式对应的权重系数。
8.根据权利要求6所述的数据分析处理方法,其特征在于,所述S233中,历史访问用户名与网站之间的加载系数L的计算公式为:
;式中,V表示历史访问用户名的数字访问量,C表示历史访问用户名与网站之间的时间交换系数。
9.根据权利要求1所述的数据分析处理方法,其特征在于,所述S3中,为网站生成感兴趣内容的具体方法为:提取动态用户集中各个动态用户所阅读的文章,生成感兴趣文章集合,提取感兴趣文章集合中每篇文章标题的关键词,作为网站的感兴趣内容。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202411479432.5A CN119003890B (zh) | 2024-10-23 | 2024-10-23 | 一种数据分析处理方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202411479432.5A CN119003890B (zh) | 2024-10-23 | 2024-10-23 | 一种数据分析处理方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| CN119003890A true CN119003890A (zh) | 2024-11-22 |
| CN119003890B CN119003890B (zh) | 2025-02-07 |
Family
ID=93488499
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202411479432.5A Active CN119003890B (zh) | 2024-10-23 | 2024-10-23 | 一种数据分析处理方法 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN119003890B (zh) |
Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2012160567A1 (en) * | 2011-05-20 | 2012-11-29 | Yogesh Chunilal Rathod | A system and method for providing unified active search engine based on search result item specific identified, dynamic, contextual & accessible active links. |
| CN102999586A (zh) * | 2012-11-15 | 2013-03-27 | 北京小米科技有限责任公司 | 一种网站推荐的方法和装置 |
| CN103186595A (zh) * | 2011-12-29 | 2013-07-03 | 盛乐信息技术(上海)有限公司 | 音视频推荐方法及系统 |
| JP2019204474A (ja) * | 2018-05-22 | 2019-11-28 | 広東技術師範学院 | ユーザアクセスプリファレンスモデルを用いたストレージ方法 |
| CN116662671A (zh) * | 2023-07-24 | 2023-08-29 | 中国标准化研究院 | 一种基于用户偏好的数字图书馆数据推送方法 |
-
2024
- 2024-10-23 CN CN202411479432.5A patent/CN119003890B/zh active Active
Patent Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2012160567A1 (en) * | 2011-05-20 | 2012-11-29 | Yogesh Chunilal Rathod | A system and method for providing unified active search engine based on search result item specific identified, dynamic, contextual & accessible active links. |
| CN103186595A (zh) * | 2011-12-29 | 2013-07-03 | 盛乐信息技术(上海)有限公司 | 音视频推荐方法及系统 |
| CN102999586A (zh) * | 2012-11-15 | 2013-03-27 | 北京小米科技有限责任公司 | 一种网站推荐的方法和装置 |
| JP2019204474A (ja) * | 2018-05-22 | 2019-11-28 | 広東技術師範学院 | ユーザアクセスプリファレンスモデルを用いたストレージ方法 |
| CN116662671A (zh) * | 2023-07-24 | 2023-08-29 | 中国标准化研究院 | 一种基于用户偏好的数字图书馆数据推送方法 |
Non-Patent Citations (3)
| Title |
|---|
| ZHOU MINGJIAN AND GAO JI: "User view of knowledge management system", JOURNAL OF COMPUTER AIDED DESIGN & COMPUTER GRAPHICS, 1 May 2005 (2005-05-01) * |
| 贝毅君;陈刚;董金祥;: "面向Web活跃用户的树型访问模式挖掘算法", 浙江大学学报(工学版), no. 06, 15 June 2009 (2009-06-15) * |
| 陈华;陆黎明;刘玉文;: "基于Web数据挖掘的文献个性化推荐系统的设计", 山东大学学报(理学版), no. 11, 15 November 2007 (2007-11-15) * |
Also Published As
| Publication number | Publication date |
|---|---|
| CN119003890B (zh) | 2025-02-07 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US8214358B2 (en) | Systems and methods for adaptive scheduling of references to documents | |
| US8527585B2 (en) | Prereading method and system for web browser | |
| US9501587B2 (en) | Method and device for pushing association knowledge | |
| US8296253B2 (en) | Managing online content based on its predicted popularity | |
| US7958125B2 (en) | Clustering aggregator for RSS feeds | |
| CN1761972A (zh) | 判断因特网用户意图的方法以及利用该判断方法进行因特网广告的方法及其系统 | |
| CN105589914A (zh) | 一种网页页面的预读取方法、装置及智能终端设备 | |
| TW200925970A (en) | Customized today module | |
| CN108846021B (zh) | 一种基于用户访问偏好模型的海量小文件存储方法 | |
| US8015185B2 (en) | Method and system for detecting search terms whose popularity increase rapidly | |
| CN112347239A (zh) | 一种基于大数据的图书匹配方法、系统、服务器及存储介质 | |
| US8346799B1 (en) | Recent content rank adjustment with inverted decay | |
| CN106326261A (zh) | 一种网页页面的预读取方法、装置及智能终端设备 | |
| US20050240875A1 (en) | Method and apparatus for providing information | |
| CN116955833A (zh) | 一种用户行为分析系统及方法 | |
| CN119003890B (zh) | 一种数据分析处理方法 | |
| CN101464883A (zh) | 内容检索设备和方法 | |
| CN105653724A (zh) | 一种页面曝光量的监控方法和装置 | |
| CN119669448A (zh) | 一种电子书籍数据的推送方法、装置及设备 | |
| CN115630173B (zh) | 一种基于兴趣度分析的用户数据管理方法 | |
| CN116797316A (zh) | 一种产品推送方法、装置、计算机设备及存储介质 | |
| JP5591608B2 (ja) | 情報提供システム、情報提供方法、及び情報提供プログラム | |
| KR101093989B1 (ko) | 급상승 검색어 검출 방법 및 시스템 | |
| CN111369126A (zh) | 一种统计企业it系统使用数据的方法及系统 | |
| KR100574201B1 (ko) | 시기별 검색어 검출 방법 및 시스템 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| GR01 | Patent grant | ||
| GR01 | Patent grant |