• Tag Archives: 数据挖掘

隐式挖掘网站用户行为的分析

隐式挖掘网站用户行为 -转载,出处不明

  如何了解用户和需求

  如何了解用户需求?根据用户是否主动参与分为显式与隐式两种挖掘模式,因为显式的动静比较大,有很大局限性,所以为了保证结果准确性以及提高用户接受度,一般都采用隐式。

  用户的日常交互行为会产生四类关键数据:鼠标移动轨迹、链接点击分布、页面浏览流、页面停留时间。通过用户的行为能反映用户的观点,同时利用访问的网页次序可以找出网页之间的隐性关系。

  收集数据

  Web服务器的日志(用户会话记录)

  Web trends或类似的第三方共享软件(客户端分析,流量分析,可用性分析)

  自己开发的第三方软件/插件(需求自定义)

  大型网站通常会把以上三种方法组合应用,大致原理就是给进入网站的用户赋予身份识别,每次产生交互动作就向服务器发回请求,通过时间和页面判断连接各个请求点并且记录下来。(算法不讨论)

  过滤数据

  明确目标,定义核心数据。

  界定用户行为,利用多数人的行为来消除个人行为的主观性。

  对用户进行归类,确定数据类别。

  大型网站每天所产生的数据量是惊人的,所以常规需求一般都是定时或定量的分析。另外,额外的数据处理会减慢网站的速度,搜集的数据越多,潜在的负面影响越大。

  习惯分析

  对用户浏览过的页面进行内容分析,根据信息主题对页面进行聚类。

  聚类过程中除了考虑页面内容相近程度,还应该考虑页面路径。

  把用户浏览行为对其兴趣的作用列入聚类结果,得到综合评估模型。

  用户兴趣分偶然和稳定两种情况,其中偶然可以认为是随机变化的,稳定的挖掘又有基于内容和行为两种方式,在内容上表现有重复度、相似度等,在行为上表现有停留时长、点此次数、拉动滚动条次数等。

  实际案例

  类似系统、浏览器、分辨率的客户端分析,常见而且简单,略过。

  关于鼠标轨迹、点击分布的可用性例子:

  跟踪用户在进行检索时的鼠标移动轨迹,可以获取用户操作的先后顺序、热点功能、动作曲线等一手数据,这些都是改善或简化表单的重要参考。
在重要的页面进行详细的点击分布监控统计,主要检查信息呈现的易用性,看看有没有偏离设计初衷,经常更新,找到规律。

  处理特定用户行为、用户群、用户来路的任务流例子:

  监控分布式注册流程,能够看到有多少用户填了表单、填完了表单,或者在某个步骤有异常流失。
 
  监控不同模块入口过来的注册用户,能够统计出各模块导入的有效注册量、百分比、成功率,以便合理调配资源。
 
  监控投放广告过来的注册量、注册成功率、转换付费用户成功率,以便明确广告的投入产出比。

    监控用户的纵深浏览行为,是测试导航可用性很好的办法,也就是说用户会不会在你的网站内迷路。

close