APP下载

网上书店订单数据关联数据分析

2015-01-20江霞

电脑知识与技术 2014年36期
关键词:关联规则数据挖掘

江霞

摘要:数据挖掘技术在网上书店系统中起着重要作用,使用数据挖掘技术分析订单数据,通过关联规则挖掘得到相同种类图书之间和不同种类图书之间的关联关系,根据分析结果可以在客户下订单时,为客户推荐相关书籍,从而增加销售额。该文介绍网上书店订单数据关联分析的过程和结果。

关键词:数据挖掘;关联规则;网上书店;商品推荐

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2014)36-8597-02

网上书店以其图书数量大、品种多、检索方便、价格相对便宜、突破了时间和空间的限制等优势吸引了读者,图书购买的需求已是网上书店读者的首要需求。为了能够充分满足以及了解使用者的需求,开发一套网上书店管理信息系统是必要的。从商务网站系统中得到的大量数据用数据库保存起来,在竞争日益激烈的知识经济环境下,数据库不再只是用于查询、输出报表等一般的用途,还要在众多的数据中挖掘出有用的知识以便作为决策支持。

1 数据挖掘在网上书店的应用

数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。它综合利用了统计学、模式识别、人工智能、机器学习、神经网络等学科的知识,从大量信息中提取有用的模式和规律,以辅助决策。

考察书店中涉及许多交易的事务:事务 1 中出现了书甲,事务 2 中出现了书乙,事务 3 中则同时出现了书甲和书乙。那么,书甲和书乙在事务中的出现相互之间是否有规律可循呢?在网上书店的前端订单系统收集存储了大量的购书数据,这些数据是一条条的购买事务记录,每条记录存储了事务处理时间,顾客购买的书籍、物品的数量及金额等。这些数据中常常隐含形式如下的关联规则:在购买 JSP 书的顾客当中,有 70%的人同时购买了 Java 图书。这些关联规则很有价值,书店管理人员可以根据这些关联规则更好地规划书店,如把 Java 和 JSP 图书其中一种促销,能够促进另一种通图书的销售。

2 数据库准备

根据上面的数据库需求分析及系统功能模块的划分,网上书店系统数据库主要包括如下几张表,其中用户表和订单表部分字段设置如表1、表2所示。

· _user(用户)表 (表1),用来存储用户信息。

表1 _user表

[字段名\&数据类型\&备注\&userid\&Int not null\&用户ID,自动增加\&username\&Nvarchar(50) not null\&用户名,主键\&useremail\&Nvarchar(50) not null\&用户email\&password\&Nvarchar(50) not null\&用户密码\&]

· myorder(我的订单)表 (表2),用来存储用户购买图书的信息。

表2 myorder表

[字段名\&数据类型\&备注\&Myorder_id\&int not null\&订单ID,自动增加,主键\&username\&Nvarchar(50)\&订单的用户名\&name\&Nvarchar(255)\&购买的商品名称\&]

3 数据分析

网上书店订单数据的关联规则频繁项集挖掘可采用 Apriori 算法实现。假设当日销售的数据库中的一段事务数据,数据库中有 10 个事务,即|D|=10。Apriori 假定事务中的项按字典次序存放,Ik代表具体的书目或者一类图书,比如I1-Java 类图书,I2-JSP 图书,I3-数据挖掘图书,I4-C 语言图书,I5-网页制作图书等等。

打开Microsoft SQL Server 2005中的Business Intelligence Development Studio, 在解决方案资源管理器中为数据库ZT新建数据源、为view_myorder, view_user新建数据源视图,新建挖掘结构。

在解决资源管理器中基于ZT数据源和数据源视图新建名为User.dmm的关联规则挖掘结构。选取“_user”为事例表,“myorder”为嵌套表,将事例表_user的username字段选取为键列,将嵌套表myorder的name字段选取为键列、输入列和可预测列,勾选“运行钻取”,最后点击“完成”按钮。

先看看顾客的购买记录,如表3所示。

表3 顾客的购买记录表

[用户名\&购买的图书\&C1\&数据库,数据结构,离散数学,计算机网络,C语言程序设计案例教程,计算机组成原理\&C2\&操作系统,离散数学,C语言程序设计案例教程,计算机组成原理\&C3\&数据结构,数据库,计算机网络,C语言程序设计案例教程\&C4\&离散数学,C语言程序设计案例教程\&]

点击“挖掘模型查看器”,可以在“项集”这个选项中,设置“最低支持”和“最小项集大小”。

点击“挖掘模型预测”,可以对顾客的购买记录进行关联、序列分析。

1) 查看哪些商品会一起购买(针对关联模型创建预测查询)

首先在挖掘模型对话框中点击“选择模型”,选择ZT下的User,点击“确定”按钮,在下面网格中“源”处,选择“预测函数”,在“字段”处选择“PredictAssociation”,将挖掘模型中的myorder托放到条件/参数中,并在后添加,3,点击“结果”。

2) 给定一种商品或两种商品,查看和它一起购买的商品以及一起购买此商品的概率(向单独预测查询添加输入和概率)

单击“单独查询按钮”,在单独查询输入中添加“C语言”,挖掘模型也选择ZT下的User,在下面网格中“源”处,选择“预测函数”,在“字段”处选择“PredictAssociation”,将挖掘模型中的myorder托放到条件/参数中,并在后添加include_statistics6,点击“结果”。

4 结束语

本文以网上书店为平台,介绍顾客购书订单模块的数据库的设计,并用SQL Server 2005的Business intelligence development studio对商务网站交易数据进行关联分析,发现被顾客购买的商品之间的关联,为商品导购提供数据支持。

参考文献:

[1] 马刚.关联规则挖掘在电子商务中的研究与应用[D].上海:上海交通大学,2008:40-44.

[2] 魏建香,冯春辉.SQL Server 数据库应用技术[M].北京:中国计划出版社,2007:8-9.

[3] 谢邦昌.商务智能与数据挖掘 Microsoft SQL Server应用[M].北京:机械工业出版社,2008:35-40.

[4] 左凤朝.基于 Web 的数据库访问技术探析[J].计算机工程与应用,2005,52(15).

[5] John H.Heinrichs,Jeen-Su Lim.Integrating Web-based Data Mining Tools with Business Models for Knowledge Management[J].Decision Support Systems,2003,35.endprint

摘要:数据挖掘技术在网上书店系统中起着重要作用,使用数据挖掘技术分析订单数据,通过关联规则挖掘得到相同种类图书之间和不同种类图书之间的关联关系,根据分析结果可以在客户下订单时,为客户推荐相关书籍,从而增加销售额。该文介绍网上书店订单数据关联分析的过程和结果。

关键词:数据挖掘;关联规则;网上书店;商品推荐

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2014)36-8597-02

网上书店以其图书数量大、品种多、检索方便、价格相对便宜、突破了时间和空间的限制等优势吸引了读者,图书购买的需求已是网上书店读者的首要需求。为了能够充分满足以及了解使用者的需求,开发一套网上书店管理信息系统是必要的。从商务网站系统中得到的大量数据用数据库保存起来,在竞争日益激烈的知识经济环境下,数据库不再只是用于查询、输出报表等一般的用途,还要在众多的数据中挖掘出有用的知识以便作为决策支持。

1 数据挖掘在网上书店的应用

数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。它综合利用了统计学、模式识别、人工智能、机器学习、神经网络等学科的知识,从大量信息中提取有用的模式和规律,以辅助决策。

考察书店中涉及许多交易的事务:事务 1 中出现了书甲,事务 2 中出现了书乙,事务 3 中则同时出现了书甲和书乙。那么,书甲和书乙在事务中的出现相互之间是否有规律可循呢?在网上书店的前端订单系统收集存储了大量的购书数据,这些数据是一条条的购买事务记录,每条记录存储了事务处理时间,顾客购买的书籍、物品的数量及金额等。这些数据中常常隐含形式如下的关联规则:在购买 JSP 书的顾客当中,有 70%的人同时购买了 Java 图书。这些关联规则很有价值,书店管理人员可以根据这些关联规则更好地规划书店,如把 Java 和 JSP 图书其中一种促销,能够促进另一种通图书的销售。

2 数据库准备

根据上面的数据库需求分析及系统功能模块的划分,网上书店系统数据库主要包括如下几张表,其中用户表和订单表部分字段设置如表1、表2所示。

· _user(用户)表 (表1),用来存储用户信息。

表1 _user表

[字段名\&数据类型\&备注\&userid\&Int not null\&用户ID,自动增加\&username\&Nvarchar(50) not null\&用户名,主键\&useremail\&Nvarchar(50) not null\&用户email\&password\&Nvarchar(50) not null\&用户密码\&]

· myorder(我的订单)表 (表2),用来存储用户购买图书的信息。

表2 myorder表

[字段名\&数据类型\&备注\&Myorder_id\&int not null\&订单ID,自动增加,主键\&username\&Nvarchar(50)\&订单的用户名\&name\&Nvarchar(255)\&购买的商品名称\&]

3 数据分析

网上书店订单数据的关联规则频繁项集挖掘可采用 Apriori 算法实现。假设当日销售的数据库中的一段事务数据,数据库中有 10 个事务,即|D|=10。Apriori 假定事务中的项按字典次序存放,Ik代表具体的书目或者一类图书,比如I1-Java 类图书,I2-JSP 图书,I3-数据挖掘图书,I4-C 语言图书,I5-网页制作图书等等。

打开Microsoft SQL Server 2005中的Business Intelligence Development Studio, 在解决方案资源管理器中为数据库ZT新建数据源、为view_myorder, view_user新建数据源视图,新建挖掘结构。

在解决资源管理器中基于ZT数据源和数据源视图新建名为User.dmm的关联规则挖掘结构。选取“_user”为事例表,“myorder”为嵌套表,将事例表_user的username字段选取为键列,将嵌套表myorder的name字段选取为键列、输入列和可预测列,勾选“运行钻取”,最后点击“完成”按钮。

先看看顾客的购买记录,如表3所示。

表3 顾客的购买记录表

[用户名\&购买的图书\&C1\&数据库,数据结构,离散数学,计算机网络,C语言程序设计案例教程,计算机组成原理\&C2\&操作系统,离散数学,C语言程序设计案例教程,计算机组成原理\&C3\&数据结构,数据库,计算机网络,C语言程序设计案例教程\&C4\&离散数学,C语言程序设计案例教程\&]

点击“挖掘模型查看器”,可以在“项集”这个选项中,设置“最低支持”和“最小项集大小”。

点击“挖掘模型预测”,可以对顾客的购买记录进行关联、序列分析。

1) 查看哪些商品会一起购买(针对关联模型创建预测查询)

首先在挖掘模型对话框中点击“选择模型”,选择ZT下的User,点击“确定”按钮,在下面网格中“源”处,选择“预测函数”,在“字段”处选择“PredictAssociation”,将挖掘模型中的myorder托放到条件/参数中,并在后添加,3,点击“结果”。

2) 给定一种商品或两种商品,查看和它一起购买的商品以及一起购买此商品的概率(向单独预测查询添加输入和概率)

单击“单独查询按钮”,在单独查询输入中添加“C语言”,挖掘模型也选择ZT下的User,在下面网格中“源”处,选择“预测函数”,在“字段”处选择“PredictAssociation”,将挖掘模型中的myorder托放到条件/参数中,并在后添加include_statistics6,点击“结果”。

4 结束语

本文以网上书店为平台,介绍顾客购书订单模块的数据库的设计,并用SQL Server 2005的Business intelligence development studio对商务网站交易数据进行关联分析,发现被顾客购买的商品之间的关联,为商品导购提供数据支持。

参考文献:

[1] 马刚.关联规则挖掘在电子商务中的研究与应用[D].上海:上海交通大学,2008:40-44.

[2] 魏建香,冯春辉.SQL Server 数据库应用技术[M].北京:中国计划出版社,2007:8-9.

[3] 谢邦昌.商务智能与数据挖掘 Microsoft SQL Server应用[M].北京:机械工业出版社,2008:35-40.

[4] 左凤朝.基于 Web 的数据库访问技术探析[J].计算机工程与应用,2005,52(15).

[5] John H.Heinrichs,Jeen-Su Lim.Integrating Web-based Data Mining Tools with Business Models for Knowledge Management[J].Decision Support Systems,2003,35.endprint

摘要:数据挖掘技术在网上书店系统中起着重要作用,使用数据挖掘技术分析订单数据,通过关联规则挖掘得到相同种类图书之间和不同种类图书之间的关联关系,根据分析结果可以在客户下订单时,为客户推荐相关书籍,从而增加销售额。该文介绍网上书店订单数据关联分析的过程和结果。

关键词:数据挖掘;关联规则;网上书店;商品推荐

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2014)36-8597-02

网上书店以其图书数量大、品种多、检索方便、价格相对便宜、突破了时间和空间的限制等优势吸引了读者,图书购买的需求已是网上书店读者的首要需求。为了能够充分满足以及了解使用者的需求,开发一套网上书店管理信息系统是必要的。从商务网站系统中得到的大量数据用数据库保存起来,在竞争日益激烈的知识经济环境下,数据库不再只是用于查询、输出报表等一般的用途,还要在众多的数据中挖掘出有用的知识以便作为决策支持。

1 数据挖掘在网上书店的应用

数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。它综合利用了统计学、模式识别、人工智能、机器学习、神经网络等学科的知识,从大量信息中提取有用的模式和规律,以辅助决策。

考察书店中涉及许多交易的事务:事务 1 中出现了书甲,事务 2 中出现了书乙,事务 3 中则同时出现了书甲和书乙。那么,书甲和书乙在事务中的出现相互之间是否有规律可循呢?在网上书店的前端订单系统收集存储了大量的购书数据,这些数据是一条条的购买事务记录,每条记录存储了事务处理时间,顾客购买的书籍、物品的数量及金额等。这些数据中常常隐含形式如下的关联规则:在购买 JSP 书的顾客当中,有 70%的人同时购买了 Java 图书。这些关联规则很有价值,书店管理人员可以根据这些关联规则更好地规划书店,如把 Java 和 JSP 图书其中一种促销,能够促进另一种通图书的销售。

2 数据库准备

根据上面的数据库需求分析及系统功能模块的划分,网上书店系统数据库主要包括如下几张表,其中用户表和订单表部分字段设置如表1、表2所示。

· _user(用户)表 (表1),用来存储用户信息。

表1 _user表

[字段名\&数据类型\&备注\&userid\&Int not null\&用户ID,自动增加\&username\&Nvarchar(50) not null\&用户名,主键\&useremail\&Nvarchar(50) not null\&用户email\&password\&Nvarchar(50) not null\&用户密码\&]

· myorder(我的订单)表 (表2),用来存储用户购买图书的信息。

表2 myorder表

[字段名\&数据类型\&备注\&Myorder_id\&int not null\&订单ID,自动增加,主键\&username\&Nvarchar(50)\&订单的用户名\&name\&Nvarchar(255)\&购买的商品名称\&]

3 数据分析

网上书店订单数据的关联规则频繁项集挖掘可采用 Apriori 算法实现。假设当日销售的数据库中的一段事务数据,数据库中有 10 个事务,即|D|=10。Apriori 假定事务中的项按字典次序存放,Ik代表具体的书目或者一类图书,比如I1-Java 类图书,I2-JSP 图书,I3-数据挖掘图书,I4-C 语言图书,I5-网页制作图书等等。

打开Microsoft SQL Server 2005中的Business Intelligence Development Studio, 在解决方案资源管理器中为数据库ZT新建数据源、为view_myorder, view_user新建数据源视图,新建挖掘结构。

在解决资源管理器中基于ZT数据源和数据源视图新建名为User.dmm的关联规则挖掘结构。选取“_user”为事例表,“myorder”为嵌套表,将事例表_user的username字段选取为键列,将嵌套表myorder的name字段选取为键列、输入列和可预测列,勾选“运行钻取”,最后点击“完成”按钮。

先看看顾客的购买记录,如表3所示。

表3 顾客的购买记录表

[用户名\&购买的图书\&C1\&数据库,数据结构,离散数学,计算机网络,C语言程序设计案例教程,计算机组成原理\&C2\&操作系统,离散数学,C语言程序设计案例教程,计算机组成原理\&C3\&数据结构,数据库,计算机网络,C语言程序设计案例教程\&C4\&离散数学,C语言程序设计案例教程\&]

点击“挖掘模型查看器”,可以在“项集”这个选项中,设置“最低支持”和“最小项集大小”。

点击“挖掘模型预测”,可以对顾客的购买记录进行关联、序列分析。

1) 查看哪些商品会一起购买(针对关联模型创建预测查询)

首先在挖掘模型对话框中点击“选择模型”,选择ZT下的User,点击“确定”按钮,在下面网格中“源”处,选择“预测函数”,在“字段”处选择“PredictAssociation”,将挖掘模型中的myorder托放到条件/参数中,并在后添加,3,点击“结果”。

2) 给定一种商品或两种商品,查看和它一起购买的商品以及一起购买此商品的概率(向单独预测查询添加输入和概率)

单击“单独查询按钮”,在单独查询输入中添加“C语言”,挖掘模型也选择ZT下的User,在下面网格中“源”处,选择“预测函数”,在“字段”处选择“PredictAssociation”,将挖掘模型中的myorder托放到条件/参数中,并在后添加include_statistics6,点击“结果”。

4 结束语

本文以网上书店为平台,介绍顾客购书订单模块的数据库的设计,并用SQL Server 2005的Business intelligence development studio对商务网站交易数据进行关联分析,发现被顾客购买的商品之间的关联,为商品导购提供数据支持。

参考文献:

[1] 马刚.关联规则挖掘在电子商务中的研究与应用[D].上海:上海交通大学,2008:40-44.

[2] 魏建香,冯春辉.SQL Server 数据库应用技术[M].北京:中国计划出版社,2007:8-9.

[3] 谢邦昌.商务智能与数据挖掘 Microsoft SQL Server应用[M].北京:机械工业出版社,2008:35-40.

[4] 左凤朝.基于 Web 的数据库访问技术探析[J].计算机工程与应用,2005,52(15).

[5] John H.Heinrichs,Jeen-Su Lim.Integrating Web-based Data Mining Tools with Business Models for Knowledge Management[J].Decision Support Systems,2003,35.endprint

猜你喜欢

关联规则数据挖掘
基于并行计算的大数据挖掘在电网中的应用
一种基于Hadoop的大数据挖掘云服务及应用
数据挖掘的分析与探索
基于GPGPU的离散数据挖掘研究