用户的电商行为识别方法及装置与流程-k8凯发

文档序号：35528731发布日期：2023-09-21 05:55阅读：6来源：国知局

导航：>>

1.本技术涉及it应用技术领域，具体涉及一种用户的电商行为识别方法及装置。

背景技术：

2.当前识别运营商用户的电商平台访问行为，主要通过以下方式：通过从空口获取应用统一资源定位符(universal resource locator，url)地址及用户上网应用数据或者通过用户应用数据中url拨测获得业务数据、特征数据，建立url与业务、特征映射关系。对待行为识别用户的数据提供两种处理方式：一种采用正则计算直接获取其聚合特征，另一种采用深度神经网络算法进行业务特征预测。所有应用数据、特征都为字符文本数据或者位置数据，不涉及图片数据。
3.基于上网数据分析用户的上网行为主要是通过url地址库匹配用户访问的网址，然后对用户打标签来实现。url地址库一般采用网页内容提取和识别技术对url进行分类来构建，但是，该方式存在如下缺点：
4.通过url获取的信息仅有网站名称，无法更细粒度的映射到url分类库；
5.在不同的网站改版后，需要重新识别并对url等应用特征进行分类，url地址库更新工作量巨大。

技术实现要素：

6.本技术实施例提供一种用户的电商行为识别方法，用以解决如何准确识别用户的电商行为的技术问题。
7.第一方面，本技术实施例提供一种用户的电商行为识别方法，包括：
8.根据电商应用程序的应用数据，确定训练数据；
9.根据所述训练数据，自编码算法和卷积神经网络模型，确定图片识别模型；
10.根据目标用户访问的图片和所述图片识别模型，识别目标用户的电商行为。
11.在一个实施例中，所述根据电商应用程序的应用数据，确定训练数据，包括：
12.根据电商应用程序的应用数据，确定商品知识图库；
13.根据所述商品知识图库，对所述应用数据中的图片进行归类；
14.对归类后的图片对应的商品类型进行编码，确定训练数据。
15.在一个实施例中，所述根据所述训练数据，自编码算法和卷积神经网络模型，确定图片识别模型，包括：
16.根据所述训练数据，确定测试集和训练集；
17.根据自编码算法对所述测试集和训练集进行信息提取；
18.根据信息提取后的训练集，训练卷积神经网络模型；
19.根据信息提取后的测试集，对训练后的卷积神经网络模型进行验证，确定图片识别模型。
20.在一个实施例中，所述根据目标用户访问的图片和所述图片识别模型，识别目标
用户的电商行为，包括：
21.将所述目标用户访问的图片，输入所述图片识别模型；
22.根据所述图片识别模型的输出结果中概率最大值对应的商品类型，确定所述目标用户的电商行为。
23.在一个实施例中，所述用户的电商行为识别方法，还包括：
24.根据所述目标用户的电商行为，以及目标用户的偏好标签，预测所述目标用户未来浏览的商品类型。
25.在一个实施例中，所述对归类后的图片对应的商品类型进行编码，确定训练数据，包括：
26.根据预设规则对归类后的图片对应的商品类型进行编码，确定所述归类后的图片的类型编码；
27.通过均值归一化将所述类型编码的数量级转换为统一范围；
28.根据统一范围后的类型编码对应的图片，确定训练数据。
29.在一个实施例中，所述目标用户访问的图片，通过以下方式确定：
30.根据目标用户的电商行为访问的数据，在所述应用数据中确定图片统一资源标志符uri信息；
31.根据所述uri信息，确定目标用户访问的图片。
32.第二方面，本技术实施例提供一种用户的电商行为识别装置，包括：
33.确定模块，用于根据电商应用程序的应用数据，确定训练数据；
34.建模模块，用于根据所述训练数据，自编码算法和卷积神经网络模型，确定图片识别模型；
35.识别模块，用于根据目标用户访问的图片和所述图片识别模型，识别目标用户的电商行为。
36.第三方面，本技术实施例提供一种电子设备，包括处理器和存储有计算机程序的存储器，所述处理器执行所述程序时实现第一方面所述的用户的电商行为识别方法。
37.第四方面，本技术实施例提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现第一方面所述的用户的电商行为识别方法。
38.本技术实施例提供的用户的电商行为识别方法、装置、电子设备以及计算机程序产品，通过爬取主流电商应用程序来获取应用数据，以及结合自编码算法和卷积神经网络模型构建图片识别模型，图片识别模型包括了电商应用程序的所有商品图片信息，根据目标用户访问的图片来识别目标用户的电商行为，可以提高用户的电商行为识别的准确性。
附图说明
39.为了更清楚地说明本技术或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
40.图1是本技术实施例提供的用户的电商行为识别方法的流程示意图；
41.图2是应用本技术实施例提供的用户的电商行为识别方法的架构示意图；
42.图3是本技术实施例提供的用户的电商行为识别方法装置的结构示意图；
43.图4是本技术实施例提供的电子设备的结构示意图。
具体实施方式
44.为使本技术的目的、技术方案和优点更加清楚，下面将结合本技术实施例中的附图，对本技术中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
45.图1为本技术实施例提供的用户的电商行为识别方法的流程示意图。参照图1，本技术实施例提供的用户的电商行为识别方法，可以包括：
46.步骤110、根据电商应用程序的应用数据，确定训练数据；
47.步骤120、根据训练数据，自编码算法和卷积神经网络模型，确定图片识别模型；
48.步骤130、根据目标用户访问的图片和图片识别模型，识别目标用户的电商行为。
49.需要说明的是，本技术实施例提供的用户的电商行为识别方法的执行主体可以是电子设备、电子设备中的部件、集成电路、或芯片。该电子设备可以是移动电子设备，也可以为非移动电子设备。示例性的，移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer，umpc)、上网本或者个人数字助理(personal digital assistant，pda)等，非移动电子设备可以为服务器、网络附属存储器(network attached storage，nas)、个人计算机(personal computer，pc)、电视机(television，tv)、柜员机或者自助机等，本技术不作具体限定。
50.可选地，在步骤110中，根据电商应用程序的应用数据，确定训练数据。
51.电商应用程序即用户在进行电商行为时使用的应用程序，例如，当用户想要在网上购买某个商品时，用户可以通过购物网站查询浏览该商品，也可以通过购物app浏览该商品。其中，电商应用程序的数量可以是一个或多个。
52.应用数据可以包括：商品分类、商品信息、商品图片统一资源标示符(universal resource identifier，uri)、目标应用软件的名称、上网设备的机型、网络抓包url等。
53.可以通过采集模块来定时采集主流电商软件的应用数据。采集模块预先设置有模拟访问脚本以及自动化抓包工具，模拟访问脚本预先定义了访问命令和访问类型之间的对应关系，当运行该模拟脚本时，可以通过预先定义的访问命令执行该访问命令对应的访问类型。通过对采集到的应用数据进行清洗、归类等数据处理，形成训练数据。
54.在步骤120中，根据训练数据，自编码算法和卷积神经网络模型，确定图片识别模型。
55.可选地，自编码算法可以是auto-encoding自编码算法，非监督的自编码模型有利于萃取图片中的关键信息，达成数据增强的效果，从而降低了对训练数据量的依赖，使整个图片识别框架在有限算力条件下，可以支持更多种类的图片识别。
56.卷积神经网络模型可以是resnet50预训练模型，resnet50是残差网络(residual network)的一种典型网络架构，卷积神经网络算法可以用于目标分类等领域以及作为计算机视觉任务主干经典神经网络的一部分。
57.部署集成了auto-encoding和resnet50算法的图像识别框架，通过加载训练数据
的索引值，对手机商品“x品牌y型号手机”生成“手机10001”。
76.对关键信息进行编码的目的是为了区分不同的关键信息，因此，编码方式也可以人为设定。例如，不同的图片信息中包含的分辨率不同，包括310*310、500*500、100*100等，在对分辨率编码时，可以将每一分辨率对应到编码的一个数据位上，以310*310、500*500、100*100三个分辨率为例，使用三个数据位进行编码，分别为0310、0500和0100，即分辨率填入的数据位。
77.在对每一维的关键信息编码之后，不同维度的编码对应的数据长度不同，数量级也不同，直接使用该编码形成的训练数据无法训练识别模型。因此，将所有维度的编码通过对齐转换为同一长度，通过归一化将所有维度的编码的数量级转换为统一范围。例如，可以通过将每个维度相较于其他维度缺失的长度补0的方式对齐。通过均值归一化将所有维度的编码的数量级转换到统一范围。
78.本技术实施例提供的用户的电商行为识别方法，通过对应用数据中的商品信息及图片信息对应的商品类型进行编码，得到训练数据，根据训练数据训练得到的图片识别模型即包括了电商应用程序的所有商品图片信息，进一步提高了用户的电商行为识别的准确率。
79.在一个实施例中，根据训练数据，自编码算法和卷积神经网络模型，确定图片识别模型，包括：
80.根据训练数据，确定测试集和训练集；
81.根据自编码算法对测试集和训练集进行信息提取；
82.根据信息提取后的训练集，训练卷积神经网络模型；
83.根据信息提取后的测试集，对训练后的卷积神经网络模型进行验证，确定图片识别模型。
84.可选地，部署集成了auto-encoding和resnet50算法的图片识别框架，加载训练数据训练即可得到图片识别模型。首先使用auto-encoding对训练数据进行编码解码的步骤，然后经过了信息提炼后的训练数据作为输入代入到残差网络中，确定图片识别模型。
85.下面结合具体场景描述本技术实施例提供的用户的电商行为识别方法的流程，具体步骤如下：
86.自编码模型(auto-encoding)的训练与评测，可以包括：
87.步骤1、将原始图片信息分为训练集和测试集两部分；
88.例如，可以将10000张图片，其中5000张图片作为训练集，5000张作为测试集。
89.步骤2、以mse作为损失函数，完成编码和解码两个部分的训练；
90.步骤3、在测试数据使用训练完成的模型进行评测，mse可以达到579.337的水平。
91.残差网络(resnet50)的训练与评测，可以包括：
92.步骤1、将经过了自编码器的编解码步骤的训练集图片作为残差网络训练集，同样的，经过编解码的测试集图片作为残差网络的测试集；
93.步骤2、将训练集根据业务分类存放，设置训练识别商品类型分类数量n及对应训练集地址；
94.步骤3、输入所述训练集至resnet50神经网络并预设训练迭代次数1000次，损失值e-5，进行训练；
95.步骤4、通过resnet50网络及其他预设的神经网络输出的特征为1024的一维向量；
96.步骤5、将所述1024组一维向量输入softmax分类器中计算得n维概率向量；
97.步骤6、训练过程中每100次迭代记录一次f1值和准确率，结果如下表：
98.表2每个100次迭代效果表
99.100次迭代序号f1准确率10.6570％20.7278％30.8292％40.8188％50.891％60.7890％70.7692％80.7783％90.879％100.876％
100.步骤7、取f1为0.82，准确率92％的第3轮迭代对应模型为最优模型；
101.步骤8、将所述测试集输入最优图像识别模型中得到观察识别准确率和f1值；
102.步骤9、当所述测试准确率大于预设准确率阈值85％时，输出与所述测试通过率阈值对应的图像识别模型作为最终得到的图像识别模型。
103.通过最终图像识别模型迁移学习得到其他各类商品的图像识别模型，可以包括：
104.步骤1、根据计算资源最优性能先设定n为50，代表50类商品，后续根据商品分类总数按50一组进行拆分；
105.步骤2、对新拆分的商品分类划分训练集和测试集；
106.步骤3、将训练集输入上步的最终图像识别模型，重复上述步骤5-步骤9的过程，得到新的各类商品的识别模型。
107.本技术实施例提供的用户的电商行为识别方法，通过自编码算法对训练数据进行关键信息提取，然后将信息提取后的训练数据作为输入来训练卷积神经网络模型，得到图片识别模型。本技术实施例训练得到的识别模型包括了电商应用程序的所有商品图片信息，与现有技术中通过数据库匹配方式进行识别的方法相比，识别的准确率更高。
108.在一个实施例中，根据目标用户访问的图片和图片识别模型，识别目标用户的电商行为，包括：
109.将目标用户访问的图片，输入图片识别模型；
110.根据图片识别模型的输出结果中概率最大值对应的商品类型，确定目标用户的电商行为。
111.可选地，将目标用户此次的电商行为访问的图片，输入到训练好的图片识别模型中，模型输出结果为n类产品品类的概率x，x为[x1，x2，x3
…
xn]，xi为第i种商品的几率，将概率最大值对应的商品类型作为目标用户此次电商行为访问的商品类型。
[0112]
本技术实施例提供的用户的电商行为识别方法，通过基于图片与商品及分类的关系较为稳定的核心提出利用卷积神经网络算法构建图片识别模型，同时图片与应用程序的
对应关系较为稳定，可以避免高频率地随应用程序的更新而更新。
[0113]
在一个实施例中，本技术提供的用户的电商行为识别方法，还包括：
[0114]
根据目标用户的电商行为，以及目标用户的偏好标签，预测目标用户未来浏览的商品类型。
[0115]
可选地，根据识别出的目标用户的电商行为，即目标用户浏览的商品类型x，以及目标用户的当前偏好标签c，预测目标用户未来浏览的商品类型。例如，建立判别模型：f(x，c)-》y。其中，y为未来浏览的商品。
[0116]
本技术实施例提供的用户的电商行为识别方法，通过基于图片与商品及分类的关系较为稳定的核心提出利用卷积神经网络算法构建图片识别模型，该模型能够利用不断产生的新样本和预测数据在线按日动态训练模型已有参数，提高模型的泛化能力，更适用于用户电商行为识别领域。
[0117]
在一个实施例中，目标用户访问的图片，通过以下方式确定：
[0118]
根据目标用户的电商行为访问的数据，在应用数据中确定图片统一资源标志符uri信息；
[0119]
根据uri信息，确定目标用户访问的图片。
[0120]
可选地，可通过采集模块实时采集目标用户的电商行为访问的数据，通过加载用户访问的数据，识别应用数据包括域名(host)、图片统一资源标志符(uri)信息，根据uri获取对应的图片，即可确定目标用户访问的图片。
[0121]
本技术实施例提供的用户的电商行为识别方法，通过uri定位用户访问的图片，加载到图片识别算法，完成图片到电商商品分类及概率的转换，有效规避了url中捎带的信息减少和信息加密等问题，同时图片识别归类比信息识别归类更稳定。
[0122]
图2是应用本技术实施例提供的用户的电商行为识别方法的架构示意图；参照图2，本技术实施例提供的用户的电商行为识别方法的架构可以包括：数据etl模块、电商商品知识图库模块、图片识别算法模块和用户行为标签模块。
[0123]
其中，数据etl模块，用于定时采集主流电商软件应用数据，和根据用户行为识别需求实时采集用户电商访问图片信息。
[0124]
电商商品知识图库模块，用于存储主流电商软件的应用数据，包括商品体系、商品分类、商品图库等信息。
[0125]
图片识别算法模块，基于auto-encoding自编码算法结合resnet50预训练模型的图片识别框架用于电商图片的分类。针对采集到的多个品类商品图像，可以进行完成精准识别。
[0126]
用户行为标签模块，用于管理用户商品行为标签，提供用户电商访问记录的处理，推动数据etl完成指定uri图片的采集，并同步到图片识别算法模块进行识别，收取识别结果，经过剔重后关联对应的客户。
[0127]
本技术实施例通过爬取主流电商应用软件，以获取应用数据，构建统一的商品体系及商品图库，与现有的通过拨测方式建立url与业务数据的对应关系的方式相比，更灵活便捷；同时图片与应用的对应关系较为稳定，避免高频率地随应用软件的更新而更新；解决了传统的url目录库更新不及时的问题，通过商品分类图库构建的图片识别模型对用户行为还原更精准。
[0128]
此外，通过对用户电商访问记录中uri图片进行识别，一方面解决了通过url方式识别的粒度较粗问题，另外一方面也解决了电商站点保密性带来的信息不可读问题。
[0129]
进一步地，对应用软件数据中的商品信息及图片信息对应的商品类型进行编码，得到训练数据和验证数据，根据训练数据训练卷积神经网络模型，并通过验证数据进行验证得到图片识别模型，根据识别模型对用户的电商访问记录进行识别。本技术实施例训练得到的识别模型包括了电商应用软件的所有商品图片信息，与现有技术中通过数据库匹配方式进行识别的方法相比，识别的准确率更高。
[0130]
下面对本技术实施例提供的用户的电商行为识别装置进行描述，下文描述的用户的电商行为识别装置与上文描述的用户的电商行为识别方法可相互对应参照。
[0131]
图3是本技术实施例提供的用户的电商行为识别装置的结构示意图。参考图3，本技术实施例提供的用户的电商行为识别装置，可以包括：
[0132]
确定模块310，用于根据电商应用程序的应用数据，确定训练数据；
[0133]
建模模块320，用于根据训练数据，自编码算法和卷积神经网络模型，确定图片识别模型；
[0134]
识别模块330，用于根据目标用户访问的图片和图片识别模型，识别目标用户的电商行为。
[0135]
本技术实施例提供的用户的电商行为识别装置，通过爬取主流电商应用程序来获取应用数据，以及结合自编码算法和卷积神经网络模型构建图片识别模型，图片识别模型包括了电商应用程序的所有商品图片信息，根据目标用户访问的图片来识别目标用户的电商行为，可以提高用户的电商行为识别的准确性。
[0136]
在一个实施例中，确定模块310具体用于：
[0137]
根据电商应用程序的应用数据，确定商品知识图库；
[0138]
根据商品知识图库，对应用数据中的图片进行归类；
[0139]
对归类后的图片对应的商品类型进行编码，确定训练数据。
[0140]
在一个实施例中，建模模块320具体用于：
[0141]
根据训练数据，确定测试集和训练集；
[0142]
根据自编码算法对测试集和训练集进行信息提取；
[0143]
根据信息提取后的训练集，训练卷积神经网络模型；
[0144]
根据信息提取后的测试集，对训练后的卷积神经网络模型进行验证，确定图片识别模型。
[0145]
在一个实施例中，识别模块330具体用于：
[0146]
将目标用户访问的图片，输入图片识别模型；
[0147]
根据图片识别模型的输出结果中概率最大值对应的商品类型，确定目标用户的电商行为。
[0148]
在一个实施例中，本技术提供的数用户的电商行为识别装置，还包括：
[0149]
预测模块，用于根据目标用户的电商行为，以及目标用户的偏好标签，预测目标用户未来浏览的商品类型。
[0150]
在一个实施例中，对归类后的图片对应的商品类型进行编码，确定训练数据，包括：
[0151]
根据预设规则对归类后的图片对应的商品类型进行编码，确定归类后的图片的类型编码；
[0152]
通过均值归一化将类型编码的数量级转换为统一范围；
[0153]
根据统一范围后的类型编码对应的图片，确定训练数据。
[0154]
在一个实施例中，目标用户访问的图片，通过以下方式确定：
[0155]
根据目标用户的电商行为访问的数据，在应用数据中确定图片统一资源标志符uri信息；
[0156]
根据uri信息，确定目标用户访问的图片。
[0157]
图4示例了一种电子设备的实体结构示意图，如图4所示，该电子设备可以包括：处理器(processor)410、通信接口(communication interface)420、存储器(memory)430和通信总线440，其中，处理器410，通信接口420，存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的计算机程序，以执行上述各实施例所提供的用户的电商行为识别方法，例如包括：
[0158]
根据电商应用程序的应用数据，确定训练数据；
[0159]
根据训练数据，自编码算法和卷积神经网络模型，确定图片识别模型；
[0160]
根据目标用户访问的图片和图片识别模型，识别目标用户的电商行为。
[0161]
此外，上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0162]
另一方面，本技术实施例还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各实施例所提供的用户的电商行为识别方法，例如包括：
[0163]
根据电商应用程序的应用数据，确定训练数据；
[0164]
根据训练数据，自编码算法和卷积神经网络模型，确定图片识别模型；
[0165]
根据目标用户访问的图片和图片识别模型，识别目标用户的电商行为。
[0166]
另一方面，本技术实施例还提供一种处理器可读存储介质，所述处理器可读存储介质存储有计算机程序，所述计算机程序用于使处理器执行上述各实施例提供的用户的电商行为识别方法，例如包括：
[0167]
根据电商应用程序的应用数据，确定训练数据；
[0168]
根据训练数据，自编码算法和卷积神经网络模型，确定图片识别模型；
[0169]
根据目标用户访问的图片和图片识别模型，识别目标用户的电商行为。
[0170]
所述处理器可读存储介质可以是处理器能够存取的任何可用介质或数据存储设备，包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(mo)等)、光学存储器(例如cd、
dvd、bd、hvd等)、以及半导体存储器(例如rom、eprom、eeprom、非易失性存储器(nand flash)、固态硬盘(ssd))等。
[0171]
以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。
[0172]
通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0173]
最后应说明的是：以上实施例仅用以说明本技术的技术方案，而非对其限制；尽管参照前述实施例对本技术进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围。

当前第1页1