2. 湖北省水利水电科学研究院,湖北 武汉 430070;
3. 中南民族大学 计算机学院,湖北 武汉 430074
2. Hubei Water Resources Research Inst., Wuhan 430070, China;
3. College of Computer Sci., South–Central Univ. for Nationalities, Wuhan 430074, China
随着新能源技术的快速发展,电动汽车(electric vehicles,EV)逐渐普及。由于受车载电池技术的限制,EV需频繁地访问充电桩进行充电,在与充电桩进行交互的过程中,数据汇聚器将收集EV的充电位置数据,这些数据可为第三方科研机构和企业提供数据服务。例如,充电服务提供商和国家电网可根据充电位置数据分别对充电桩(站)的布置和输电线路进行优化。EV充电的系统模型[1]包含3个组件:EV、充电桩/站、数据汇聚器,如图1所示。其中:EV是插入式EV(PEV)或插入式混合EV(PHEV);充电桩是EV充电系统中与EV交互的前端接口;数据汇聚器用于收集EV相关数据,如EV用户的身份和位置信息等。值得注意的是,在所研究模型中,充电桩是可信的,只具有充电和标志充电位置的功能。EV与充电桩交互所产生位置信息是直接或通过充电桩代理传输至数据汇聚器。然而,数据汇聚器可能完全不可信,可能从EV的充电位置数据关联出车主的日常活动轨迹,这将导致充电位置的隐私泄露。为更好地保护EV的安全和隐私,许多学者进行了相关研究[2–4]。
![]() |
图1 EV充电系统模型 Fig. 1 Electric vehicle charging system model |
Yang等[5]首次阐述了V2G(vehicle-to-grid)的隐私保护问题,为保护EV用户的位置和身份信息,提出了基于身份部分盲签名的隐私保护数据汇聚方法。Jiang等[6]提出了一种针对V2G的关联性可控的群签名的隐私保护数据汇聚方法,抵御关联分析引起的敏感信息泄露。上述基于密码学技术的数据隐私汇聚方法,需要对原始数据进行加密,而后在不可信数据汇聚器上进行解密。虽然能够有效保护数据隐私,但运算代价过高。
Han等[7]针对分布式EV相关数据发布过程中的隐私泄露问题,提出了一种基于差分隐私保护技术的发布算法。Han等[8]利用差分隐私防止EV用户的恶意参与,同时,获得近似真实性以实现EV充电的优化调度。上述研究都是基于中心化差分隐私模型解决EV用户的隐私泄露问题,需假设数据汇聚器半可信(诚实但好奇),并不适用于数据汇聚器完全不可信的场景。
局部差分隐私是一种新颖的、完全分布式的隐私保护模型[9]。Kasiviswanathan等[10]首次提出局部差分隐私的概念,研究局部模型下的可解的学习问题。Erlingsson等[11]最早将局部差分隐私用于解决实际问题,所提出的RAPPOR方法利用随机响应和布隆过滤器技术隐私收集Chrome浏览器的用户设置的统计数据。Bassily和Smith等[12] 针对大敏感属性域(大小为k)情形,设计了一个基于随机映射矩阵(random projection matrix,RPM)的局部随机器,其思想是利用随机映射矩阵
Sei等[15]提出一种基于贝叶斯多伪的局部差分隐私算法。该算法是在重构过程中通过增加数据样本量以提高数据可用性。根据大数定律,样本量越大,其统计概率越接近真实值。在实际情况中,充电桩的数量比EV的数量少得多,因此不需要对充电桩位置进行降维处理。此外,EV的充电频率并不高,充电时产生的位置数据在一段时间内(如一个月)较稀疏。
针对EV充电时的隐私位置汇聚问题,作者考虑到EV访问一充电桩(站)进行充电时,不希望暴露真实的充电位置给不可信的数据汇聚器。而是发送伪装的充电位置给汇聚器。汇聚器在收集到全部的位置数据后,却能够重构访问充电桩的EV数量的统计分布。也就是说,不可信的汇聚器在不知道EV真实充电位置(为保护EV用户的位置隐私)的前提下,仍能够近似统计每个充电桩(位置)为多少辆EV提供过充电服务。
为实现这一目标,作者引入一种基于贝叶斯的随机多伪局部差分隐私算法(S2Mb)[15],设计一种保护EV充电位置的隐私位置汇聚方法(PLAM)。为提高方法的可用性,通过缩小隐私位置域,提出基于分区的隐私位置汇聚优化方法。作者对所设计的方法的隐私性进行了分析。同时,在合成和真实数据集上与基于随机映射矩阵的隐私空间数据汇聚方法(PCEM)进行对比实验,结果表明所设计的PLAM方法在可用性方面优于PCEM方法。
1 问题描述和隐私保护目标 1.1 问题描述充电桩(站)的位置是公开的。EV访问充电桩充电(充电事件)而产生的位置数据,如果直接被不可信的数据汇聚器收集,则EV的充电位置隐私可能被泄露。问题描述:假定位置域
局部差分隐私(local differential privacy,LDP)[10]的形式化定义如下:
定义1 随机算法
LDP模型是假定数据汇聚者不可信且具有任意背景知识,则在用户侧对数据进行扰动后发送给数据汇聚者,使得扰动结果似是而非。虽然LDP具有严格、可证明的隐私保护特性,但其缺点在于可用性比较差。通常情况下,输入域范围
随机响应(randomized response,RR)技术[16]是实现局部差分隐私的基本方法。该技术最初用于问卷调查的研究,不直接回复敏感问卷信息,而回复似是而非的结果,使收集者无法判定真实信息,但能够得到精确的统计结果。随机响应实现LDP的基本过程:
${{M}} = \left[ {\begin{array}{*{20}{c}} {{p_{1,1}}}& \cdots &{{p_{1,k}}} \\ \vdots &{}& \vdots \\ {{p_{k,1}}}& \cdots &{{p_{k,k}}} \end{array}} \right]$ | (1) |
$\tilde{{X}} = {{{M}}^{ - 1}}{{Y}}$ | (2) |
式中,
为了保护充电位置,EV一旦接入充电桩进行充电,则启动局部混淆算法(local obfuscation algorithm,LOA)。
算法1 局部混淆算法(LOA)
输入:
输出:
1. 初始化空集
2. 随机混淆
${R_i}=\left\{ \begin{aligned} & \left\{ {{l_i}} \right\} \cup RandElement\left( {\tau \backslash \left\{ {{l_i}} \right\},s - 1} \right),\;\;\;p{\text{;}} \\ & RandElement\left( {\tau \backslash \left\{ {{l_i}} \right\},s} \right),\;\;\;\;\;\;(1 - p){\text{。}} \end{aligned} \right.$ |
其中,
3. return
算法1的具体过程如下:首先,
隐私位置汇聚方法(private location aggregation method,PLAM)的目的是重构访问充电位置的EV数量分布。具体来说,数据汇聚器收集到隐私位置域
${w_k} = \sum\limits_{i \in V} {I\left( {{R_i},k} \right)} ,I\left( {{R_i},k} \right) = \left\{ {\begin{aligned} & {1, k \in {R_i}{\text{;}} } \\ & {0,k \notin {R_i}} \end{aligned}} \right.$ | (3) |
算法2 隐私位置汇聚方法(PLAM)
输入:汽车充电位置
输出:充电位置的EV数量分布
1. 汇聚器计算
$\;\;\;\;\;\;{\rm{}}p = {{{{\rm{e}}^\varepsilon }s} / {({\rm{|}}\tau {\rm{|}} - s + {{\rm{e}}^\varepsilon }s)}},{\rm{ }}s = {\rm{max}}\left( {({{{\rm{|}}\tau {\rm{|}}} / {1 + {{\rm{e}}^\varepsilon })}},1} \right){\text{;}} $ |
2. 汇聚器计算
3. for 电动汽车
4. 汇聚器发送参数
5.
6. for 位置
7. 汇聚器计算
8. 汇聚器初始化
9. while(1) //迭代循环
10. for
11. 汇聚器计算
12. end for
13. 汇聚器计算
14. for
15. 汇聚器计算
${\tilde x_k}\left[ {t + 1} \right] = {\tilde x_k}\left[ t \right]\left( {p{L_k} + q\left( {{\textit{Z}} - {L_k}} \right)} \right){\text{;}} $ |
16. 汇聚器计算
$S\!umErr+ = \left| {{{\tilde x}_k}\left[ {t+ 1} \right] - {{\tilde x}_k}\left[ {t} \right]} \right|{\text{;}} $ |
17. end for
18. if (
19. end while
20. for
21. 汇聚器计算
22. end for
23. return
算法2的过程如下:首先,计算隐私位置域内的真位置的概率p、伪位置的概率q以及报告集合长度s这3个参数[15]。隐私位置域
隐私位置汇聚方法的汇聚结果可用性取决于隐私位置域的大小。小域随机化方法[17]和个性化局部差分隐私[14]的思想都是在更小的局部随机域(而不是整个范围域)中执行随机响应算法。直观地说,在相同隐私预算和隐私算法条件下,相比于全局随机域,局部随机域内执行随机算法的统计结果的可用性更高。结合EV充电系统的真实场景,作者考虑以一供电台区作为一个隐私位置域对整个区域进行分区,可进一步提高数据可用性。倘若隐私位置域是跨分区的,这将可能导致可用性变差。例如,假设分区A和B合并作为隐私位置域,如果一辆EV访问分区A的充电桩,执行局部混淆算法将可能被扰动到分区B区。此外,隐私位置域越大,则可用性越差,进而影响两个区域的电网优化。因此,利用供电台区对整个位置域进行划分,将单个台区内的全部充电位置作为隐私位置汇聚方法的隐私位置域,以提升汇聚结果的可用性。
算法3 隐私位置汇聚优化方法
输入:全部参与充电EV,整个位置域D;
输出:访问全部充电位置的EV数量。
1. 汇聚器将D划分为多个分区Di;
2. for 分区
3. 汇聚器在分区
4. end for
5. 汇聚器统计访问D中每个位置的EV数量
6. return
算法3过程如下:首先,将充电位置依据供电台区将整个区域D的充电桩位置进行划分,每个分区内的全部充电EV都分配相同的隐私预算
隐私位置汇聚方法的隐私性关键在于局部混淆算法(LOA)。如果本地化执行的LOA满足可证明的局部差分隐私,则该方法也满足差分隐私。LOA是基于随机响应的差分隐私方法,具有随机响应的似是而非特性。对LOA的隐私性进行分析,即证明LOA算法是否满足
证明:从局部差分隐私定义的角度来说。对于任意的两个充电位置
$\frac{{{\rm{Pr}}\left[ {A\left( {{\tau _i},{l_i},{\varepsilon _i}} \right) = {R_i}} \right]}}{{{\rm{Pr}}\left[ {A\left( {{\tau _i},{{l}_i'},{\varepsilon _i}} \right) = {R_i}} \right]}} \le {{\rm{e}}^{{\varepsilon _i}}}$ | (4) |
在LOA中,输出集合含真位置的概率为
${P_{\rm{t}}} = p \times \frac{1}{{C_{{\rm{|}}\tau {\rm{|}} - 1}^{s - 1}}} = p \times \frac{{\left( {s - 1} \right)!\left( {{\rm{|}}\tau {\rm{|}} - s} \right)!}}{{\left( {{\rm{|}}\tau {\rm{|}} - 1} \right)!}}$ | (5) |
${P_{\rm{f}}} = \left( {1 - p} \right) \times \frac{1}{{C_{{\rm{|}}\tau {\rm{|}} - 1}^s}} = \left( {1 - p} \right) \times \frac{{s!\left( {{\rm{|}}\tau {\rm{|}} - s - 1} \right)!}}{{\left( {{\rm{|}}\tau {\rm{|}} - 1} \right)!}}$ | (6) |
式(4)中,左边可能结果为
$\begin{aligned}[b] & \frac{{{P_{\rm t}}}}{{{P_{\rm f}}}} = p \cdot \frac{{\dfrac{{\left( {s - 1} \right)!\left( {{\rm{|}}\tau {\rm{|}} - s} \right)!}}{{\left( {{\rm{|}}\tau {\rm{|}} - 1} \right)!}}}}{{1 - p}} \cdot \frac{{s!\left( {{\rm{|}}\tau {\rm{|}} - s - 1} \right)!}}{{\left( {{\rm{|}}\tau {\rm{|}} - 1} \right)!}} = \\ &\quad\quad \frac{p}{{1 - p}} \cdot \frac{{{\rm{|}}\tau {\rm{|}} - s}}{s} \end{aligned}$ | (7) |
文献[15]中给出了满足
$s = {\rm{max}}\left( {\frac{{{\rm{|}}\tau {\rm{|}}}}{{1 + {{\rm e}^\varepsilon }}},1} \right),\;\;p = \frac{{{{\rm{e}}^\varepsilon }s}}{{{\rm{|}}\tau {\rm{|}} - s + {{\rm e}^\varepsilon }s}}$ | (8) |
因此,由式(7)、(8),可得
由于
证毕。
3 实验评估实验硬件环境:Intel Core CPU i3–4160,内存8 GB;实验软件环境:Window10+Anaconda3。实验中的数据包含合成数据集和真实数据集。以最近的基于随机映射矩阵的PCEM方法[14]作为对比方法,由于分区后充电位置隐私域比较小以及降维会带来更大噪声,因此采用k×k随机映射矩阵[13]。可用性的两个评价指标分别为MSE和JSD (JS-divergence),定义分别为式(9)和(10):
$MS\!E = \frac{1}{{{\rm{|}}\tau {\rm{|}}}}\mathop \sum \limits_{i = 1}^{{\rm{|}}\tau {\rm{|}}} {\left( {\frac{{{x_i}}}{N} - \frac{{{{\tilde x}_i}}}{N}} \right)^2}$ | (9) |
$JS\!D = \frac{{KL\left( {{P_X}\parallel R} \right) + KL\left( {{{\tilde P}_X}\parallel R} \right)}}{2}$ | (10) |
其中,
$KL\left( {P\parallel R} \right) = \mathop \sum \limits_i P\left( i \right){\rm ln} \frac{{P\left( i \right)}}{{Q\left( i \right)}},R = \frac{{{P_X} + {{\tilde P}_X}}}{2}{\text{。}}$ |
在不同分布的合成数据上对比两种方法,同时,两种方法在真实数据上也是基于相同分区进行对比的。
3.1 合成数据评估合成数据是基于4种不同分布随机生成的数据,分别是正态分布、均匀分布、峰值分布和随机分布。隐私预算设置在0.1~1.0范围之间。样本量N=1 000,位置域K=10。PCEM和PLAM方法分别在上述4种类型数据上进行实验,运行10次取平均值。
合成数据上的方法评估,如图2所示。结果表明:PLAM方法的MSE和JSD在4种合成数据上整体优于PCEM方法。然而,部分合成数据上PLAM的指标并不随着隐私预算的增加而降低。这是因为含真位置的随机输出集合的概率
![]() |
图2 不同合成数据上的汇聚结果对比 Fig. 2 Comparison of aggregation results of synthetic data with different distributions |
但从整体上来说,图2表明PLAM的可用性比PCEM的高,这是因为随机映射矩阵引入的噪声过大,导致扰动后汇聚结果的可用性差。相比PCEM,PLAM能够实现更好的可用性。因此,作者选择PLAM作为EV充电位置隐私汇聚方法是合理的。
3.2 公开数据评估签到数据集与EV访问充电桩的数据极为相似。因此,采用Gowalla网站提供的用户签到数据集作为公开数据集,选择拉斯维加斯城市主城区(北纬35.95°~36.35°,西经度115.00°~115.35°)作为实验数据集,其中,包含17 644条签到记录。然后,以0.01°的经纬度间隔对该区域进行地理格网划分。假设将每个区块看作一个供电台区,其内的全部签到位置可看作是充电桩的充电位置。由于该数据集内包含大量的稀疏签到数据(单个位置被访问不超过两次),而实际充电桩的位置是频繁被访问的。因此,需对数据集进行预处理,选择签到用户数量高于4的签到位置和位置数量超过2的隐私域中的数据作为实验数据。在公开数据集上,评价MSE和JSD两个可用性指标,如图3所示,结果表明 PLAM方法在可用性方面优于PCEM方法。
![]() |
图3 公开数据下的汇聚结果对比 Fig. 3 Comparison of aggregation results in public dataset |
为比较隐私预算对可用性影响,设置3组不同的隐私预算为
![]() |
图4 不同隐私预算下的汇聚结果 Fig. 4 Aggregation results in different privacy budget |
图4的结果表明:在高隐私预算下,汇聚结果最接近真实计数;在低隐私预算下,由于引入的噪声比较大,造成汇聚结果的可用性低。
4 结束语将局部差分隐私技术用于对EV的充电位置数据的保护,以抵御不可信的数据汇聚器泄露EV用户的充电位置隐私。通过引入基于贝叶斯的随机多伪隐私算法,设计了一种基于分区的隐私保护充电位置汇聚方法;并通过划分位置域,缩小隐私位置域大小,提高汇聚结果的可用性。对所设计方法的隐私性给出了较为详细的证明过程。实验评估结果表明:所设计的方法相比于基于随机映射矩阵的隐私汇聚方法,汇聚结果的可用性更高。
本研究针对记录型充电位置数据,更为实际的是研究EV充电轨迹的隐私保护问题,后续工作将引入局部差分隐私解决这一问题。
[1] |
Han Wenlin,Xiao Yang. Privacy preservation for V2G networks in smart grid:A survey[J]. Computer Communications, 2016, 91: 17-28. DOI:10.1016/j.comcom.2016.06.006 |
[2] |
Green R C,Wang Lingfeng,Alam M. The impact of plug-in hybrid electric vehicles on distribution networks:A review and outlook[J]. Renewable and Sustainable Energy Reviews, 2011, 15(1): 544-553. DOI:10.1016/j.rser.2010.08.015 |
[3] |
Stegelmann M,Kesdogan D.Location privacy for vehicle-to-grid interaction through battery management[C]//Proceedings of the IEEE 9th International Conference on Information Technology:New Generations.Las Vegas:IEEE,2012:373–378.
|
[4] |
Liu J K,Susilo W,Yuen T H,et al. Efficient privacy-preserving charging station reservation system for electric vehicles[J]. The Computer Journal, 2016, 59(7): 1040-1053. DOI:10.1093/comjnl/bxv117 |
[5] |
Yang Zhenyu,Yu Shucheng,Lou Wenjing,et al. P2:Privacy-preserving communication and precise reward architecture for V2G networks in smart grid[J]. IEEE Transactions on Smart Grid, 2011, 2(4): 697-706. DOI:10.1109/TSG.2011.2140343 |
[6] |
Jiang Rong,Lu Rongxing,Lai Chengzhe,et al.A Secure communication protocol with privacy-preserving monitoring and controllable linkability for V2G[C]//Proceedings of the 1st International Conference on Data Science in Cyberspace.Changsha:IEEE,2017:567–572.
|
[7] |
Han Shuo,Topcu U,Pappas G J.Differentially private distributed protocol for electric vehicle charging[C]//Proceedings of the 52nd Annual Allerton Conference on Communication,Control,and Computing.Monticello:IEEE,2014:242–249.
|
[8] |
Han Shuo,Topcu U,Pappas G J.An approximately truthful mechanism for electric vehicle charging via joint differential privacy[C]//Proceedings of the 2015 American Control Conference.Chicago:IEEE,2015:2469–2475.
|
[9] |
Dwork C,Roth A. The algorithmic foundations of differential privacy[J]. Foundations and Trends® in Theoretical Computer Science, 2014, 9(3/4): 211-407. DOI:10.1561/0400000042 |
[10] |
Kasiviswanathan S P,Lee H K,Nissim K,et al. What can we learn privately?[J]. SIAM Journal on Computing, 2011, 40(3): 793-826. DOI:10.1137/090756090 |
[11] |
Erlingsson Ú,Pihur V,Korolova A.Rappor:Randomized aggregatable privacy-preserving ordinal response[C]//Proceedings of the 2014 ACM SIGSAC Conference on Computer and Communications Security.Scottsdale:ACM,2014:1054–1067.
|
[12] |
Bassily R,Smith A.Local,private,efficient protocols for succinct histograms[C]//Proceedings of the 47th annual ACM Symposium on Theory of Computing.Portland:ACM,2015:127–135.
|
[13] |
Nguyên T T,Xiao Xiaokui,Yang Yin,et al.Collecting and analyzing data from smart device users with local differential privacy[EB/OL].(2016–06–16)[2017–12–07].https://arxiv.org/abs/1606.05053.
|
[14] |
Chen Rui,Li Haoran,Qin A K,et al.Private spatial data aggregation in the local setting[C]//Proceedings of the IEEE 32nd International Conference on Data Engineering.Helsinki:IEEE,2016:289–300.
|
[15] |
Sei Y,Ohsuga A. Differential private data collection and analysis based on randomized multiple dummies for untrusted mobile crowdsensing[J]. IEEE Transactions on Information Forensics and Security, 2017, 12(4): 926-939. DOI:10.1109/TIFS.2016.2632069 |
[16] |
Warner S L. Randomized response:A survey technique for eliminating evasive answer bias[J]. Journal of the American Statistical Association, 1965, 60(309): 63-69. DOI:10.1080/01621459.1965.10480775 |
[17] |
Chaytor R,Wang Ke. Small domain randomization:Same privacy,more utility[J]. Proceedings of the VLDB Endowment, 2010, 3(1/2): 608-618. DOI:10.14778/1920841.1920919 |