全部
  • 全部
  • 主题
  • 作者
  • 期刊名

语言政策与规划研究 | 语言生物识别信息的特征及其安全保护(文/陈美华 欧阳西贝)

2023/02/03
图片
图片




主  编:王克非 

副主编:张天伟





语言生物识别信息的特征及其安全保护

东南大学 外国语学院 陈美华 欧阳西贝


提要:语言生物识别信息具备典型的个人属性和丰富的信息量,在生物识别信息的应用中受到广泛青睐。文中系统地阐述了语言生物识别信息的定义、特征、应用和相关研究,指出语言生物识别信息在当今社会中的重要地位;同时结合分析现有案例,阐述当前语言生物识别信息安全的情况,突出保护语言生物识别信息的迫切性。此外,文中总结我国现有的行业技术标准、行为规范以及相关法律法规对语言生物识别信息的保护,分析官方文件及法律法规在保护语言生物识别信息安全上存在的缺陷。最后提出保护语言生物识别信息安全的合理建议。

关键词:语言生物识别信息;语音;笔迹;信息安全





1、引言

容貌、指纹、虹膜、语音等独立个体的基础特征可用于辨别个人,是识别认证个人的重要生物识别信息。与传统的识别方法相比,生物识别信息具有唯一不可复制性,因此具备更高的安全性(汤雪梅,2013)。但在科技进步的今天,人工智能换脸、指纹被盗等问题接二连三发生,生物识别信息的安全保护问题逐渐引起重视。当前个人生物识别信息中人脸和指纹识别的应用最为广泛,也有较多研究关注其安全性(邢会强,2020;罗斌等,2021)。然而,语言作为生物识别信息中的一个重要类别,关注度较其他识别信息有明显欠缺。语言生物识别信息包含口头声纹与书面笔迹两种形式(王虹,2011)。语音作为个人的独特信息不仅拥有可识别功能,人类还能通过组织语言建构意义,产出巨大的个人信息量,包括个人的所思所想所行等;书面形式的语言具有个人笔迹特征,同样也能够产出有意义的信息。当前语言生物识别信息(linguistic biometric information)多应用于刑侦领域,与语言学相关知识结合用于案件侦查,形成了应用语言学的分支学科“侦查语言学”(崔军民,2011)。科技的发展也让更多语言生物识别信息进入生活应用,如银行身份密码识别、大数据消费者画像等。此外,语言作为我国对外经济文化交流的重要工具,不可避免会涉及国家信息安全问题,因此语言生物识别信息安全问题值得关注和研究,事关我国语言政策和规划(陈美华等,2018;陈美华,2020)。因此,本文将从个人语言生物识别信息的定义和特征出发介绍相关应用和研究,并分析当前语言生物识别信息的相关案例、行业技术标准和规范、法律法规,论证保护语言生物识别信息的重要性并发掘存在的问题,希望为未来保护语言生物识别信息的实践提供一些参考性建议。





2、语言生物识别信息

2.1 语言生物识别信息的定义及特征

个人生物识别信息(personal bioinformation / biometric information)是基于个体生理和行为特征的可识别信息,包括指纹掌纹、面容、虹膜视网膜、耳廓、脱氧核糖核酸(DNA)、气味、语音、笔迹、击键力、步法等,其个体差异性使得信息可广泛应用于身份识别、安全加密等领域(Matyas & Stapleton, 2000;Jain et al., 2011)。相比传统密码,生物识别信息是真正的“一人一码”,更能保障加密信息的安全性(Kevenaar,2007)。但随着科技的发展,复制和盗用“钥匙”的技术已成为现实,个人生物识别信息的角色由保镖转变为迫切需要被保护的对象,如今个人生物识别信息属个人隐私信息(Faundez-zanuy,2005),安全性受到前所未有的挑战。近年来,应用极其广泛且安全性得到多数研究关注的生物识别信息主要有指纹和面容(邢会强,2020;罗斌等,2021),而对同样信息特征流于表面、极易被获取的语言生物识别信息保护关注甚少。

语言生物识别信息有语音(口头)和笔迹(书面)两种形式(王虹,2011;崔军民,2011),因为语言和人的思想联系紧密(Swain,2006),所以思想可通过口头语和书面语完成转化产出意义信息(Slobin,1996),从而展示生物本体的真实意图。由于语音和笔迹是基于个人行为特征的生物识别信息(Vacca,2007),其产出的意义内容有个人的习语特征,可用于区分人的身份(González-Rodríguez et al.,2008),且个人行为背后皆有独特的行为意义,代表个人特有的语言风格,比如人们的说话和写作风格都截然不同,都是通过语言内容意义表现的个人语言特征。Pokhriyal等(2016)认为语音和笔迹是有个人特征性质且包含大量意义信息量的生物识别信息,因此语音和笔迹的表象以及它们所承载的内容意义都纳入语言生物识别信息范畴。

具体而言,语音是结合个人生理和行为特征为一体的生物识别信息,由发音器官的形状和大小(例如声道,口腔、鼻腔和嘴唇)决定,会随年龄、身体状态等变化(Jain et al.,2012),个人不同的语音生理特征使之具备可识别性。此外,说话这一行为产出的话语有丰富的意义信息内容,包括个人的所思所想所行等,由于个人的说话内容具有典型的个人习语风格,因此同样有可识别性。与其他生物识别信息依靠图像识别不同,语音是唯一的生物识别声学信息,无需使用专门的设备(Markowitz,2000);且对识别距离要求不高,仅依靠移动手机即可便捷获取(Khitrov,2013)。文字笔迹体现个人的书写特征,包括书写速度、笔尖压力、字迹形状,笔迹是唯一与书写流程协同的生物识别信息(Liu & Silverman, 2001),能够追溯产出过程特征,用于身份识别和核实,反映个人情绪特征(Ayzeren et al.,2019),也具备大量有意义的信息。综上,语言生物识别信息包括语音和笔迹以及它们所产生的意义内容,有信息量大和收集便捷两大特征,一旦信息泄露,损失不仅在于识别信息本身,还会牵扯识别信息背后的大量意义信息,因此需要得到特别的保护。


2.2 语言生物识别信息的应用及相关研究

语言生物识别信息目前多应用于侦查法治领域(王虹,2011;龙立等,2019),金融商业领域(如中国人民银行在2018年发布的《移动金融基于声纹识别的安全应用技术规范》、华为公司于2021年申请“一种声纹识别方法及装置”的专利技术),安全及健康领域(Faundez-zanuy et al.,2020),个人特征分析领域(Ayzeren et al.,2019;Pearl & Steyvers,2012;王晓霞,2012)。也有学者建议将其应用于国家安全领域,具体为我国入境原籍检测(陈美华等,2019)。从当前的应用领域来看,语言作为生物识别信息的安全性是值得认可的。此外,据全国信息技术标准化技术委员会(以下简称“信标委”)最新发布的《2020年移动设备生物特征识别行业研究报告》,声纹技术在移动设备上的应用也极其多样广泛,包括声纹确认技术(如声控访问事物授权)、辨认技术(如智能语音个性化推广)、检出和追踪技术(如实时转写会议记录)

然而与其他个人生物识别信息的研究相比,当前国内对于个人语言生物识别信息的关注度明显欠缺,若缺乏关注且不重视规范相关行业行为,语言生物识别信息的安全性将受到挑战。在中国知网以“生物识别信息”为关键词搜索的CSSCI参考文献多以人脸或指纹作为案例对象(许静文,2020;罗斌等,2021),没有将“语言生物识别信息”作为研究对象的文献;以“语言生物识别信息”作为关键词也没有查找到关联文献;以“声纹”为关键词查询到的文献均与侦查法治领域相关(王虹,2011;龙立等,2019);以“笔迹”为关键词查询到文献与侦查法治领域相关(沈臻懿;2013;卫燕茹等,2014),也涉及人才选拔个人特质分析(王晓霞,2012),但未有文章涉及当前语言生物识别信息应用的最新领域(如金融商业安全领域),这是本研究更新弥补的部分。





3、语言生物识别信息安全

面临的现实问题威胁

生物识别信息日渐融为21世纪人类生活的一部分,不论是相关行业经济和科技的竞争发展,还是关乎国家的公共治理和安全维护,其泄露及盗用所造成的损失都不容小觑(Pope,2018;苗争鸣等,2020)。而在当前科技发展和相关行业应用行为不规范的背景下,语言生物识别信息面临着一些现实的安全威胁。语言生物识别信息的实时收集技术成熟,收集方法简单,不规范的收集行为能够避开用户主体意识,时刻监控用户,在不知情的情况下开展信息收集,并对信息进行非必要的处理、分析及传播(闫坤如等,2017;吴雯,2019),这会使得语言生物识别信息所有者的信息安全甚至是人身财产安全受到损害。

具体来看,语言生物识别信息面临的威胁主要表现在数据本身的存在特性以及收集技术两方面:一是语言生物识别信息公开范围广且易获取,二是信息数据的仿造技术成熟且准入门槛低。一方面,语言生物识别信息公开范围极广,特别是以智能手机作为媒介,用户的语言信息被手机随时随地监控采集,手机软件运营商能够监测用户的谈话内容或跟踪用户的文字搜索数据,利用大数据分析实现精准的定位以推送符合用户画像的广告等内容并从中获利(程思凡,2021)。这种推送虽然看似人性化,但实则掌握了大量客户的私人信息,用户信息的隐私性会受到威胁(Willoughby,2017),一旦泄露后患无穷,例如亚马逊公司人工监测用户日常语音隐私的丑闻。除此之外,社交媒体也是信息公开的媒介,不法之徒能轻而易举通过监控并盗取用户发表在社交媒体上的语言生物识别信息实施犯罪,例如模仿熟人语音进行网络诈骗的案件频发,甚至于国外曾发生过通过模仿公司高管声音骗取下属20万英镑的诈骗事件。另一方面,在仿造技术成熟且准入门槛低的问题上,人工智能技术的发展使短时间内合成音频和手写笔迹变为可能,已有许多丰富的资源可以提供“语音合成”服务。笔者在搜索引擎中输入“语音合成服务”,就能搜索到多家公司的收费服务产品。也有小型团队开发的免费技术软件,比如有团队在GitHub网站上发布的实时语音克隆的技术软件包。搜索“笔迹合成”也能查询到相关技术的支持。即使专业技术可以甄别合成的语音和笔迹,但在日常生活中普通人很难分辨,也就会发生模仿语音和笔迹的诈骗事件。因此,对语言生物识别技术的安全保护需要引起特别的重视,然而目前没有专门以“语言生物识别信息技术安全”为主题的可参考文献,因而迫切需要进行相关研究予以补充。





4、语言生物识别信息相关行业的技术标准与行为规范和法律法规治理体系建设

生物大数据在抗击新冠肺炎疫情中发挥大作用,习近平总书记在中央全面深化改革委员会第十二次会议上强调要把生物安全纳入国家安全体系,系统规划国家生物安全风险防控和治理体系建设,全面提高国家生物安全治理能力。2021年4月《生物安全法》的正式出台,对加快构建国家生物安全法律法规体系、制度保障体系有着引领指导作用。然而,从宏观上看,当前对国内生物识别信息安全保护的行业技术标准与行为管理规范、法律法规治理体系建设仍存在很大的改进空间(吴小帅,2021)。具体来说,国内对语言生物识别信息保护的重视程度远低于其他生物识别信息。尽管互联网上语言生物识别信息受到威胁的相关案例屡见不鲜,但用户群众的呼声所引起的社会反响还尚未引起国家立法机关的重视。从行业技术执行标准与行为管理规范来看,系统的语言生物识别信息技术标准还未形成、行为规范还有待细化,这使得相关行业在开发、收集、分析语言生物识别信息的时候没有统一的技术标准和行为规范可供依据,会导致行业中的技术标准参差不齐且难以规范管理,因而无法从应用源头上保护语言生物识别信息。从法律体系建设来看,相关支系法律还未能形成体系以支持语言生物识别信息的保护。


4.1 语言生物识别信息相关行业的技术标准

与行为规范文件现状及问题

国内的生物特征识别技术标准仍在完善阶段。信标委2009年发布的标准化文件《SC37文件总结》包括指纹、人脸、虹膜、签字、指纹型骨架、血管图像和手型轮廓的数据标准规范,而关于语音识别的国家标准《信息技术移动设备生物特征识别第5部分:声纹》于2020年开始起草,至今尚未发布。虽然该国家标准的发布将弥补我国在语音生物识别信息上的技术标准空白,但仍需细化标准以适应更多的应用领域范围,比如金融行业、司法行业等执行技术标准的完善。此外,尽管笔迹检验已有国家及行业标准,但均为司法行业的执行标准规范,未有针对移动终端设备如手机的执行规范标准。加快该标准规范的制定有利于技术的大众可及性,即普通人也能通过移动设备软件检验区分笔迹,能更为便捷地规避日常生活中的一些诈骗事件。

最新版《信息安全技术个人信息安全规范》(以下简称《规范》)特别针对个人生物识别信息的内容进行了完善,但也存在规范笼统的问题。因不同生物识别信息有不同的特征和应用差异,《规范》没有针对性地作出细致的规定,特别是针对语言生物识别信息的管理规范依旧欠缺。《规范》虽将个人生物识别信息纳入了个人信息和个人敏感信息范畴,明确规定收集时应专门提醒个人信息主体收集的信息、处理的目的和规则,但在实际应用中,多数软件将收集说明放在不明显的位置,用户很难明确收集信息的用途,且这些软件大多没有关闭选项或用户很难找到这些选项。特别是针对语音隐私,软件往往需要开启“访问麦克风权限”功能从而达到便捷功能的发挥,但这些软件对语音隐私功能与其他语音功能进行了绑定,即关闭之后不可使用语音输入功能,这导致用户使用软件时为了最佳使用体验不得不被收集语言信息。此外,《规范》中还强调传输和存储个人敏感信息时应采用加密等安全措施,原始个人生物识别信息原则上不应存储。但在实际应用中,尽管各大软件的使用条款中标明会切实保护用户信息安全,信息泄露事件频发的罪魁祸首却是软件并未对个人语言生物识别信息进行加密处理,这才使得大量的客户需求信息泄露给软件平台和商家。因此,《规范》在实际操作中仍有局限性,运用中出现“擦边球”的现象比比皆是,目前亟需对《规范》做进一步完善,细致各项条款,特别是针对语言生物识别信息做出更明确规定。

4.2语言生物识别信息的法律法规体系建设现状及问题

生物识别信息的主体唯一识别性决定了其被高度保护的必要性,相关法律制度建设应及时跟进(商希雪,2020)。国家生物安全法律法规体系的建设问题是国家安全立法的新要求、新课题(莫纪宏,2020)。目前我国有五部法律明确包含“生物识别信息”,其中《出入境法》规定保存出入境生物识别信息,《反恐怖主义法》规定公安机关在调查时可以使用生物识别信息,但以上两部法律仅提到信息的使用。涉及保护个人生物识别信息的法律分别是《民法典》《生物安全法》《网络安全法》。2021年4月15日施行的《生物安全法》体现了我国对保护生物安全的重视及不懈努力,自此我国生物信息安全得到了宪法相关法的保护。

但我国涉及保护生物识别信息的法律法规仍须完善,遗憾的是以上所提法律均未涉及语言生物识别信息相关的内容。具体来说,一是“语言生物识别信息”术语界定尚不明确,法律大多使用“个人信息”作为参考,未突出个人生物识别信息的独特属性,如《身份证法》《国家安全法》《消费者权益保护法》等均是使用“个人信息”囊括“生物识别信息”这一概念,具体的个人语言信息更是只字未提。二是各项提到“生物识别信息”的法律虽具统领性,但可操作性不强。法条都是以宏观角度制定法则,主要从国家安全及网络安全角度予以全部生物识别信息统一的保护,而针对不同生物识别信息的不同特征及不同应用领域,目前还没有专门的支系法律细则参考并加以监管约束。例如,怎样规范软硬件开发商对语言生物信息数据的监控,涉及商业应用市场的监管,这在市场管理法的各项法律法规中无对应条款加以约束,也就导致了市场运用语言信息乱象丛生、消费者语言信息权益受损等各方面问题的出现。此外,目前我国《刑法》也未涉及生物识别信息相关内容,更未能涵盖语言生物识别信息的相关内容。由于生物识别信息与普通公民个人信息不同的重要性,还应受到《刑法》的特殊保护(王德政,2021),尽管可参见《刑法》侵犯公民个人信息罪,但参考性欠佳,危害个人生物识别信息安全的违法犯罪如何量刑仍有待商榷。




5、对语言生物识别信息保护的建议

通过对现存案例和已有技术标准规范以及法律法规的分析,我们针对存在的问题,从立法、执法、行业管理、群众观念四个维度提出建议,以期健全语言生物识别信息的安全保护体系。

5.1完善语言生物识别信息的相关立法保护

加快法律法规建设,以法律的准绳进行强制性约束。要明确提出术语为“个人语言生物识别信息”的立法,针对语言生物识别信息的特征及不同的应用领域,形成完整的法律法规体系,将不同支系法律予以整合,补充语言生物识别信息的法律法规条文,增加法律的可操作性。完善法律条文内容,一是要提出保护语音及笔迹作为个人识别信息的立法,防止他人冒用个人身份;二是要提出保护语言生物识别信息内容作为个人隐私的立法,防止不良商家等窃取个人隐私内容以推送广告等。建设法律体系要有针对性,针对语言生物识别信息在各行各业的应用,细化不同的支系法律细则予以支持,例如,在市场管理法体系的构建上,可从市场监管、消费者权益等方面来强化对语言生物识别信息的安全保护;在量刑上,《刑法》条文需要增加细化语言生物识别信息的量刑标准等相关内容。

5.2加强对语言生物识别信息的执法管理

加强对语言生物识别信息市场的监督,强化政府和市场监管的分工与合作。当前分管生物识别信息安全的政府执法部门尚不明确,生物识别信息安全的保护不只是网络安全的一部分,线下的保护同样重要,政府应当设立专门的监管部门,进行生物识别信息安全的维权投诉受理、核实调查并依法做出处理等管理措施,解决普通民众投诉无门的问题。要加大对软件市场的监管,提高语言生物识别信息软件开发的准入标准,做到严格把控软件质量,并对使用软件服务的人员进行监督备案。要严格按照市场规范对获取用户语言权限做出相应管理,设置软件评估管理部门,负责软件的功能评估,及时处理不符合要求的软件,责令整改或予以下架。

5.3鼓励形成语言生物识别信息的行业管理规范

完善各相关行业的管理规范,形成良好的软件开发秩序。要将语音生物识别信息和其他生物识别信息的监管条例区分细化,对不同特征和不同应用采取有针对性的管理条例,特别设置语言生物识别信息的管理条例。具体来说,行业管理要明确规定软件开发者必须增加“个人信息隐私”的设置选项,提供关闭或者在后台运行中不可收集个人语言生物识别信息的功能,细化“访问麦克风权限”的操作按钮,将语音输入功能和后台监测功能明确分开,保证用户有明确选择功能的权利的同时获得最佳软件体验。要对软件使用麦克风进行用户录音的时间权限做出规定,设置前台或是后台使用的允许权限,系统也要进行记录,让用户可以明确哪些软件在哪些时刻进行了什么录音,同时增加录音挑选删除的功能,用户不愿意分享的语言信息可以选择进行删除。此外,隐私权限使用说明可放在明显位置加粗辨别,便于用户清晰知晓,隐私权限操作设置也可设计在菜单的前列,便于用户开启或是关闭。

5.4鼓励形成保护语言生物识别信息的观念意识

积极依托大众媒体宣传,增强民众对语言生物识别信息的保护意识。媒体宣传作用显著,可依托各种媒介渠道如网络、报纸、电视等对民众进行个人信息安全保护宣传教育。强化民众的安全意识,宣传网络不是个人独有的私密空间,哪怕标榜尊重隐私安全的软件也不是绝对安全的,不可随意下载非正规市场的软件,也不可轻易允许使用个人语言生物识别信息,要形成主动保护信息的意识。同时,用户应当具备维权意识,面对涉嫌侵犯自己语言生物信息的情况,如用户收到疑似窃取隐私后推送的广告或是被窃取语言信息受到财产损害等,要主动向主管部门进行投诉维权。




6、 结语

语言生物识别信息应用日益广泛,但相关研究、行业标准、法律法规都相对滞后,本研究尝试补充这一部分学术空缺。本文对语言生物识别信息进行了明确定义,认为语言生物识别信息包括语音(口头)和笔迹(书面)两种形式。语音是唯一声学信息,笔迹是唯一可追溯书写流程的生物识别信息,此外,语言生物识别信息还具备产出意义功能,涵盖大量意义信息。语言生物识别信息目前多应用于侦查法治领域和金融商业领域,但研究关注度明显不足,尤其是在金融商业领域的相关研究及法律规范制定等方面有待完善。

本文还就语言生物识别信息安全保护现状进行了阐述。研究发现,语言生物识别信息的安全性正受到一定的威胁,主要体现在其易于采集的特性会导致主体在不知情时泄露语言生物识别信息及其所产出的重要意义信息,具体案例有手机软件监测语言信息推送广告,合成剪辑伪造音频及笔迹。鉴于语言生物识别信息的安全问题日益严峻,本文从技术标准规范及法律法规保护两个角度分析了当前我国相关的官方文件,指出我国现行技术标准规范与法律法规都尚未形成保护语言生物识别信息的系统体系。在技术标准规范领域,各行业技术标准还未达成一致,标准相对滞后;在法律领域,现存明确有保护“生物识别信息”字眼的法律较少,仍缺少支系法律的支持和更明确“语言生物识别信息”字眼的法律,特别是针对当前应用广泛的领域如金融商业领域的法律。

为营造良性的语言生物识别信息应用环境,本研究从法律法规建设、执法管理建设、行业管理规范和群众个人信息保护意识四点出发提出建议,以期为解决当前问题提供参考。一是要完善法律法规建设,以法律的准绳进行强制性约束;二要加强市场执法管理,强化政府和市场监管分工与合作;三要完善各相关行业的管理规范,形成良好的软件开发秩序;四是可依托媒体宣传,增强民众对个人语言生物识别信息的保护意识。


注:本文选自《语言政策与规划研究》第16辑,第110—117页。由于篇幅所限,参考文献及注释已省略。

图片

在线阅读及其下载


在学术期刊官网,阅读全文

https://www.bfsujournals.com/c/2019-07-18/486518.shtml


在知网下载期刊全文

https://navi.cnki.net/knavi/journals/YYZC/detail


订购信息


天猫旗舰店

单期购买。通过外研社天猫旗舰店购买当期以及过刊。

图片

请用手机淘宝、天猫app扫描二维码进入


往期精选


点击“阅读原文”,访问学术期刊官网


转载请注明来自微信订阅号:北外学术期刊

北外学术期刊官网:https://www.bfsujournals.com/

欢迎分享与转发

图片
图片