本文内容来自朱廷劭教授在全国家庭心理建设高峰论坛上的演讲《大数据视角下,家暴受害者的心理图鉴》。

 

大家好,我叫朱廷劭,来自中科院心理所。虽然我在心理所,但我是全计算机背景,所以我今天的介绍和计算机相关的内容更多一些,主要从大数据的角度去研究,家庭暴力对受害者的心理影响。

 

我对家暴最初的了解,来自一个以家暴为题材的连续剧,叫《不要和陌生人说话》,是中国第一部以家暴为主题的电视剧。后来从我的研究来看,家庭暴力是一个长期存在的严重的社会问题,并不是因为连续剧的出现,才开始存在的。

 

 图片 图片

 

家庭暴力的现状

 

 图片 图片


根据2020年早期的统计,大概百分之三十的家庭存在着家庭暴力的问题,并且有很多的家庭暴力受害者在家暴处理过程中遇害。所以家庭暴力是一个很严重的社会问题,涉及到方方面面,不管是受害者、家庭还是小孩都会受影响。 

 

2016年我国正式开始实施反家暴法,对家庭暴力给出了法律上的定义:指家庭成员之间以殴打、捆绑、残害、限制人身自由以及经常性谩骂、恐吓等方式实施的身体、精神等侵害行为。

 

家庭暴力带来的影响

 

 图片 图片


·我们从定性的角度看,家庭暴力带来的最直接的影响就是对身体健康的伤害。由于男性和女性身体结构的差异,家庭暴力中男性受害者的比例特别少,女性受害者居多。

 

 ·受害者长期在家庭暴力中会受到环境的影响,造成长期的精神紧张与忧虑

 

 ·因无法得到一个很安全的家庭环境,导致人格尊严受损害,人格扭曲。我们都知道人格是一个最基本的心理变量。如果人格发生变化,更可能会影响终生。 

 

·我们都说父母是小孩最好的老师,如果小孩在家庭暴力的环境下成长的话,小孩就会把家庭暴力看作是解决家庭问题的一个手段,并且会去实施它。这对他以后的婚姻和家庭都会带来很大的影响。 

 

·家庭暴力也会造成家庭成员观念上的误区,夫妻之间的平等尊重不能得到保障。在国内,家庭是最重要、最基础的社会细胞。如果家庭得不到稳定,就会影响到整个社会的稳定与和谐。 

 

传统方法在家暴影响研究方面的困难

 

 对家庭暴力影响的研究有一个最大的问题,就是每一个家庭暴力事件发生的时间和地点都不一样。一般做研究时,都是通过街道、社区找家庭,去做家庭随访、回访来得知家庭暴力的影响。

 

 但其实比较好的办法应该是做家庭暴力事件的前后测。比如说家庭暴力之前测一次,家庭暴力之后再去测量一次。通过这两次前后测的差异,看家庭暴力在哪些方面对一个人的产生了影响,影响为何。 但是我们没办法控制家庭暴力发生的时间,很难做到今天所有人测了一次,第二天就发生了家庭暴力,第三天再测一次。这从实验控制的角度来讲是做不到的。 

 

 图片 图片


而且,我们很多这类的心理学研究都是基于问卷进行的。而问卷,也就是自我报告,首先是要依赖用户的配合,这是比较难的。因为在国内,大家还是认为家庭暴力是“家丑不可外扬”,总认为这是自己的家务事,能自己解决就尽量自己解决。 

 

其次,自我报告的时效性不好保障。因为家庭暴力的发生只有当事者知道,如果等事情过了之后再去回溯,很难再去回忆家庭暴力前后的心理变化,因为存在记忆误差。

 

如何建立行为心理映射模型

 

 我们知道任何行为的背后,或多或少都有心理因素,那么行为和心理之间就能够存在一个比较强的映射关系或者对应关系。 

 

我们把这个对应关系模型化,就可以把一个人的行为做成输入值或者叫自变量,而心理作为输出或者因变量。这个映射模型,使我们可以通过对一个人的行为分析,自动计算心理指标。 这就是利用大数据,加上人工智能的方法,去做人的心理识别的一个基本思路。 

 

 图片 图片


这个模型的建立过程,其实我们日常生活中都有在用,比如大家用Excel的趋势图,建立趋势线的过程,就是建立训练模型的过程。 

 

我们先通过一定量的数据来训练模型,然后利用这些模型对任何的新数据做预测。预测过程也是在机器学习里面用的比较多的两个阶段的过程:训练和应用的过程。 具体的训练和预测过程是,比如我们用1000个用户作为训练样本,每一个用户的行为数据都作为输入值,同时把通过心理测量得到的心理指标作为 因变量,那么自变量和因变量之间的映射关系就可以通过机器学习的方法得到。 

 

在模型学习出来后,对于大量的新用户,可能是10万个,我们就可以对这10万个用户的心理指标做预测,代替用户的自我报告。 这个过程类似于一个专家根据自己的经验,通过对用户的行为观察,给用户做他评。只不过这是通过计算机学习的方法,由计算机给人做他评。当然他评过程也需要一些新的测量方法和信效度检验,并不是建了模型就可以。 

 

生态化识别过程

 

 图片 图片


生态化的识别过程,是采集自然状态下的生态化的行为数据,再利用机器学习的方法训练出一个预测模型,来实现对心理指标的自动识别。这个过程就是生态化识别过程。 

 

这使得很多我们在以前依赖于用户配合的研究,可以通过智能化的过程,对大规模用户进行研究。因为网络上的所有数据都是有时间戳信息的,所以生态化识别的好处是我们可以回溯到任意时间点去做各种各样的分析;坏处是它可以实现对一个人的纵向全时长跟踪,从研究角度来讲是个好事情,但对于隐私保护来讲是个问题。 

 

有了这样的方法,我们首先要考虑的是如何去找到这些数据。方法有很多,比如说微信、微博或者是论坛、贴吧之类的。现在比较公开的数据源是社会媒体数据,国内的是微博,国外的是推特。 Facebook其实是一个社交网络,国内对应的是人人网——以前的校内网,与微博、推特不太一样。微博是媒体属性,你可以把它看成是一个大字报,我发了帖子之后希望更多的人能看到,而且媒体平台的活跃用户量比较大。 

 

 图片 图片


这些活跃用户为我们带来大量的数据,他们的日常行为都被社会媒体记录了下来,帮我们实现数据的电子化记录。 

 

当人们在网上报告自己正在经历家庭暴力,根据每一个事件的时间戳信息,我们就可以比较精确地发现家庭暴力发生的时间点。 这样就可以把他在家庭暴力发生之前一段时间,在网上所表现的行为对应的心理数据作为前测,也就是检测他在家庭暴力发生之前是什么样的。

 

在家庭暴力发生之后的一段时间内,他在网上的表现所对应的心理指标作为后测,以此实现对一个人在家庭暴力前后的心理测量。 这和我们一般理解的大数据可能不是特别一致,在网上报告自己有家庭暴力历史的用户量不是那么多,但还是有的。 


这个心理测量的过程是用计算机去做,用模型算出来。当然这个模型的信效度需要检验。通过这种方法我们可以对家庭暴力的心理影响做一个对比研究。 因为微博的内容是用户自主发在网上的,所以并不是每天都有。

 

我们一般是截取足够多的数据(前后一个月),计算对应的抑郁焦虑程度,比如说自杀风险、人格、幸福感等。再去比较前后测的差异,就能知道家庭暴力对人的心理指标的影响。 首先我们通过一些关键词筛选出有家庭暴力报告的案例,比如像家庭暴力、精神暴力、老公等,还有父亲、母亲,包括虐待、受虐等等。 

 

 图片 图片


通过这种方式,我们从130万的微博数据中提取出大概1000多条微博数据,报告过家暴。有的是长期、多次的,有的是一次性的(就是首次的家庭暴力);并且对家庭暴力做了分类以及定义上的区分: 

 

 图片 图片


在筛选过程中,第一次筛选标准是真实遭受家庭暴力或者目睹家庭暴力,需要用户在报告中很明确地提到,比如“今天老公第一次打我”,这就是很明确的家庭暴力的报告。还有人会直接讲,比如“今天第一次看到父母打架”,这就是围观了家庭暴力。

 

 图片 图片


因为计算机不能完全代替人工,而且有时候虽然用户讲了关于家庭暴力的事情,但是讲的是对家庭暴力这个事件的评述,比如说反对家庭暴力或者反对夫妻吵架之类的,所以我们也找了一些主试对语境做判断,看他是不是真的遭受了家庭暴力。 

 

这还需要主试之间达到测试一致性,以保证对家庭暴力案例的判定是准确的。 我们也特别关注首次经历家庭暴力,因为第一次家庭暴力对人的影响是最大的。而且家庭暴力如果有第一次,一般就会有第二次,很难完全戒断,所以对家庭暴力的干预或者处理可能会是一个重要的社会难题。 在筛选时,我们需要用户在网上表达家庭暴力时,一定要体现出首次家暴。 

 

 图片 图片


同时家庭暴力也有一些长期的表现。有的人写了一次就不再写了,有的人是多次的写,比如说多次报告经遭受了家庭暴力。(通过对一个人的数据的纵向跟踪分析,看出他是否有长期家庭暴力的历史。) 

 

 图片 图片


除了筛选,我们也做了对照组。因为即使能够发现家庭暴力事件前后的心理影响,也无法排除其他没有经历家庭暴力的人,在同样的时间段也有同样变化的可能。也就是说有可能即使没有家庭暴力,也可能会遇到这种情况,所以就需要有一个对照组做基线的比较。