基于网络爬虫和大数据分析的智能租房推荐研究

2021-11-15 08:42汪洋
科技信息·学术版 2021年24期
关键词:网络爬虫数据分析

摘要:房地产中介第三方租房网站平台存在租金价格制定不精准,租房者作为消费者也存在寻找合适房源困难等问题。通过采用网络爬虫和大数据分析等技术构建智能租房推荐模型,可以解决第三方租房网站平台和需要租房的消费者双方共同的痛点,促使两者最终达成满意交易。本文以解决案例的形式印证了智能租房推荐模型的有效性,可以帮助租客推荐到合适房源,并为租客做出最终决策提供支持。

关键词:网络爬虫;数据分析;智能租房;推荐模型

1 引言

1.1 国内住房租赁现状

近几年,国内住房租赁市场进入全新的发展阶段,房屋租赁越来越受到广泛的关注。站在第三方租赁网站平台角度,如何合理制定房源租赁价格是促成交易的关键。站在租房者的角度,租客在选择租房时考虑的第一因素便是租金,其次才是出租房屋的规模、面积、以及租赁的方式等。租房者希望在租房网站平台找到符合自己心理预期的理想房源。如果消费者发现租房网站平台上的心仪的房源租金价格没有在自己的心理预期内,很可能会放弃在该租房网站平台上达成交易意向,同时也浪费了时间和精力。

1.2 贝壳找房网站

贝壳找房是链家旗下的房源推广平台,于2020年8月在美上市,是目前中国最大的房屋交易和服务平台。2020年贝壳找房全年总营收705亿元,同比增长53.2%,全年净利润为27.78亿元。本文以贝壳找房网站为例,具备标杆意义和较高的应用推广价值。

1.3 网络爬虫技术

网络爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。通过网络爬虫获取网站数据主要有两种方式——编写网络爬虫程序和使用第三方数据采集器。目前比较适合编写爬虫程序的编程语言有Python、Java等,市面上流行的第三方数据采集器有八爪鱼、后羿采集器等。但在实际应用中,完成一个较复杂的网络爬虫项目经常需要两种方式结合起来使用。

2 智能租房推荐模型

2.1 模型思路

首先通过网络爬虫获取贝壳找房网站上的房源信息数据,然后借助大数据处理和分析技术对房源信息数据进行处理和分析,建立预测模型和智能推荐模型。该模型可以为贝壳找房网站平台和租客个人双方的决策提供支持与建议,最大限度的帮助双方达成满意交易,从而实现双方共赢的局面。如图1所示。

2.2 租客决策支持

构建的智能租房推荐模型可以为租房者提供强有力的决策支持,从而大大简化了租房者选择成本和试错成本。比如今年刚毕业的软件技术专业的小李同学在四川成都找了一份科技公司上班的工作。但小李不是成都本地人,属于无房一族。所以需要为小李同学推荐一套满意房源,并给出租房建议和推荐理由。

结合小李同学实际情况,我们构建智能租房推荐模型乐园通过对相关数据进行处理和分析。根据各类房源的环境舒适度和租金等分析结果可以得出鲜明清晰的可视化结果,最终并给小李同学最优的租房建议。

3 数据采集与分析

3.1 目标选取

我们选取了贝壳找房网站作为我们大数据采集的目标网址,从中选取了四川省成都市的租房信息作为采集对象。以网站平台上出租房屋的租房方式、商圈、户型、租金等作为采集指标进行分析。

3.2 采集步骤

采集步骤包括(1)分析需要爬取内容的网页的链接规律;(2)伪装浏览器,成功访问我们需要爬取的页面;(3)导入requests包,使用get()方法,动态传入网页链接;(4)使用xpath,获取到HTML文档中的相关租房指标信息,如租房类型、租金、商圈等;(5)将爬取到的所有数据保存为CSV格式。

3.3 数据处理

通过编写爬虫算法,获取到了成都市区的全部房源:租金、商圈、户型面积、租房方式等。由于爬取到的信息不规则,得到的数据包含大量垃圾数据,无意义脏数据。通过数据清洗、归一处理、结构化存储最终得到有效租房信息共8000条。

4 结果分析

4.1 租房方式分析

通过对所有爬取到的租房方式和租金数据信息进行统计计算分析,可以发现选择整租比例高达71.07%,平均租金在3400元左右。而选择合租的比例为28.93%,平均租金只有800元左右。依据小李的实际情况,作为刚毕业的学生来说整租的租金可能会很吃力,所以推荐小李选择合租方式,平均租金在802元左右,符合小李工资承受范围。

4.2 商圈房源分析

通过对所有爬取到的房源数量数据信息进行统计分析结果。可以计算出成都市各个区的房源所占的比例如表1所示。从表中可以看出,租房房源最多的市区是高新区,占比达到了19.99%。

我们结合房源数量、商圈情况、租金价格等多个角度从10个区中选取了高新区和锦江区作为小李租房的推荐市区。成都高新区是国家级高新技术产业开发区、国家高新技术产业标准化示范区,能为小李这类专业毕业生日后提供更多的就业机会和发展渠道。锦江区是近代中国西部“洋务”和“兴商”的发祥地,且具有春熙路等经济快速发展的商业地,较为繁荣,比较适合小李这样的年轻人居住。

4.3 環境分析

房源多、周边设施配套完善、环境优越对于租客来说居住生活幸福指数高。所以我们结合各房源周边环境影响因素在高新区中选择了中和街道的房源,在锦江区选择沙河堡社区的房源进行重点分析和推荐。

4.4 租金分析

以户型和面积方面作为分析基础,我们把所爬取到的房源信息中70平方米以下的归为小户型类,70平方米到100平方米归为中户型,100平方米以上归为大户型。我们分析出了锦江区沙河堡和高新区中和房源的大户型、中户型、小户型的分别平均租金。其中在高新区,当租房方式为合租时,户型类型为大户型的平均租金为800.3元,小户型平均租金为757.5元,中户型平均租金为740.5元。在高新区,当租房方式为合租时,大户型平均租金为1093.3元,小户型平均租金为907.7元,中户型平均租金为830.5元。

4.5 综合推荐

根据4.1-4.4的综合分析,我们最终完成从8000条房源信息中预选出两套适合小李的房源。这两套房源具体对比信息如表2所示。

结合小李的实际情况与经济条件来看,合租房屋租金对于小李经济情况而言压力较小,所以推荐合租。高新区对于软件专业的小李来说职业发展前景更好。大于100平米的出租房对于小李空间冗余量较大,而70平米到100平米的中户型租房房源对于小李来说已经有足够的空余空间。表2中中和接到和沙河堡的两套房源租金、面积等指标比较接近,再结合小李所处行业和未来职业发展前景,我们选择推荐小李采取合租方式租住高新区中和军安卫士花园这套房源。

5 结论

本文选取贝壳找房网站平台和为毕业生小李寻找合适房源为案例。通过使用网络爬虫、数据预处理、数据分析等技术手段,构建了完整的智能租房推荐模型。综合考虑了租金、租房方式、商圈、环境等重要因素,最终帮助小李推荐到合适房源。实现了获取数据、数据分析结果、得出租房推荐、帮助消费者做出决策的智能应用过程。

参考文献

[1]崔凯,刘德寰,燕熙迪.时间累积、用户行为与匿名社区资本——基于豆瓣网网络爬虫数据的分析[J].青年研究,2017(1):28-36.

[2]张丽.基于大数据的公租房供求匹配研究[D].西安建筑科技大学.

[3]项博良,唐淳淳,钱前,等.基于网络爬虫的就业数据分析[J].智能计算机与应用,2020,000(001):P.223-226,230.

[4]QiZhang,HongfeiZhan,JunheYu.Car Sales Analysis Based on the Application of Big Data - ScienceDirect[J].Procedia Computer Science,2017,107:436-441.

基金项目:本文受泸州职业技术学院2021年上半年校级科研项目“基于网络爬虫和大数据分析的智能租房推荐研究——以贝壳找房网站为例”资助,项目编号:K-2137。

作者简介:汪洋(1991-),男,河南信阳人,硕士,讲师。主要研究方向:大数据技术、自然语言处理。

猜你喜欢
网络爬虫数据分析
炼铁厂铁量网页数据获取系统的设计与实现
新常态下集团公司内部审计工作研究
浅析大数据时代对企业营销模式的影响
基于读者到馆行为数据分析的高校图书馆服务优化建议
基于社会网络分析的权威网页挖掘研究
主题搜索引擎中网络爬虫的实现研究
浅析如何应对网络爬虫流量
网络爬虫针对“反爬”网站的爬取策略研究