پاورپوینت
علوم انسانی و علوم اجتماعی • کامپیوتر و IT و اینترنت
پاورپوینت ارزیابی مقایسه ای روش های یادگیری ماشین برای پیش بینی قیمت مسکن
A comparative assessment of machine learning methods for predictinghousing prices using Bayesian optimization ارزیابی مقایسه ای روش های یادگیری ماشین برای پیش بینی قیمت مسکن با استفاده از بهینه سازی بیزی
محمدحسين ابوئي مهريزي
A COMPARATIVE ASSESSMENT OF
MACHINE LEARNING METHODS FOR
PREDICTING
HOUSING PRICES USING BAYESIAN
OPTIMIZATION
ین رایپ یش
ارزیاب یم قایسه ایروشهایی اد گ یریم اش ب
ازی یزی
سکن ا اس تفاد ه از ب هینه س ب
ب
یمت
م
ب ینیق
ABSTRACT
ارزش گذاری قیمت مسکن به دلیل بحران های مالی و امالک در سراسر جهان در دهه اخیر توجه قابل توجهی را به خود جلب
، سرمایه گذاران، در واقع. نیاز فوری به طراحی سیستم های پیش بینی موثرتر قیمت مسکن وجود دارد، بنابراین.کرده است
he valuation of house prices is drawing noteworthy
attention due to worldwide financial and real estate
crises in the last decade. Therefore, there is an
immediate need to design more effective predictive
systems of house prices. Indeed, investors, creditors,
and governments are all interested in such predictive
systems to improve their buying and lending
decisions and activities. This study explores the
application of artificial intelligence, machine learning,
and nonlinear statistical models to house price
prediction problems. In that order, we use boosting
ensemble regression trees, support vector regression,
and
Gaussian
process
regression.
Bayesian
optimization is implemented in a ten-fold crossvalidation framework to determine their respective
optimal kernels and parameter values. Four
performance metrics are used to evaluate the
prediction ability of each predictive system. The
experimental results showed that boosting ensemble
regression trees performed the best, followed by
Gaussian process regression and support vector
regression. In addition, all three aforementioned
predictive systems outperformed artificial neural
Keywords:
networks
and multi-variate regression employed in
House price prediction
Predictive
recent analytics
work on the same data set. Under this
Boosting
ensembleit is concluded that boosting ensemble
perspective,
regression trees
regression
trees are clear candidates to be
Support vector regression
Gaussian
processfor
regression
considered
operational house price prediction in
Bayesian optimization
Taiwan
اعتباردهندگان و دولت ها همگی به بدنبال چنین سیستم های پیش بینی برای بهتر کردن تصمیمات و فعالیت های خرید و وام
یادگیری ماشین و مدلهای آماری غیرخطی را برای مشکالت پیشبینی، این مطالعه کاربرد هوش مصنوعی.دهی خود هستند
رگرسیون بردار پشتیبانی و رگرسیون، از درختهای رگرسیون گروهی تقویتکننده، به این ترتیب.قیمت خانه در نظر می گیرد
بهینهسازی بیزی در یک قالب اعتبارسنجی متقابل ده برابری برای تعیین هستههای بهینه و.فرآیند گاوسی استفاده میکنیم
. چهار معیار عملکرد برای ارزیابی توانایی پیشبینی هر سیستم پیشبینی استفاده میشود.مقادیر پارامتر مربوطه اجرا میشود
نتایج تجربی نشان داد که تقویت درختان رگرسیون مجموعه بهترین عملکرد را داشتند و پس از آن رگرسیون فرآیند گاوسی و
هر سه سیستم پیشبینی ذکر شده از شبکههای عصبی مصنوعی و رگرسیون چند، بعالوه.رگرسیون بردار پشتیبان قرار گرفتند
نتیجهگیری شد که تقویت. بهتر عمل کردند،متغیره که در مطالعه ی اخیر روی مجموعه دادههای مشابه استفاده شده بود
.درختان رگرسیون گروهی موارد مناسبی هستند که برای پیشبینی عملیاتی قیمت خانه در تایوان در نظر گرفته میشوند
:کلید واژه ها
پیش بینی قیمت مسکن
. تجزیه و تحلیل پیش بینی کننده.
.تقویت درختان رگرسیون گروهی
.پشتیبانی از رگرسیون برداری
رگرسیون فرآیند گاوسی
بهینه سازی بیزی
2
.1مقدمه
1. INTRODUCTION
ارزیاب ی قیم ت مس کن ی ک موضوع مهم در حوزه
مالی ارزیابی و مدیریت امالک و مستغالت است زیرا
میتوان د ب ه شرکتهای امالک ،موس سات مالی و
سرمایهگذاران کمک کند تا در مورد قیمت تصمیم
گیری کنند و اقدامات مناسب را از قبل انجام دهند.
بحران اخیر وام مسکن و رکود بزرگ که در بازارهای
مالی جهان در اواخر دهه 2000و اوایل دهه 2010
رخ داده است ،باعث افت اقتصادی در سراسر جهان،
به ویژه در اقتصاد ایاالت متحده شد .در واقع ،جهانی
شدن اقتص اد موج ی از پریشان ی اقتصادی را در
جوام ع و اقتص ادهای مل ی ایجاد کرد .بنابراین،
بسیاری از آمریکایی ها اثرات منفی مالی را تحمل
کردند .از آن زمان ،ارزیابی مناسب قیمت مسکن به
یک مسئله ی عمومی تبدیل شده است و مشاوره
تخص صی امالک و مس تغالت قطعا برای خریداران
مس کن ،فروشندگان ،موس سات مال ی و دولت مورد
نیاز است.
مطمئناً قیم ت گذاری مناس ب مس کن یک موضوع
بسیار مهم در هر دو زمینه عملی و دانشگاهی امور
مال ی امالک و مس تغالت اس ت .از منظ ر عملی،
خریداران مسکن ،فروشندگان ،اعتباردهندگان،
مدیریت ارشد و حسابرسان همگی به ارزیابی قیمت
مسکن عالقه مند هستند ،به این دلیل که این مورد
تأثیر زیادی بر تصمیم گیری مالی و سرمایه گذاری
آنها دارد.
Indeed, to make, the right decision on whether to
buy or sell a house, an economic agent (including
for instance a homebuyer, seller, creditor, senior
management, and auditor) need to use an
appropriate predictive model to predict the
accurate value of house price. In other words, he
needs an accurate model for house evaluation.
Indeed, it is important to value a property for a
purchase to be able to generate profit. For
instance, an accurate model is need by homebuyer
to evaluate his investment, by seller to evaluate
profit, by creditor to evaluate risk, and by senior
manager and auditor to better manage assets
portfolio. More to the point, real estate and
mortgage crisis also brings serious social problems
such as unemployment, economic depression and
financial crisis if many companies run into financial
distress in the same period. Consequently, there is
insistent demand for accurate house price
evaluation technical models in practice, to which
many scholars have been devoted.
Indeed, driven by the strong business needs, many
statistical modelshave been proposed for house
price evaluation in the past few years.
For instance, various statistical models have been
employed; includingregression analysis [1], semiparametric regression [2], large-scale Bayesian
vector autoregressive model [3], Granger causality
and variance decomposition [4], lognormal
regression model [5], smooth transition model and
error correction models [6], analogical regression
[7],and dynamic model averaging and dynamic
model selection [8,9].
برای تصمیم گیری صحیح در مورد خرید یا فروش خانه و در کل یک عمل،در واقع
مدیریت ارشد و حسابرس) باید از، بستانکار، فروشنده،اقتصادی (از جمله خریدار مسکن
قیمت خانه نیاز.یک مدل پیش بینی مناسب برای پیش بینی ارزش دقیق استفاده کرد
ارزش گذاری یک ملک برای خرید، در واقع.به یک مدل دقیق برای ارزیابی خانه دارد
یک مدل دقیق برای خریدار، به عنوان مثال.بسیار مهم است تا بتوان سود ایجاد کرد
اعتبارده برای، فروشنده برای ارزیابی سود خود،خانه برای ارزیابی سرمایه گذاری خود
و توسط مدیر ارشد و حسابرس برای مدیریت بهتر سبد دارایی ها مورد،ارزیابی ریسک
.نیاز است
رکود اقتصادی و،بحران امالک و وام مس کن مشکالت اجتماعی جدی مانند بیکاری
تقاضای زیادی برای مدلهای فنی ارزیابی دقیق، در نتیجه.بحران مالی را به همراه دارد
. که بسیاری از محققان به آن پرداخته اند،قیمت مسکن وجود دارد
مدل های آماری بسیاری برای ارزیابی قیمت، با توجه به نیازهای کسب و کار،در واقع
رگرسیون،]1[ از جمله تحلیل رگرسیون،مسکن در چند سال گذشته ارائه شده است
تجزیه،]3[ مدل خودرگرس یون برداری بیزی در مقیاس بزرگ،]2[ نیم ه پارامتری ک
مدل انتقال صاف و مدلهای،]5[ مدل رگرسیون لگ نرمال،]4[ علیت و واریانس گرنجر
] و میانگین گیری مدل پویا و انتخاب مدل پویا7[ رگرسیون آنالوگ،6 [ تصحیح خطا
]9و8[
4
In recent years, artificial intelligence and
machine learning based systems and
algorithms are attracting more attention
than conventional statistical models in
house price evaluation. Indeed, this
growing interest is due to the fast
development of computer power and data
storage technologies and their respective
ability
to
provide
high
prediction
accuracies; thus, increasing profits and
decreasing losses. In this regard, artificial
intelligence
systems
and
machine
learning models include fuzzy logic
system [10], hybrid fuzzy regression-fuzzy
cognitive map algorithm [11], adaptive
neuro-fuzzy system [12], support vector
machine optimized by particle swarm
optimization [13], repeated incremental
pruning to produce error reduction
(RIPPER) algorithm [14], combination of
ensemble empirical mode decomposition
and support vector regression [15], and
case-based reasoning [16]
سیستمها و الگوریتمهای مبتنی بر هوش،در سالهای اخیر
مص نوعی و یادگیری ماشین ی نس بت به مدلهای آماری
مرس وم در ارزیابی قیم ت مس کن توج ه بیشتری را به خود
این عالقه رو به رشد به دلیل توسعه، در واقع.جلب کردهاند
سریع فناوریهای ذخیرهسازی انرژی و دادههای کامپیوتری و
که در نتیجه.توانایی آنها در ارائه دقت در پیشبینی باال است
در این راستا.آن افزایش سود و کاهش زیان بدست می آید
س یستم های هوش مص نوعی و مدل های یادگیری ماشینی
الگوریتم نقش ه شناختی،]10[ شام ل س یستم منط ق فازی
س یستم عصبی فازی،]11[ فازی ترکیب ی رگرس یون فازی
ماشین بردار پشتیبان بهینهسازی شده توسط،]12[ تطبیقی
هرس افزایشی مکرر برای،]13[ بهینهس ازی) ازدحام ذرات
ترکیب ی از تجزیه حالت،]14[ تولید کاهش خطا الگوریتم
] و15[ تجرب ی مجموع ه و رگرس یون برداری پشتیبانی
.] است16[ استدالل مبتنی بر مورد
5
.
For instance, a fuzzy logic system was employed to
predict house
selling price in different regions of Eskişehir city in
Turkey by using
house, environmental, transportation, and regional
socio-economic
factors [10]. It was concluded that the predictions are
very close to
the unit real price values. A hybrid algorithm based on
fuzzy linear
regression and fuzzy cognitive map was proposed to
deal with imprecise and ambiguous inputs (for
example, various supply and demand factors) to better
forecast house price in Iran [11]. It was concluded that
the proposed hybrid system is effective in presence of
uncertainty and severe noise associated with the
housing market. Gerek [12] compared ANFIS with grid
partition (GP) and ANFIS with sub clustering (SC) in
predicting house price in the construction sector in
southern Turkey by using exclusively industry factors.
The simulations results showed
that ANFIS-GP system was, to a small degree, better
than the ANFISSC system. In [13], the authors used the
support vector machine to predict house average
selling price in China by using previous average selling
price as inputs. The parameters of the SVM was tuned
by either grid algorithm, genetic algorithm or particle
swarm optimization. They found that the SVM tuned by
particle
swarm
optimization
outperformed
backpropagation neural networks, SVM tuned by grid
algorithm and SVM tuned by genetic algorithm. In [14],
the authors employed repeated incremental pruning to
produce error reduction (RIPPER) algorithm trained with
28 variables selected by stepwise logistic regression to
predict housing price in the United States. The RIPPER
algorithm outperformed C4.5 algorithm, Naïve Bayes,
and AdaBoost algorithm. Besides, the authors in [15]
ی ک سیستم منطق فازی برای پیشبین ی قیمت فروش خان ه در مناطق،به عنوان مثال
- حملونقل و عوامل اجتماعی، محیط،مختلف شهر اسکیشهیر ترکیه با استفاده از خانه
نتیجهگیری شد که پیشبینیها به مقادیر واقعی.]10[ اقتصادی منطقهای استفاده شد
یک الگوریتم ترکیبی مبتنی بر رگرسیون خطی فازی و.قیمت واحد بسیار نزدیک است
عوامل مختلف،نقشه شناختی فازی برای مقابله با ورودیهای مبهم و مبهم (به عنوان مثال
نتیجه گیری.]11[ عرضه و تقاضا) برای پیشبینی بهتر قیمت مسکن در ایران پیشنهاد شد
شد که سیستم هیبریدی پیشنهادی در صورت عدم قطعیت و نویز شدید مرتبط با بازار
را باANFIS ) وGP( پارتیشن شبکهGEREK [12] ANFIS ..مسکن موثر است
) در پیش بینی قیمت خانه در بخش ساخت و ساز در جنوب ترکیه باSC( زیر خوشه بندی
نتایج شبیهسازیها نشان داد که سیستم.استفاده از عوامل منحصرا ً صنعتی مقایسه کرد
نویسندگان از،]13[ در. استANFISSC تا حدودی بهتر از سیستمANFIS-GP
ماشین بردار پشتیبانی برای پیش بینی میانگین قیمت فروش مسکن در چین با استفاده از
توسطSVM پارامترهای.میانگی ن قیم ت فروش قبل ی ب ه عنوان ورودی اس تفاده کردند
آنها متوجه شدند. الگوریتم ژنتیک یا بهینه سازی ازدحام ذرات تنظیم شد،الگوریتم شبکه
عملکرد بهتری از شبکه های، تنظی م شده توسط بهین ه س ازی ازدحام ذراتSVM ک ه
تنظیم شدهSVM تنظیم شده توسط الگوریتم شبکه وSVM ،عصبی پس انتشار دارد
نویسندگان از هرس افزایشی مکرر برای تولید الگوریتم،]14[ در.توسط الگوریتم ژنتیک
متغیر انتخاب شده توسط رگرسیون28 ) استفاده کردند که باRIPPER( کاهش خطا
.لجس تیک گام ب ه گام برای پیشبین ی قیم ت مسکن در ایاالت متحده آموزش داده شد
وNAÏVE BAYES الگوریتم،C4.5 از الگوریت مRIPPER الگوریت م
بهتر عمل کردADABOOST
6
Besides, the authors in [15] combined ensemble
empirical
mode
decomposition
(EEMD)
and
support vector regression to predict sudden house
price drops in the United States. The presented
model
was
trained
macroeconomic
with
variables.
ten
The
annual
experimental
results showed that the presented approach
outperformed
autoregressive,
random
walk,
and
Bayesian
Bayesian
vector
autoregressive model. In [16], the authors found
that artificial neural networks outperform the
multivariate
regression
model
in
forecasting
house price in Taiwan. Other studies focused on
decision trees for model and predict house price.
For instance, in [17], random forest algorithm was
employed to predict House Price Index in United
States and achieved a ±5% error margin. In
addition, decision trees, gradient-boosting and
random
forest
algorithm
were
found
to
be
effective compared to multiple linear regression
] تجزی ه حال ت تجرب ی مجموعه15[ نویس ندگان در،عالوه بر ای ن
) و رگرسیون برداری را برای پیشبینی افت ناگهانی قیمتEEMD(
مدل ارائ ه شده با ده.مس کن در ایاالت متحده پشتیبان ی میکنند
نتایج تجربی نشان داد.متغیر کالن اقتصادی ساالنه آموزش داده شد
،ک ه رویکرد ارائهشده عملکرد بهتری از مدل پیادهروی تصادفی
،]16[ در.خودرگرس یون بیزی و خودرگرسیون بردار بیزی دارد
نویسندگان فهمیدند که شبکه های عصبی مصنوعی از مدل رگرسیون
.چند متغیره در پیش بینی قیمت خانه در تایوان بهتر عمل می کنند
سایر مطالعات بر روی درختان تصمیم برای مدل و پیشبینی قیمت
الگوریتم جنگل تصادفی،]17[ در، به عنوان مثال.خانه متمرکز بودند
برای پیشبینی شاخص قیمت خانه در ایاالت متحده به کار گرفته شد
تقویت، درختان تصمیم، عالوه بر این. رسید%±5 و به حاشیه خطای
گرادیان و الگوریتم جنگل تصادفی در مقایسه با مدل رگرسیون خطی
.]18[ چندگانه در هنگام اعمال به دادههای بازار استرالیا مؤثر بودند
شبکههای عصبی مصنوعی در پیشبینی قیمت خانه در،در نهایت
الگوس،]19[ )چی ن (س یستم شاخ ص امالک و مس تغالت چین
)22( ] و در تارانتو22[ ) بوستون (ایاالت متحده،]20،21[ )(نیجریه
در نهایت برای پیشبینی قیمت مسکن در.]23[ ) ایتالیا.مؤثر بودند
مدل رگرسیون فازی در مقایسه با شبکههای عصبی مصنوعی،ایران
.]24[
بود
ر
مؤث
model when applied to Australian market data
[18]. Finally, artificial neural networks were found
to be effective in predicting house price in China
(China Real Estate Index System) [19], Lagos
7
The main purpose of the current work is to compare the performance of three
optimized predictive models in the context of house price evaluation; each one
belongs to a different class of technical tools.
The first one is boosting ensemble regression trees that closely resemble human
reasoning where decisions are taken following on deductive reasoning. The second
one is support vector regression which is based on inductive reasoning to separate
data in a hyper-plane. The third one is Gaussian process regression which is a nonparametric method that belongs to advanced statistical models used to
approximate shape of functions. Indeed, the origins of these predictive systems
are clearly distinct and their respective underlying algorithms differ greatly. In
addition, boosting ensemble regression trees and support vector regression are
assumptions-free, whilst Gaussian process regression assumes standard statistical
assumptions such as stationarity, normality, and independency. Therefore, the
findings from this study will enable a better assessment...جهت مطالعه ادامه متن، فایل را دریافت نمایید.
29,000 تومان