پاورپوینت
علوم انسانی و علوم اجتماعی • کامپیوتر و IT و اینترنت
پاورپوینت ارزیابی مقایسه ای روش های یادگیری ماشین برای پیش بینی قیمت مسکن
A comparative assessment of machine learning methods for predictinghousing prices using Bayesian optimization ارزیابی مقایسه ای روش های یادگیری ماشین برای پیش بینی قیمت مسکن با استفاده از بهینه سازی بیزی
محمدحسين ابوئي مهريزي
A COMPARATIVE ASSESSMENT OF
MACHINE LEARNING METHODS FOR
PREDICTING
HOUSING PRICES USING BAYESIAN
OPTIMIZATION
ین رایپ یش
ارزیاب یم قایسه ایروشهایی اد گ یریم اش ب
ازی یزی
سکن ا اس تفاد ه از ب هینه س ب
ب
یمت
م
ب ینیق
ABSTRACT
ارزش گذاری قیمت مسکن به دلیل بحران های مالی و امالک در سراسر جهان در دهه اخیر توجه قابل توجهی را به خود جلب
، سرمایه گذاران، در واقع. نیاز فوری به طراحی سیستم های پیش بینی موثرتر قیمت مسکن وجود دارد، بنابراین.کرده است
he valuation of house prices is drawing noteworthy
attention due to worldwide financial and real estate
crises in the last decade. Therefore, there is an
immediate need to design more effective predictive
systems of house prices. Indeed, investors, creditors,
and governments are all interested in such predictive
systems to improve their buying and lending
decisions and activities. This study explores the
application of artificial intelligence, machine learning,
and nonlinear statistical models to house price
prediction problems. In that order, we use boosting
ensemble regression trees, support vector regression,
and
Gaussian
process
regression.
Bayesian
optimization is implemented in a ten-fold crossvalidation framework to determine their respective
optimal kernels and parameter values. Four
performance metrics are used to evaluate the
prediction ability of each predictive system. The
experimental results showed that boosting ensemble
regression trees performed the best, followed by
Gaussian process regression and support vector
regression. In addition, all three aforementioned
predictive systems outperformed artificial neural
Keywords:
networks
and multi-variate regression employed in
House price prediction
Predictive
recent analytics
work on the same data set. Under this
Boosting
ensembleit is concluded that boosting ensemble
perspective,
regression trees
regression
trees are clear candidates to be
Support vector regression
Gaussian
processfor
regression
considered
operational house price prediction in
Bayesian optimization
Taiwan
اعتباردهندگان و دولت ها همگی به بدنبال چنین سیستم های پیش بینی برای بهتر کردن تصمیمات و فعالیت های خرید و وام
یادگیری ماشین و مدلهای آماری غیرخطی را برای مشکالت پیشبینی، این مطالعه کاربرد هوش مصنوعی.دهی خود هستند
رگرسیون بردار پشتیبانی و رگرسیون، از درختهای رگرسیون گروهی تقویتکننده، به این ترتیب.قیمت خانه در نظر می گیرد
بهینهسازی بیزی در یک قالب اعتبارسنجی متقابل ده برابری برای تعیین هستههای بهینه و.فرآیند گاوسی استفاده میکنیم
. چهار معیار عملکرد برای ارزیابی توانایی پیشبینی هر سیستم پیشبینی استفاده میشود.مقادیر پارامتر مربوطه اجرا میشود
نتایج تجربی نشان داد که تقویت درختان رگرسیون مجموعه بهترین عملکرد را داشتند و پس از آن رگرسیون فرآیند گاوسی و
هر سه سیستم پیشبینی ذکر شده از شبکههای عصبی مصنوعی و رگرسیون چند، بعالوه.رگرسیون بردار پشتیبان قرار گرفتند
نتیجهگیری شد که تقویت. بهتر عمل کردند،متغیره که در مطالعه ی اخیر روی مجموعه دادههای مشابه استفاده شده بود
.درختان رگرسیون گروهی موارد مناسبی هستند که برای پیشبینی عملیاتی قیمت خانه در تایوان در نظر گرفته میشوند
:کلید واژه ها
پیش بینی قیمت مسکن
. تجزیه و تحلیل پیش بینی کننده.
.تقویت درختان رگرسیون گروهی
.پشتیبانی از رگرسیون برداری
رگرسیون فرآیند گاوسی
بهینه سازی بیزی
2
.1مقدمه
1. INTRODUCTION
ارزیاب ی قیم ت مس کن ی ک موضوع مهم در حوزه
مالی ارزیابی و مدیریت امالک و مستغالت است زیرا
میتوان د ب ه شرکتهای امالک ،موس سات مالی و
سرمایهگذاران کمک کند تا در مورد قیمت تصمیم
گیری کنند و اقدامات مناسب را از قبل انجام دهند.
بحران اخیر وام مسکن و رکود بزرگ که در بازارهای
مالی جهان در اواخر دهه 2000و اوایل دهه 2010
رخ داده است ،باعث افت اقتصادی در سراسر جهان،
به ویژه در اقتصاد ایاالت متحده شد .در واقع ،جهانی
شدن اقتص اد موج ی از پریشان ی اقتصادی را در
جوام ع و اقتص ادهای مل ی ایجاد کرد .بنابراین،
بسیاری از آمریکایی ها اثرات منفی مالی را تحمل
کردند .از آن زمان ،ارزیابی مناسب قیمت مسکن به
یک مسئله ی عمومی تبدیل شده است و مشاوره
تخص صی امالک و مس تغالت قطعا برای خریداران
مس کن ،فروشندگان ،موس سات مال ی و دولت مورد
نیاز است.
مطمئناً قیم ت گذاری مناس ب مس کن یک موضوع
بسیار مهم در هر دو زمینه عملی و دانشگاهی امور
مال ی امالک و مس تغالت اس ت .از منظ ر عملی،
خریداران مسکن ،فروشندگان ،اعتباردهندگان،
مدیریت ارشد و حسابرسان همگی به ارزیابی قیمت
مسکن عالقه مند هستند ،به این دلیل که این مورد
تأثیر زیادی بر تصمیم گیری مالی و سرمایه گذاری
آنها دارد.
Indeed, to make, the right decision on whether to
buy or sell a house, an economic agent (including
for instance a homebuyer, seller, creditor, senior
management, and auditor) need to use an
appropriate predictive model to predict the
accurate value of house price. In other words, he
needs an accurate model for house evaluation.
Indeed, it is important to value a property for a
purchase to be able to generate profit. For
instance, an accurate model is need by homebuyer
to evaluate his investment, by seller to evaluate
profit, by creditor to evaluate risk, and by senior
manager and auditor to better manage assets
portfolio. More to the point, real estate and
mortgage crisis also brings serious social problems
such as unemployment, economic depression and
financial crisis if many companies run into financial
distress in the same period. Consequently, there is
insistent demand for accurate house price
evaluation technical models in practice, to which
many scholars have been devoted.
Indeed, driven by the strong business needs, many
statistical modelshave been proposed for house
price evaluation in the past few years.
For instance, various statistical models have been
employed; includingregression analysis [1], semiparametric regression [2], large-scale Bayesian
vector autoregressive model [3], Granger causality
and variance decomposition [4], lognormal
regression model [5], smooth transition model and
error correction models [6], analogical regression
[7],and dynamic model averaging and dynamic
model selection [8,9].
برای تصمیم گیری صحیح در مورد خرید یا فروش خانه و در کل یک عمل،در واقع
مدیریت ارشد و حسابرس) باید از، بستانکار، فروشنده،اقتصادی (از جمله خریدار مسکن
قیمت خانه نیاز.یک مدل پیش بینی مناسب برای پیش بینی ارزش دقیق استفاده کرد
ارزش گذاری یک ملک برای خرید، در واقع.به یک مدل دقیق برای ارزیابی خانه دارد
یک مدل دقیق برای خریدار، به عنوان مثال.بسیار مهم است تا بتوان سود ایجاد کرد
اعتبارده برای، فروشنده برای ارزیابی سود خود،خانه برای ارزیابی سرمایه گذاری خود
و توسط مدیر ارشد و حسابرس برای مدیریت بهتر سبد دارایی ها مورد،ارزیابی ریسک
.نیاز است
رکود اقتصادی و،بحران امالک و وام مس کن مشکالت اجتماعی جدی مانند بیکاری
تقاضای زیادی برای مدلهای فنی ارزیابی دقیق، در نتیجه.بحران مالی را به همراه دارد
. که بسیاری از محققان به آن پرداخته اند،قیمت مسکن وجود دارد
مدل های آماری بسیاری برای ارزیابی قیمت، با توجه به نیازهای کسب و کار،در واقع
رگرسیون،]1[ از جمله تحلیل رگرسیون،مسکن در چند سال گذشته ارائه شده است
تجزیه،]3[ مدل خودرگرس یون برداری بیزی در مقیاس بزرگ،]2[ نیم ه پارامتری ک
مدل انتقال صاف و مدلهای،]5[ مدل رگرسیون لگ نرمال،]4[ علیت و واریانس گرنجر
] و میانگین گیری مدل پویا و انتخاب مدل پویا7[ رگرسیون آنالوگ،6 [ تصحیح خطا
]9و8[
4
In recent years, artificial intelligence and
machine learning based systems and
algorithms are attracting more attention
than conventional statistical models in
house price evaluation. Indeed, this
growing interest is due to the fast
development of computer power and data
storage technologies and their respective
ability
to
provide
high
prediction
accuracies; thus, increasing profits and
decreasing losses. In this regard, artificial
intelligence
systems
and
machine
learning models include fuzzy logic
system [10], hybrid fuzzy regression-fuzzy
cognitive map algorithm [11], adaptive
neuro-fuzzy system [12], support vector
machine optimized by particle swarm
optimization [13], repeated incremental
pruning to produce error reduction
(RIPPER) algorithm [14], combination of
ensemble empirical mode decomposition
and support vector regression [15], and
case-based reasoning [16]
سیستمها و الگوریتمهای مبتنی بر هوش،در سالهای اخیر
مص نوعی و یادگیری ماشین ی نس بت به مدلهای آماری
مرس وم در ارزیابی قیم ت مس کن توج ه بیشتری را به خود
این عالقه رو به رشد به دلیل توسعه، در واقع.جلب کردهاند
سریع فناوریهای ذخیرهسازی انرژی و دادههای کامپیوتری و
که در نتیجه.توانایی آنها در ارائه دقت در پیشبینی باال است
در این راستا.آن افزایش سود و کاهش زیان بدست می آید
س یستم های هوش مص نوعی و مدل های یادگیری ماشینی
الگوریتم نقش ه شناختی،]10[ شام ل س یستم منط ق فازی
س یستم عصبی فازی،]11[ فازی ترکیب ی رگرس یون فازی
ماشین بردار پشتیبان بهینهسازی شده توسط،]12[ تطبیقی
هرس افزایشی مکرر برای،]13[ بهینهس ازی) ازدحام ذرات
ترکیب ی از تجزیه حالت،]14[ تولید کاهش خطا الگوریتم
] و15[ تجرب ی مجموع ه و رگرس یون برداری پشتیبانی
.] است16[ استدالل مبتنی بر مورد
5
.
For instance, a fuzzy logic system was employed to
predict house
selling price in different regions of Eskişehir city in
Turkey by using
house, environmental, transportation, and regional
socio-economic
factors [10]. It was concluded that the predictions are
very close to
the unit real price values. A hybrid algorithm based on
fuzzy linear
regression and fuzzy cognitive map was proposed to
deal with imprecise and ambiguous inputs (for
example, various supply and demand factors) to better
forecast house price in Iran [11]. It was concluded that
the proposed hybrid system is effective in presence of
uncertainty and severe noise associated with the
housing market. Gerek [12] compared ANFIS with grid
partition (GP) and ANFIS with sub clustering (SC) in
predicting house price in the construction sector in
southern Turkey by using exclusively industry factors.
The simulations results showed
that ANFIS-GP system was, to a small degree, better
than the ANFISSC system. In [13], the authors used the
support vector machine to predict house average
selling price in China by using previous average selling
price as inputs. The parameters of the SVM was tuned
by either grid algorithm, genetic algorithm or particle
swarm optimization. They found that the SVM tuned by
particle
swarm
optimization
outperformed
backpropagation neural networks, SVM tuned by grid
algorithm and SVM tuned by genetic algorithm. In [14],
the authors employed repeated incremental pruning to
produce error reduction (RIPPER) algorithm trained with
28 variables selected by stepwise logistic regression to
predict housing price in the United States. The RIPPER
algorithm outperformed C4.5 algorithm, Naïve Bayes,
and AdaBoost algorithm. Besides, the authors in [15]
ی ک سیستم منطق فازی برای پیشبین ی قیمت فروش خان ه در مناطق،به عنوان مثال
- حملونقل و عوامل اجتماعی، محیط،مختلف شهر اسکیشهیر ترکیه با استفاده از خانه
نتیجهگیری شد که پیشبینیها به مقادیر واقعی.]10[ اقتصادی منطقهای استفاده شد
یک الگوریتم ترکیبی مبتنی بر رگرسیون خطی فازی و.قیمت واحد بسیار نزدیک است
عوامل مختلف،نقشه شناختی فازی برای مقابله با ورودیهای مبهم و مبهم (به عنوان مثال
نتیجه گیری.]11[ عرضه و تقاضا) برای پیشبینی بهتر قیمت مسکن در ایران پیشنهاد شد
شد که سیستم هیبریدی پیشنهادی در صورت عدم قطعیت و نویز شدید مرتبط با بازار
را باANFIS ) وGP( پارتیشن شبکهGEREK [12] ANFIS ..مسکن موثر است
) در پیش بینی قیمت خانه در بخش ساخت و ساز در جنوب ترکیه باSC( زیر خوشه بندی
نتایج شبیهسازیها نشان داد که سیستم.استفاده از عوامل منحصرا ً صنعتی مقایسه کرد
نویسندگان از،]13[ در. استANFISSC تا حدودی بهتر از سیستمANFIS-GP
ماشین بردار پشتیبانی برای پیش بینی میانگین قیمت فروش مسکن در چین با استفاده از
توسطSVM پارامترهای.میانگی ن قیم ت فروش قبل ی ب ه عنوان ورودی اس تفاده کردند
آنها متوجه شدند. الگوریتم ژنتیک یا بهینه سازی ازدحام ذرات تنظیم شد،الگوریتم شبکه
عملکرد بهتری از شبکه های، تنظی م شده توسط بهین ه س ازی ازدحام ذراتSVM ک ه
تنظیم شدهSVM تنظیم شده توسط الگوریتم شبکه وSVM ،عصبی پس انتشار دارد
نویسندگان از هرس افزایشی مکرر برای تولید الگوریتم،]14[ در.توسط الگوریتم ژنتیک
متغیر انتخاب شده توسط رگرسیون28 ) استفاده کردند که باRIPPER( کاهش خطا
.لجس تیک گام ب ه گام برای پیشبین ی قیم ت مسکن در ایاالت متحده آموزش داده شد
وNAÏVE BAYES الگوریتم،C4.5 از الگوریت مRIPPER الگوریت م
بهتر عمل کردADABOOST
6
Besides, the authors in [15] combined ensemble
empirical
mode
decomposition
(EEMD)
and
support vector regression to predict sudden house
price drops in the United States. The presented
model
was
trained
macroeconomic
with
variables.
ten
The
annual
experimental
results showed that the presented approach
outperformed
autoregressive,
random
walk,
and
Bayesian
Bayesian
vector
autoregressive model. In [16], the authors found
that artificial neural networks outperform the
multivariate
regression
model
in
forecasting
house price in Taiwan. Other studies focused on
decision trees for model and predict house price.
For instance, in [17], random forest algorithm was
employed to predict House Price Index in United
States and achieved a ±5% error margin. In
addition, decision trees, gradient-boosting and
random
forest
algorithm
were
found
to
be
effective compared to multiple linear regression
] تجزی ه حال ت تجرب ی مجموعه15[ نویس ندگان در،عالوه بر ای ن
) و رگرسیون برداری را برای پیشبینی افت ناگهانی قیمتEEMD(
مدل ارائ ه شده با ده.مس کن در ایاالت متحده پشتیبان ی میکنند
نتایج تجربی نشان داد.متغیر کالن اقتصادی ساالنه آموزش داده شد
،ک ه رویکرد ارائهشده عملکرد بهتری از مدل پیادهروی تصادفی
،]16[ در.خودرگرس یون بیزی و خودرگرسیون بردار بیزی دارد
نویسندگان فهمیدند که شبکه های عصبی مصنوعی از مدل رگرسیون
.چند متغیره در پیش بینی قیمت خانه در تایوان بهتر عمل می کنند
سایر مطالعات بر روی درختان تصمیم برای مدل و پیشبینی قیمت
الگوریتم جنگل تصادفی،]17[ در، به عنوان مثال.خانه متمرکز بودند
برای پیشبینی شاخص قیمت خانه در ایاالت متحده به کار گرفته شد
تقویت، درختان تصمیم، عالوه بر این. رسید%±5 و به حاشیه خطای
گرادیان و الگوریتم جنگل تصادفی در مقایسه با مدل رگرسیون خطی
.]18[ چندگانه در هنگام اعمال به دادههای بازار استرالیا مؤثر بودند
شبکههای عصبی مصنوعی در پیشبینی قیمت خانه در،در نهایت
الگوس،]19[ )چی ن (س یستم شاخ ص امالک و مس تغالت چین
)22( ] و در تارانتو22[ ) بوستون (ایاالت متحده،]20،21[ )(نیجریه
در نهایت برای پیشبینی قیمت مسکن در.]23[ ) ایتالیا.مؤثر بودند
مدل رگرسیون فازی در مقایسه با شبکههای عصبی مصنوعی،ایران
.]24[
بود
ر
مؤث
model when applied to Australian market data
[18]. Finally, artificial neural networks were found
to be effective in predicting house price in China
(China Real Estate Index System) [19], Lagos
7
The main purpose of the current work is to compare the performance of three
optimized predictive models in the context of house price evaluation; each one
belongs to a different class of technical tools.
The first one is boosting ensemble regression trees that closely resemble human
reasoning where decisions are taken following on deductive reasoning. The second
one is support vector regression which is based on inductive reasoning to separate
data in a hyper-plane. The third one is Gaussian process regression which is a nonparametric method that belongs to advanced statistical models used to
approximate shape of functions. Indeed, the origins of these predictive systems
are clearly distinct and their respective underlying algorithms differ greatly. In
addition, boosting ensemble regression trees and support vector regression are
assumptions-free, whilst Gaussian process regression assumes standard statistical
assumptions such as stationarity, normality, and independency. Therefore, the
findings from this study will enable a better assessment of these different
predictive systems in the problem of house price evaluation by means of various
performance measures to identify the better one.
.هدف اصلی مطالعه حاضر مقایسه عملکرد سه مدل پیشبینی بهینه در زمینه ارزیابی قیمت مسکن است
تقویت درختان رگرسیون گروهی، اولین مورد.هر کدام به دسته ی متفاوتی از ابزارهای فنی تعلق دارند
جایی که تصمیمات بر اساس استدالل قیاسی گرفته می،است که شباهت زیادی به استدالل انسانی دارند
مورد دوم رگرسیون برداری پشتیبان است که بر اساس استدالل استقرایی برای جداسازی داده ها.شود
سومین روش رگرسیون فرآیند گاوسی است که یک روش ناپارامتریک است که.در یک ابر صفحه است
منشأ این، در واقع.متعلق به مدلهای آماری پیشرفته است که برای تخمین شکل توابع استفاده میشود
.سیستمهای پیشبینی به وضوح متمایز است و الگوریتمهای زیربنایی مربوطه آنها بسیار متفاوت است
در، تقویت درختان رگرسیون مجموعه و رگرسیون بردار پشتیبان بدون مفروضات هستند،عالوه بر این
نرمال بودن و استقالل،حالی که رگرسیون فرآیند گاوسی مفروضات آماری استانداردی مانند ثابت بودن
یافتههای این مطالعه ارزیابی بهتری از این سیستمهای پیشبینی متفاوت را در، بنابراین.را فرض میکند
مسئله ارزیابی قیمت مسکن با استفاده از معیارهای عملکردی مختلف برای شناسایی بهتر امکانپذیر
.میسازد
8
Of Boosting Ensemble Regression Trees,
Support Vector Regression, Gaussian Process
Regression InThe Task Of Predicting House
Price. Indeed, These Models Have Not Been
Employed And Validated On The Same
Problem. Second, The Parameters Of The
Three Models Are Optimized For Better
Fitting
Of
The
Data
And
Accurate
Predictions. In This Regard, Bayesian
Optimization Algorithm Is Employed. Indeed,
Contrary To The Literature, We Use
Optimization For Better Tuning Of The
Parameters Of The Models. Third, We Use
The Same Large Database As In [16] Where
Artificial Neural Networks Outperformed
Multivariate Regression Models. Hence, The
Models We Adopt And Optimize By Bayesian
Optimization (Boosting Ensemble Regression
Trees, Support Vector Regression, Gaussian
Process Regression) Will Be Compared To
Artificial Neural Networks And Multivariate
Regression Models. Recall That Support
Vector Machines Are Powerful Models
Successfully
Employed
In
Various
Applications;
Including
Stock
Price
Forecasting [25], Cryptocurrency Price
Forecasting Prediction [26], Cryptocurrency
Trading Volume Prediction [27], Credit Risk
Evaluation [28], Bank Telemarketing [29],
Financial Risk Forecasting [30], Solar
Radiation Prediction [31], Beam Multidamage Detection [32], And Earth-rock Dam
Control [33]. Besides, Boosting Ensemble
Decision Trees Are Capable To Improve
Prediction Ability Of Regressors [34] And Are
Found To Be Effective In A Variety Of
Managerial
Applications
[35,36]
And
Scientific Problems [37,38]. Finally, Gaussian
Process Regression Is An Efficient Model
Widely Used In Engineering Problems [39–
41].
] در مطالعه اخیرشان16[ ما سعی می کنیم نتایج خود را با نتایج به دست آمده،در این راستا
جایی که آنها دریافتند که شبکه های عصبی مصنوعی هنگام اعمال بر روی،مقایسه کنیم
سهم، بنابراین.یک پایگاه داده بزرگ از مدل های رگرسیون چند متغیره بهتر عمل می کنند
رگرسیون بردار، م ا عملکرد تقوی ت درختان رگرس یون مجموع ه، ابتدا.م ا س ه برابر اس ت
رگرسیون فرآیند گاوسی را در کار پیشبینی قیمت خانه پیادهسازی و مقایسه،پشتیبانی
، دوم. این مدلها برای همان مشکل مورد استفاده و تایید قرار نگرفتهاند، در واقع.میکنیم
در این.پارامترهای سه مدل برای برازش بهتر داده ها و پیش بینی های دقیق بهینه شده اند
از، برخالف گذشته، در واق ع.راس تا از الگوریت م بهین ه س ازی بیزی اس تفاده شده اس ت
ما از همان پایگاه، سوم.بهینهسازی برای تنظیم بهتر پارامترهای مدلها استفاده میکنیم
] اس تفاده م ی کنی م ک ه در آ ن شبک ه های عص بی مصنوعی از مدل های16[ داده بزرگ
مدلهایی که با بهینهسازی بیزی اتخاذ و، از این رو.رگرسیون چند متغیره بهتر عمل کردند
، رگرس یون بردار پشتیبانی،بهینهس ازی میکنی م (تقوی ت درختهای رگرس یون مجموع ه
رگرسیون فرآیند گاوسی) با شبکههای عصبی مصنوعی و مدلهای رگرسیون چند متغیره
به یاد داشته باشید که ماشین های بردار پشتیبان مدل های قدرتمندی.مقایسه میشوند
از جمله پیشبینی قیمت.هستند که با موفقیت در کاربردهای مختلف به کار گرفته شده اند
پیشبین ی حجم معامالت ارز،]26[ پیشبین ی پیشبین ی قیم ت ارز دیجیتال،]25[ س هام
پیشبینی ریسک،]29[ بازاریابی تلفنی بانک،]28[ ارزیابی ریسک اعتباری،]27[ دیجیتال
] و کنترل سد32[ تشخیص چند آسیب پرتو، ]31[ پیشبینی تابش خورشیدی،]30[ مالی
تقویت درختهای تصمیم مجموعه قادر به بهبود توانایی پیشبینی، عالوه بر این.]33[ خاکی
] و مشکالت علمی35،36[ ] هس تند و در انواع کاربردهای مدیریت ی34[ رگرس یونها
رگرسیون فرآیند گاوسی یک مدل کارآمد است که به طور، در نهایت.] موثر هستند37،38[
]41،39[گسترده در مسائل مهندسی استفاده می شود
9
Is Used In The Current Work To Find Optimal
Values Of Key Parameters Of Boosting Ensemble
Regression Trees, Support Vector Regression, And
Gaussian Process Regression. Bring In Mind That
] در کار فعلی42[ )BO( الگوریتم بهینهسازی بیزی،برای تنظیم بهینه
Bayesian Optimization Algorithm Allows Sampling
برای یافتن مقادیر بهینه پارامترهای کلیدی تقویت درختهای رگرسیون
Of Several Thousand Points Within The Variable
رگرس یون بردار پشتیبان و رگرسیون فرآیند گاوس ی استفاده،مجموع ه
Bounds, Takes Several Of The Best Feasible
ب ه خاط ر داشت ه باشی د ک ه الگوریت م بهینهسازی بیزی امکان.میشود
Points, And Improves Them Using Local Search In
،نمونهبرداری از چندین هزار نقطه را در محدودههای متغیر فراهم میکند
Order To Find The Apparent Best Feasible Point
و آنها را با استفاده از،چندین مورد از بهترین نقاط امکانپذیر را میگیرد
[42]. In Addition, The Algorithm Is Fast Since The
جستجوی محلی بهبود میبخشد تا بهترین نقطه عملی ظاهری را پیدا
Best Feasible Points Depend On The Modeled
الگوریتم سریع اس ت زیرا بهترین نقاط امکان، عالوه بر این.]42[ کند
Posterior
Distribution.
The rest of the paper is organized as follows: The
three predictive systems (ensemble regression
پذیر به توزیع خلفی مدل شده بستگی دارد
سه سیستم پیش بینی:بقیه مقاله به شرح زیر سازماندهی شده است
و رگرسیون فرآیند، رگرسیون بردار پشتیبان،(درخت رگرسیون مجموعه
trees, support vector regression, and Gaussian
و طراح ی تجربی و معیارهای عملکرد در، بهین ه س ازی بیزی،)گاوس ی
process regression), Bayesian optimization, and
.3 بخش. نتایج شبیه سازی در ارائه شده است. ارائه شده است2 بخش
experimental design and performance measures
را به پایان می رساند، در نهایت. نتایج را مورد بحث قرار می دهد4 بخش
are presented in Section 2. The simulation results
are presented in Section 3. Section 4 discusses
the results. Finally, Section 4 concludes the paper.
10
.METHODS 2
2.1. Boosting ensemble
regression trees
Regression trees are used to construct predictive
models from data
by recursively partitioning the data space into
subsets and fitting a
predictive model within each subset. Accordingly,
data partition is viewed graphically as a decision
tree. In the current study, we focus
on boosting ensemble systems which are
composed of homogeneous sub-systems
represented by several regression trees.
روش ها.2
تقویت درختان رگرسیون گروهی1.2
درختهای رگرسیون برای ساخت مدلهای پیشبینی از دادهها با
تقسیمبندی بازگشتی فضای داده به زیر مجموعهها و برازش یک
، بر این اساس.مدل پیشبینی در هر زیر مجموعه استفاده میشوند
پارتیش ن داده ه ا ب ه ص ورت گرافیک ی ب ه عنوان درخ ت تصمیم
م ا بر تقوی ت سیستمهای، در مطالع ه حاض ر.مشاهده م ی شود
مجموعهای که از زیرسیستمهای همگن تشکیل شده توسط چندین
. تمرکز میکنیم،درخت رگرسیون تشکیل شدهاند
11
پشتیبانی از رگرسیون برداری2.2
2.2. Support vector
regression
The support vector regression (SVR)
[44] seeks to map low-dimensional
non-linear
data
points
to
a
high-
] به دنبال44[ )SVR( رگرس یون بردار پشتیبان
ترسیم نقاط داده غیرخطی کم بعدی به فضایی با ابعاد
باال با استفاده از یک تابع هسته خاص است به طوری
که فاصله خطا بین نقاط داده و ابر صفحه به حداقل
.برسد
dimensional space by employing a
specific kernel function such that the
error distance between the data points
and the hyperplane is minimized.
12
2.3. The Bayesian
optimization
The Bayesian optimization (BO) [42]
seeks to find the global optimum by
incorporating prior belief about the
objective function f (x) and updates the
prior with observations taken from f (x)
to obtain a posterior that improves
approximation of f (x). In addition, the
Bayesian optimization employs an
acquisition function that applies sampling
in search sets where an improvement
over the current best observation is
probable. For instance, let f (x) be the
objective function and EI(x,Q) be the
expected improvement based on the
posterior distribution function
بهینه سازی بیزی2.3
] به دنبال یافتن بهینه جهانی با42[ )BO( بهینه سازی بیزی
و به روزF (X) ترکیب یافته های قبلی در مورد تابع هدف
برای به دستF (X) رسانی قبلی با مشاهدات برگرفته از
را بهبود میF (X) آوردن یک مورد بعدی است که تقریب
بهینهسازی بیزی از یک تابع اکتسابی، عالوه بر این.بخشد
استفاده میکند که نمونهگیری را در مجموعههای جستجو که
،در آن بهبودی نسبت به بهترین مشاهده فعلی محتمل است
.اعمال میکند
13
2.5. Protocol of experiments
and performance measures
We adopt ten-fold cross-validation method
to train and test each predictive model
using machine learning toolbox.
پروتکل آزمایش ها و معیارهای عملکرد2.5
ما روش روش اعتبار سنجی متقابل ده برابری را برای آموزش و آزمایش هر مدل
پیش بینی و با استفاده از جعبه ابزار یادگیری ماشین اتخاذ میکنیم
14
3. Data and results
The data used to train and test boosting ensemble
regression trees, support vector regression, and
Gaussian process regression consists of five instances
(attributes) and one output representing house price.
The five input instances are house age in year,
distance to the nearest transportation station in
meter, number of convenience stores in the living
circle on foot, geographic coordinate in terms of
latitude in degree unit, and geographic coordinate in
terms of longitude in degree unit. The total number of
instances is 414. The data is obtained from Taiwan
Ministry of the Interior during the period of June 2012
to May 2013 and gathered from two districts in Taipei
City and two districts in New Taipei City. The
convergence of minimum objective depending on
functions evaluation from Bayesian optimization
algorithm is displayed in Fig. 1 when applied to
boosting ensemble regression trees, Fig. 2 when
applied to support vector regression, and Fig. 3 when
applied to Gaussian process regression predictive
model. Recall that Bayesian Optimization applies a
direct the search in order to find the minimum or
maximum of an objective function from a Bayesian
perspective. Accordingly, the optimal parameters are
found by using the predicted mean and predicted
variance generated by the normal distribution model.
As shown in Figs. 1–3, both minimum observed
objective and estimated minimum objective decrease
at the same fast rate in a simultaneous manner.
ج
نتای
و
اطالعات
.3
،دادههای مورد استفاده برای آموزش و آزمایش درختهای رگرسیون مجموعهای تقویتکننده
و رگرسیون فرآیند گاوسی شامل پنج نمونه (ویژگی) و یک خروجی،رگرسیون بردار پشتیبانی
فاصله تا، سن خانه در سال: پنج نمونه ورودی عبارتند از.است که قیمت خانه را نشان میدهد
، تعداد فروشگاه های رفاه در دایره زندگی پیاده،نزدیکترین ایستگاه حمل و نقل بر حسب متر
مختصات جغرافیایی بر حسب عرض جغرافیایی بر حسب واحد درجه و مختصات جغرافیایی بر
داده ها از. مورد است414 تعداد کل موارد. .حسب طول جغرافیایی بر حسب واحد درجه
به دست آمده و از دو منطقه در شهر تایپه2013 تا مه2012 وزارت کشور تایوان در دوره ژوئن
همگرایی حداقل هدف بسته به ارزیابی.و دو منطقه در شهر جدید تایپه جمع آوری شده است
هنگامی که برای تقویت درختهای رگرسیون1 توابع از الگوریتم بهینهسازی بیزی در شکل
برای3 هنگامی که برای پشتیبانی از رگرسیون برداری و شکل2 شکل،مجموعه اعمال میشود
به یاد داشته. نمایش داده شده است،مدل پیشبینی رگرسیون فرآیند گاوس اعمال میشود
باشید که بهینه سازی بیزی یک جستجوی مستقیم را برای یافتن حداقل یا حداکثر یک تابع
پارامترهای بهینه با استفاده از میانگین، بر این اساس.هدف از دیدگاه بیزی اعمال می کند
.پیشبینیشده و واریان س پیشبینیشده تولید شده توس ط مدل توزی ع نرمال یافت میشوند
هم حداق ل هدف مشاهده شده و هم،3-1 .همانطور که در شکل ها نشان داده شده است
، به عبارت دیگر.حداقل هدف برآورد شده با سرعت یکسانی به طور همزمان کاهش می یابد
به طور،بهینهسازی بیزی برای تنظیم سیستمهای پیشبینی در نظر گرفته شده در کار فعلی
.ت
اس
قبول
ل
قاب
و
تشویقکننده
ی
منطق
15
تقویت مدل پیشبینی درختان. نقشه ی عملکرد هدفدار حداقل وابسته به ارزیابی های عملکرد: 1 شکل
رگرسیون مجموعه
Fig. 1. Plot of minimum objective function depending on function
evaluations: boosting ensemble regression trees predictive model.
16
نمودار جعبه خطای پیش بینی مرتبط با هر سیستم4 شکل،عالوه بر این
مجددا ً مشاهده می شود که درختان رگرسیون.پیش بینی را نشان می دهد
مجموعه ای تقویت کننده دارای کمترین میانگین نرخ خطا و تغییرپذیری
، عالوه بر این.خطای کم هستند که با دامنه توزیع نشان داده شده است
رگرسیون بردار پشتیبان دارای باالترین میانه خطا و رگرسیون فرآیند
تقویت درختان رگرسیون، از این رو.گاوسی بیشترین تنوع خطا را دارد
مجموعه ای خطای پیش بینی پایدار و کم را در مقایسه با سایر سیستم
نتایج ارزیابی سیستم های پیش1 جدول.های پیش بینی ارائه می دهد
Besides, Fig. 4 Shows The Boxplot Of Prediction Error
Associated With Each Predictive System. It Can Again
Be Seen That Boosting Ensemble Regression Trees Have
The Smallest Error Rate Median And Low Error
Variability Indicated By The Range Of The Distribution.
In Addition, Support Vector Regression Has The Highest
Error Median And Gaussian Process Regression Has The
Largest Error Variability. Hence, Boosting Ensemble
Regression Trees Provide Stable And Low Prediction
Error Compared To The Other Predictive Systems. Table
1 Summarizes The Evaluation Results Of The
Aforementioned Predictive Systems In Terms Of RMSE,
MAE, MARE, And MAPE Performance MeasuresAs Shown
In The Table, Boosting Ensemble Regression Trees
Yielded To The Lowest Performance Measures Followed
By Gaussian Process Regression And Support Vector
Regression Respectively.
بینی فوق الذکر را بر حسب معیارهای عملکردRMSE، MAE،
MARE وMAPE همانطور که در جدول نشان داده.خالصه می کند
تقویت درختان رگرسیون مجموعهای به کمترین معیارهای،شده است
عملکردی پس از رگرسیون فرآیند گاوسی و رگرسیون بردار پشتیبان منجر
دقت کلی تقویت درختان رگرسیون گروهی باالتر از رگرسیون، بنابراین.شد
فرآیند گاوسی و رگرسیون بردار پشتیبانی است.
17
Thus, the overall accuracy of boosting ensemble regression
trees is higher than those of Gaussian process regression and
support vector regression. Obviously, the comparison of the
boosting ensemble regression trees over the other single
predictive systems shown in Table 1 is helpful in order to
understand whether ensemble predictive systems can
outperform the single ones; for instance
Gaussian process regression and support vector regression.
Accordingly, we find that the ensemble predictive system;
namely the boosting ensemble regression trees, performs
better than single best predictive systems when tested on the
data set at hand. However, constructing and optimizing
ensembles predictive systems such as boosting ensemble
regression trees requires larger memory and computational
time than constructing a single optimized predictive system;
for instance,Gaussian process regression and support vector
regression.
بدیه ی اس ت ک ه مقایس ه درختهای رگرس یون گروه ی تقویتکننده نس بت ب ه سایر
ب ه منظور درک اینک ه آیا1 س یستمهای پیشبین ی منفرد نشاندادهشده در جدول
سیستمهای پیشبینی مجموعه میتوانند عملکرد بهتری از سیستمهای منفرد داشته
. مفی د اس ت،باشن د
متوجه، بر این اساس. رگرسیون فرآیند گاوسی و رگرسیون بردار پشتیبانی،عنوان مثال
یعن ی درختهای رگرس یون مجموعه،م ی شوی م ک ه س یستم پی ش بین ی مجموع ه
بهت ر از بهتری ن س یستمهای پیشبین ی منفرد هنگام آزمایش بر روی،تقویتکننده
ساخت و بهینهسازی سیستمهای، با این حال.مجموعه دادههای موجود عمل میکنند
به حافظه و زمان، مانند تقویت درختهای رگرسیون مجموعهای،پیشبینی مجموعهها
به.محاسباتی بیشتری نسبت به ساخت یک سیستم پیشبینی بهینهشده واحد نیاز دارد
. رگرس یون فرآین د گاوس ی و رگرس یون بردار پشتیبان ی را انجام میدهد،عنوان مثال
معیارهای عملکرد: 1 جدول
18
بحث.4
و با استفاده از مدل های شبکه های عصبیMRSE 8.04 ] با استفاده از مدل های رگرسیون چند متغیره به میانگین16[ به خاطر داشته باشید که
از آنجایی. زمانی که هر دو بر روی مجموعه داده های مشابهی اعتبارسنجی می شوند، یک پرسپترون چند الیه، به عنوان مثال. دست یافت7.12 مصنوعی به
6.4450 وRMSE 5.4240، 6.2214 رگرسیون فرآیند گاوسی و رگرسیون بردار پشتیبان به ترتیب به ارزش،که تقویت درختان رگرسیون مجموعه
. آنها به وضوح از مدل های رگرسیون چند متغیره و شبکه های عصبی مصنوعی استفاده شده در همان مجموعه داده ها بهتر عمل کردند،رسیدند
4. Discussion
Bear in mind that [16] achieved an average MRSE of 8.04 by using multivariate
regression models and 7.12 by using artificial neural networks models; for
instance, a multi-layered perceptron, when both validated on the same data set
as
ours.
Since
boosting
ensemble
regression
trees,
Gaussian
process
regression, and support vector regression yielded respectively to RMSE value of
5.4240, 6.2214, and 6.4450, they clearly outperformed multivariate regression
models and artificial neural networks employed by [16] on the same data set.
19
پشتیبانی از مدل پیش بینی رگرسیون. نقشه ی عملکرد هدفدار حداقل وابسته به ارزیابی های عملکرد: 2 شکل
برداری
Fig. 2. Plot of minimum objective function depending on function evaluations: support vector regression predictive
model
20
مدل پیشبینی. . نقشه ی عملکرد هدفدار حداقل وابسته به ارزیابی های عملکرد: 3 شکل
رگرسیون فرآیند گاوسی
Fig. 3. Plot of minimum objective function depending on function evaluations: Gaussian process regression
predictive model.
21
22
The Underperformance Of Artificial Neural Networks In [16] Against Boosting
Ensemble Regression Trees, Gaussian Process Regression, And Support
Vector Regression Could Be Explained By The Fact That The Data Size Is
Relatively Small As The Total Number Of Instances Is Only 414. Indeed,
Artificial Neural Networks Are Data Consuming Intelligent Machines Capable
To Approximate Nonlinear Functions; But They Require Very Large Number
Of Examples To Efficiently Learn Data For Better Function
Approximation. Besides, Multivariate Regression Models Employed In
[16] Are Linear Statistical Models Which Are Sensitive To Normality
Distribution, Nonlinearity, And Outliers In Data. On The Other
Handboosting ensemble regression trees are kind of artificial
intelligence methods that take advantage of their relative processing
simplicity and parallelization technique. Specifically, regression trees
determine a set of if-then rules and minimize the error cost by
considering both error rate and variance. They do not require
assumptions regarding the distribution of predictors and can grip
highly skewed numerical data.
] در برابر16[ عملکرد ضعی ف شبک ه های عص بی مصنوعی در
و، رگرسیون فرآیند گاوسی،تقویت درختان رگرسیون مجموعه
رگرسیون بردار پشتیبان را می توان با این واقعیت توضیح داد که
اندازه داده ها نسبتا کوچک است زیرا تعداد کل نمونه ها تنها
مص نوعی شبک ه های عص بی ماشین های، در واق ع. اس ت414
هوشمن د مص رف کننده داده هس تند ک ه قادر ب ه تقری ب توابع
ام ا آنه ا ب ه تعداد بسیار زیادی مثال برای.غیرخط ی هس تند
.یادگیری کارآم د داده ه ا برای تقری ب عملکرد بهتر نیاز دارند
مدلهای رگرسیون چند متغیره به کار گرفته شده،عالوه بر این
،] مدلهای آماری خطی هستند که به توزیع نرمال بودن16[ در
از سوی.غیرخطی بودن و نقاط پرت در دادهها حساس هستند
تقوی ت درختان رگرس یون گروه ی نوعی روش هوش،دیگ ر
مص نوعی اس ت ک ه از س ادگی پردازش نس بی و تکنیک موازی
درختان رگرسیون مجموعه، به طور خاص.سازی آنها بهره می برد
را تعیین می کنند و هزینه خطا را با درif-then ای از قوانین
نرخ خطا و واریانس آنها.نظر گرفتن هر دو به حداقل می رساند
به فرضیاتی در مورد توزیع پیش بینی کننده ها نیازی ندارند و
می توانند داده های عددی بسیار منحرف را بدست آورند
23
یکی از محدودیت های اصلی مطالعه حاضر این است که برخی از متغیرهای کالن و خرد برای ارزیابی قیمت مسکن
آثار مختلف نشان داده است که بازار مسکن به عوامل اقتصادی عمومی در سراسر، در واقع.در نظر گرفته نشده اند
تأثیر سیاست پولی بر قیمت خانه در آفریقای جنوبی در رژیم خرس بزرگتر از، به عنوان مثال.کشورها بستگی دارد
هزینه کاربری و، ازدواج های قریب الوقوع، هزینه های ساخت و ساز، همچنین سطوح درآمد.]25[ رژیم گاو نر بود
] هستند و قیمت مسکن در استان های توسعه یافته تر46[ قیمت زمین عوامل اصلی تعیین کننده قیمت مسکن در
ترکیب مقررات نرخ ارز و مالیات بر، عالوه بر این.] 46[ توسط هزینه های ساخت و ساز و قیمت زمین تعیین می شود
رشد، رشد واقعی بازار سهام، اسپرد نرخ بهره، عالوه بر این.]47[ دارایی به ثبات بازار مسکن در چین کمک می کند
تحوالت، عالوه بر این.]48[ درآمد سرانه قابل تصرف شخصی واقعی و تورم پیشبینیکنندههای قیمت مسکن هستند
مالی در سایر بازارهای دارایی می تواند نقش مهمی را به عنوان محرک در ظهور انفجار در بازارهای مسکن بین المللی
[48[ ایفا کند
One Major Limit Of The Current Study Is That Some Macro And
Microeconomic Variables Have Not Been Considered For House Price
Evaluation. Indeed, Various Works Have Shown That Housing Market
Depends On General Economy Factors Across Countries. For
Instance , The Impact Of Monetary Policy On House Prices In South
Africa Was Found To Be Larger In Bear Regime Than In Bull Regime
[25]. Also, The Levels Of Income, Construction Costs, Impending
Marriages, User Cost And Land Prices Are The Primary Determinants
Of House Prices In [46], And Housing Prices In More Developed
Provinces Are Determined By Construction Costs And Land Prices
[46]. In Addition, The Combination Of Exchange Rate Regulation And
Property Tax Contributes To The Stability Of The Housing Market In
China [47]. Furthermore, Interest Rate Spreads, Real Stock Market
Growth, Growth In Real Personal Disposable Income Per Capita And
Inflation Are Predictors Of House Prices [48]. Moreover, Financial
Developments In Other Asset Markets Can Play A Significant Role As
A Trigger In The Emergence Of Explosiveness In International Housing
Markets [48].
24
متأسفانه ،پایگاه داده در دسترس عموم که ما استفاده کردیم محدود است و حاوی اطالعات
کالن و اقتصاد خرد در تایوان نیست .در واقع ،به طور کلی ،داده های قیمت گذاری مسکن
کوچک و محدود است [ ]10،12و مبهم و مبهم [ .]11با این حال ،مطالعه ما این شایستگی را
دارد که اثربخشی تکنیکهای یادگیری ماشین ارائه شده را در پیشبینی قیمت خانه در زمانی
که تعداد ورودیها به شدت محدود است ،مقایسه کند .در واقع ،برخالف کارهای قبلی [-25،46
]48که در آن مدلهای اقتصادسنجی خطی استاندارد برای بررسی رابطه بین متغیرهای اقتصاد
کالن ثابت و تغییرات ثابت قیمت مسکن ب ه کار گرفته شد ،مقاله ما از روشهای یادگیری
ماشینی پیشرفته برای پیشبینی دادههای قیمت مسکن با تعداد بسیار محدودی از پیش بینی
کننده های غیر ثابت .به عبارت دیگر ،ما عملکرد سه روش مختلف یادگیری ماشین را پیاده
سازی و مقایسه کردیم که اساساً یک مشکل تجزیه و تحلیل داده است ،در حالی که کارهای
قبلی [ ]47،48[ ]25،46عمدتاً با تخمین آماری و استنتاج رابطه بین اقتصاد کالن سروکار
دارند .پیش بینی ها و قیمت خانه بنابراین ،مطالعه ما آثار محدود موجود در تحلیل پیشبینی
قیمت مسکن را غنی میکند [ .]16-10در این راستا ،ما میدانیم که نتایج مطالعه ما برای بازار
مسکن تایوان اعمال میشود ،زیرا دسترسی ما به چنین پایگاهدادهای محدود است ،اما مقایسه
بین این سه مدل را میتوان به سایر بازارهای مسکن در سراسر جهان نیز تعمیم داد .این برای
ت
اس
مانده
ی
باق
آینده
.کارهای
25
Unfortunately, the publicly available database we used is
limited
and does not contain macroeconomic and microeconomic
information
in Taiwan. Indeed, in general, house pricing data is small
and limited
[10,12] and imprecise and ambiguous [11]. However, our
study
has the merit to compare the effectiveness of the
presented machine
learning techniques in predicting house price when the
number of
inputs is strictly limited. Indeed, contrary to previous works
][25,46–48
where standard linear econometric models were adopted to
investigate
the relationship between stationary macroeconomic
variables
and stationary housing price variations, our paper uses and
compares
advanced
machine
learning
methods
to
predict
nonstationary housing
price data with very limited number of nonstationary
predictors. In
other words, we implemented and compared the
performance of three
different machine learning methods which is basically a
data analytics
problem, whilst previous works [25,46] [47,48] are mainly
dealing
with statistical estimation and inference of the relationship
between
مدل های ناپارامتریکی هستند که بر خالف مدل های اقتصادسنجی به کارSVR به خاطر داشته باشید که تقویت درختان رگرسیون مجموعه و
عالوه.]48-46 ،25[ رفته در برخی از کارهای قبلی بر اساس فرضیات مربوط به توزیع های آماری داده ها و فرم های تابع پارامتری خاص نیستند
ک ه تأثیر، از اص ل منظمس ازی اس تفاده کنی د.SVR روش های یادگیری ماشین ی؛ مانن د تقوی ت درختان رگرس یون گروه ی و،بر ای ن
تعامالت غیرخط ی بین، درختان رگرس یون کیس های، در ای ن راس تا.پیشبینیکنندههای اضاف ی ی ا بی ش از ح د مناس ب را به ص فر میرس اند
مدلهای خانواده ماشینهای بردار پشتیبان (از، عالوه بر این.]49[ پیشبینیکنندهها را به حساب میآورند و قادر به کاهش چند خطی هستند
به چند خطی،) روشهای یادگیری ماشینی ویژگیهای یادگیری قطعی هستند که به دلیل راهحلهای قطعی بردارهای پشتیبانیSVR جمله
نیاز به تمیز کردن دادههای کمتری دارد و تحت تأثیر عوامل پرت وSVR تقویت درختان رگرسیون گروهی و، از این رو.]49[ حساس نیستند
.چند خطی قرار نمیگیرد
Bring in mind that boosting ensemble regression trees and SVR are nonparametric models that are not
based on assumptions regarding statistical distributions of the data and specific parametric function forms,
contrary to econometric models employed in some previous works [25, 46–48]. In addition, machine
learning methods; such as boosting ensemble regression trees and SVR; use regularization principle, which
shrinks the influences of redundant or overfitting predictors to zero. In this regard, bagging regression trees
account for nonlinear interactions between predictors and are capable to alleviate multicollinearity [49].
Besides, support vector machines family models (including for instance, SVR) are deterministic-learning
features machine learning methods which are not sensitive tomulticollinearity due to their deterministic
solutions of support vectors [49]. Hence, boosting ensemble regressiontrees and SVR require less data
cleaning and are not influenced by outliers and multicollinearity.
26
Finally, Gaussian process regression is not sensitive to
multicollinearity since it makes use of a kernel function
to compute the approximation function (See Eq. (11),
for instance). Indeed, the introduction of a kernel
stabilizes
the
computation
of
the
approximation
function which is very effective in presence of noise
and multicollinearity. Finally, it is worth to mention that
when the goal is to perform a forecasting task
(predictive
estimation
analytics
and
problem
inference
as
opposition
problem),
to
then
multicollinearity is not really a problem under boosting
رگرسیون فرآیند گاوسی به چند خطی بودن حساس نیست زیرا،در نهایت
از یک تابع هسته برای محاسبه تابع تقریب استفاده می کند (به عنوان مثال
محاسبات تابع، معرفی یک هسته، در واقع.) مراجعه کنید11( به معادله
.تقریب را تثبیت می کند که در حضور نویز و چند خطی بسیار موثر است
شایان ذکر است که وقتی هدف انجام یک کار پیشبینی است،در نهایت
(مسئله تحلیل پیشبینیکننده به عنوان مخالفت با تخمین و مشکل
پس چند خطی بودن واقعاً مشکلی برای تقویت درختهای،)استنتاج
. و رگرسیون فرآیند گاوسی نیستSVR ،رگرسیون مجموعه
ensemble regression trees, SVR, and Gaussian process
regression.
27
به طور خالصه ،ما از الگوریتم تقویت حداقل مربعات [ ]49برای ساخت درختان رگرسیون مجموعه استفاده کردیم تا یادگیرندگان
ضعیف (درخت رگرسیون) را با تمرکز مکرر بر روی خطاهای حاصل از هر مرحله ترکیب کنیم تا زمانی که یک یادگیرنده قوی مناسب
به عنوان مجموع متوالی به دست آید .ضعیف ها سیستمهای رگرسیون بردار پشتیبان ،روشهای یادگیری ماشینی هستند که میتوانند
با استفاده از یک هسته غیرخط ی ،بردار ورودی را بر روی فضای ویژگیهای ابعادی باال ترسیم کنند ،به طوری که میتوان مسئله
پیچیده را به یک سادهتر تبدیل کرد .همچنین ،رگرسیون بردار پشتیبان قادر به دستیابی به بهینه جهانی است و حتی اگر نمونه داده
کوچک یا محدود باشد ،کارآمد است [ .]43،50در واقع ،میتواند کار یادگیری را با دادههای نسبتاً کمی انجام دهد [ .]43،50عالوه بر
این ،در چارچوب رگرسیون بردار پشتیبان ،تصمیمگیری تنها بر روی چند بردار پشتیبان قابل انجام است.
In Summary, We Used Least Squares Boosting Algorithm [49] To Construct
)Ensemble Regression Trees So As To Combine Weak Learners (Regression Trees
By Iteratively Focusing In The Errors Resulting At Each Step Until A Suitable Strong
Learner Is Obtained As A Sum Of The Successive Weak Ones. Support Vector
Regression Systems Are Machine Learning Methods Capable To Map Input
Vector Onto High Dimensional Feature Space By Using A Nonlinear Kernel So
That Complex Problem Can Be Transformed Into Simpler One. Also, Support
Vector Regression Is Able To Achieve Global Optimum And Is Efficient Even
The Data Sample Is
Small Or Limited [43,50].
28
ً رگرسیون فرآیند گاوسی انعطافپذیر و یک سیستم پیشبینی کام، بر اساس استفاده از یک تابع هسته برای نگاشت غیرخطی دادهها،در نهایت
ال احتمالی
] را با استفاده از تکنیک اعتبارسنجی متقاطع ده برابری برای انتخاب مقادیر پارامتر بهینه و مدل34[ مطالعه ما بهینهسازی بیزی، عالوه بر این.است
بهینه سازی بیزی نیز برای یافتن مقادیر پارامتر بهینه و ساختار درختان رگرسیون گروهی و رگرسیون.پیشبینی رگرسیون بردار پشتیبان اجرا کرد
. مقایس های از نظر معیارهای عملکرد مختلف انجام شده است، برای اعتبارسنجی دقت پیشبینی سه مدل پیشبینی.فرآیند گاوسی به کار گرفته شد
. نتایج تحلیلهای تجربی نشان داد که درختهای رگرسیون مجموعه تقویتکننده تنظیمشده با بهینهسازی بیزی بهترین عملکرد را دارند،بر این اساس
عملکرد بهتری، از رگرسیون فرآیند گاوسی و مدلهای پیشبینی رگرسیون برداری پشتیبانی که همگی توسط بهینهسازی بیزی تنظیم شدهاند،در واقع
از رگرسیون بردار پشتیبانی که متعلق به، تقویت درختهای رگرسیون مجموعهای که متعلق به روشهای هوش مصنوعی هستند، به عبارت دیگر.داشت
تقویت درختان رگرسیون، عالوه بر این. بهتر عمل کرد،خانواده یادگیری ماشینی است و رگرسیون فرآیند گاوسی که متعلق به مدلهای آماری است
هر سه سیستم پیشبینی بکار گرفته شده در کار فعلی عملکرد بهتری از، عالوه بر این.مجموعه ای خطای پیش بینی پایدار و کم را ارائه می دهد
] داشتن د و بر روی ی ک مجموع ه داده آزمای ش شدند16[ شبکههای عص بی مص نوعی و مدلهای رگرس یون چن د متغیره مورد اس تفاده در.
In fact, it is able to conduct learning task with relatively small amount of data [43,50]. Furthermore, in
support vector regression framework, the decision making can be made only on few support vectors.
Finally, based on using a kernel function to nonlinearly mapping data, Gaussian process regression is
flexible and a fully probabilistic predictive system. Besides, our study implemented Bayesian
optimization [34] using ten-fold cross validation technique to choose optimal parameter values and the
kernel of support vector regression predictive model. The Bayesian optimization was also adopted to
find optimal parameter values and structure of boosting ensemble regression trees and Gaussian
process regression. To validate the prediction accuracy of the three predictive models, a comparison in
terms of various performance metrics has been conducted Accordingly, the results of empirical
analyses showed that the boosting ensemble regression trees tuned by Bayesian optimization perform
the best. Indeed, it outperformed Gaussian process regression and support vector regression predictive
models all tuned by Bayesian optimization. In other words, boosting ensemble regression trees which
belong to artificial intelligence methods outperformed support vector regression which belongs to
machine learning family and Gaussian process regression which belongs to statistical models.
Furthermore, boosting ensemble regression trees provide stable and low prediction error. Moreover, all
three predictive systems employed in the current work outperformed artificial neural networks and
multivariate regression models used in [16] and tested on the same data set.
29
نتیجه گیری.5
5. Conclusion
This study employed and compared three predictive
systems for the first time namely boosting ensemble
regression trees which belong to artificial intelligence
methods,
support
vector
regression
which
belongsto
machine learning family and Gaussian process regression
which belongs to statistical models; all optimized by
Bayesian optimization; to the problem of house price
prediction. Based on four different performance measures,
the experimental results show that the boosting ensemble
regression trees are accurate and reasonable for use in
house price evaluation as it outperformed support vector
regression and Gaussian process regression. In addition,
boosting ensemble regression trees provide stable and low
prediction error. Besides, all three predictive systems
performed much better than artificial neural networks and
multi-variate regression model which were employed in a
recent workon the same data set. Certainly, the stability
and algorithmic efficiencyof boosting ensemble regression
این مطالعه برای اولین بار سه سیستم پیشبینی را به کار
تقوی ت درختهای رگرسیون:گرف ت و مقایس ه کرد
،مجموعهای ک ه متعل ق ب ه روشهای هوش مص نوعی است
رگرس یون برداری پشتیبانی که متعلق به خانواده یادگیری
ماشین ی اس ت و رگرس یون فرآین د گاوس ی ک ه متعل ق به
همه توسط بهینه سازی بیزی بهینه.مدلهای آماری است
بر اساس چهار. به مشکل پیش بینی قیمت مسکن.شده اند
نتای ج تجرب ی نشان میده د که،معیار عملکرد مختل ف
درختهای رگرسیون مجموعه تقویتکننده برای استفاده در
ارزیابی قیمت خانه دقیق و معقول هستند زیرا از رگرسیون
.بردار پشتیبان و رگرسیون فرآیند گاوسی بهتر عمل میکنند
تقویت درختان رگرسیون مجموعه ای خطای،عالوه بر این
هر سه، عالوه بر این.پیش بینی پایدار و کم را ارائه می دهد
سیستم پیشبینی بسیار بهتر از شبکههای عصبی مصنوعی و
مدل رگرس یون چن د متغیره ک ه در ی ک کار اخیر بر روی
. عمل کردند،مجموعه دادههای مشابه به کار گرفته شدهاند
پایداری و کارای ی الگوریتم ی تقویت درختان،ًمطمئنا
آنه ا را ب ه ی ک کاندیدای ایدهآل برای،رگرس یون مجموع ه
پیشبینی قیمت خانه تبدیل میکند که در یک نمونه داده
.کوچک با پیشبینیکنندههای کمی اعمال شود
trees make them an ideal candidate for house price
forecasting when applied to a small data sample with few
30
ERROR
DEPENDENCE, J. HOUS. ECON. 21 (2012) 66–76.
[6] R. KOUWENBERG, R. ZWINKELS, FORECASTING THE US HOUSING MARKET, INT. J.
FORECAST.
30 (2014) 415–425.
[7] O. KETTANI, M. ORAL, DESIGNING AND IMPLEMENTING A REAL ESTATE APPRAISAL
SYSTEM:
THE CASE OF QUÉBEC PROVINCE, CANADA, SOCIO-ECON. PLAN. SCI. 49 (2015) 1–9.
[8] L. BORK, S.V. MØLLER, FORECASTING HOUSE PRICES IN THE 50 STATES USING
DYNAMIC
MODEL AVERAGING AND DYNAMIC MODEL SELECTION, INT. J. FORECAST. 31 (2015) 63–
78.
[9] Y. WEI, Y. CAO, FORECASTING HOUSE PRICES USING DYNAMIC MODEL AVERAGING
APPROACH: EVIDENCE FROM CHINA, ECON. MODEL. 61 (2017) 147–155.
[10] H. KUSŞAN, O. AYTEKIN, I. ÖZDEMIR, THE USE OF FUZZY LOGIC IN PREDICTING
HOUSE
SELLING PRICE, EXPERT SYST. APPL. 37 (2010) 1808–1813.
[11] A. AZADEH, B. ZIAEI, M. MOGHADDAM, A HYBRID FUZZY REGRESSION-FUZZY
COGNITIVE
MAP ALGORITHM FOR FORECASTING AND OPTIMIZATION OF HOUSING MARKET
FLUCTUATIONS,
EXPERT SYST. APPL. 39 (2012) 298–315.
[12] L.H. GEREK, HOUSE SELLING PRICE ASSESSMENT USING TWO DIFFERENT
ADAPTIVE
NEURO-FUZZY TECHNIQUES, AUTOM. CONSTR. 41 (2014) 33–39.
[13] J. WANG X. WEN, Y. ZHANG, Y. WANG, REAL ESTATE PRICE FORECASTING BASED
ON SVM
OPTIMIZED BY PSO, OPTIK 125 (2014) 1439–1443.
[14] B. PARK, J.K. BAE, USING MACHINE LEARNING ALGORITHMS FOR HOUSING PRICE
PREDICTION:
THE CASE OF FAIRFAX COUNTY, VIRGINIA HOUSING DATA, EXP. SYST. APPL. 42 (2015)
2928–2934.
[15] V. PLAKANDARAS, R. GUPTA, P. GOGAS, T. PAPADIMITRIOU, FORECASTING THE U.S.
REAL
HOUSE PRICE INDEX, ECON. MODEL. 45 (2015) 259–267.
[16] I.-C. YEH, T.-K. HSU, BUILDING REAL ESTATE VALUATION MODELS WITH
COMPARATIVE
APPROACH THROUGH CASE-BASED REASONING, APPL. SOFT COMPUT. 65 (2018) 260–
271.
[17] A.B. ADETUNJI, O.N. AKANDE, F.A. AJALA, O. OYEWO, Y.F. AKANDE, G. OLUWADARA,
HOUSE PRICE PREDICTION USING RANDOM FOREST MACHINE LEARNING TECHNIQUE,
PROCEDIA
COMPUT. SCI. 199 (2022) 806–813.
31
29,000 تومان