پاورپوینت
علوم انسانی و علوم اجتماعیکامپیوتر و IT و اینترنت

پاورپوینت ارزیابی مقایسه ای روش های یادگیری ماشین برای پیش بینی قیمت مسکن

A comparative assessment of machine learning methods for predicting housing prices using Bayesian optimization ارزیابی مقایسه ای روش های یادگیری ماشین برای پیش بینی قیمت مسکن با استفاده از بهینه سازی بیزی

محمدحسين ابوئي مهريزي

A COMPARATIVE ASSESSMENT OF MACHINE LEARNING METHODS FOR PREDICTING HOUSING PRICES USING BAYESIAN OPTIMIZATION ین رایپ یش ارزیاب یم قایسه ایروشهایی اد گ یریم اش ب ازی یزی سکن ا اس تفاد ه از ب هینه س ب ب یمت م ب ینیق ABSTRACT ارزش گذاری قیمت مسکن به دلیل بحران های مالی و امالک در سراسر جهان در دهه اخیر توجه قابل توجهی را به خود جلب ، سرمایه گذاران، در واقع. نیاز فوری به طراحی سیستم های پیش بینی موثرتر قیمت مسکن وجود دارد، بنابراین.کرده است he valuation of house prices is drawing noteworthy attention due to worldwide financial and real estate crises in the last decade. Therefore, there is an immediate need to design more effective predictive systems of house prices. Indeed, investors, creditors, and governments are all interested in such predictive systems to improve their buying and lending decisions and activities. This study explores the application of artificial intelligence, machine learning, and nonlinear statistical models to house price prediction problems. In that order, we use boosting ensemble regression trees, support vector regression, and Gaussian process regression. Bayesian optimization is implemented in a ten-fold crossvalidation framework to determine their respective optimal kernels and parameter values. Four performance metrics are used to evaluate the prediction ability of each predictive system. The experimental results showed that boosting ensemble regression trees performed the best, followed by Gaussian process regression and support vector regression. In addition, all three aforementioned predictive systems outperformed artificial neural Keywords: networks and multi-variate regression employed in House price prediction Predictive recent analytics work on the same data set. Under this Boosting ensembleit is concluded that boosting ensemble perspective, regression trees regression trees are clear candidates to be Support vector regression Gaussian processfor regression considered operational house price prediction in Bayesian optimization Taiwan اعتباردهندگان و دولت ها همگی به بدنبال چنین سیستم های پیش بینی برای بهتر کردن تصمیمات و فعالیت های خرید و وام یادگیری ماشین و مدل‌های آماری غیرخطی را برای مشکالت پیش‌بینی، این مطالعه کاربرد هوش مصنوعی.دهی خود هستند رگرسیون بردار پشتیبانی و رگرسیون، از درخت‌های رگرسیون گروهی تقویت‌کننده، به این ترتیب.قیمت خانه در نظر می گیرد بهینه‌سازی بیزی در یک قالب اعتبارسنجی متقابل ده برابری برای تعیین هسته‌های بهینه و.فرآیند گاوسی استفاده می‌کنیم . چهار معیار عملکرد برای ارزیابی توانایی پیش‌بینی هر سیستم پیش‌بینی استفاده می‌شود.مقادیر پارامتر مربوطه اجرا می‌شود نتایج تجربی نشان داد که تقویت درختان رگرسیون مجموعه بهترین عملکرد را داشتند و پس از آن رگرسیون فرآیند گاوسی و هر سه سیستم پیش‌بینی ذکر شده از شبکه‌های عصبی مصنوعی و رگرسیون چند، بعالوه.رگرسیون بردار پشتیبان قرار گرفتند نتیجه‌گیری شد که تقویت. بهتر عمل کردند،متغیره که در مطالعه ی اخیر روی مجموعه داده‌های مشابه استفاده شده بود .درختان رگرسیون گروهی موارد مناسبی هستند که برای پیش‌بینی عملیاتی قیمت خانه در تایوان در نظر گرفته می‌شوند :کلید واژه ها پیش بینی قیمت مسکن . تجزیه و تحلیل پیش بینی کننده. .تقویت درختان رگرسیون گروهی .پشتیبانی از رگرسیون برداری رگرسیون فرآیند گاوسی بهینه سازی بیزی 2 .1مقدمه 1. INTRODUCTION ارزیاب ی قیم ت مس کن ی ک موضوع مهم در حوزه مالی ارزیابی و مدیریت امالک و مستغالت است زیرا می‌توان د ب ه شرکت‌های امالک ،موس سات مالی و سرمایه‌گذاران کمک کند تا در مورد قیمت تصمیم گیری کنند و اقدامات مناسب را از قبل انجام دهند. بحران اخیر وام مسکن و رکود بزرگ که در بازارهای مالی جهان در اواخر دهه 2000و اوایل دهه 2010 رخ داده است ،باعث افت اقتصادی در سراسر جهان، به ویژه در اقتصاد ایاالت متحده شد .در واقع ،جهانی شدن اقتص اد موج ی از پریشان ی اقتصادی را در جوام ع و اقتص ادهای مل ی ایجاد کرد .بنابراین، بسیاری از آمریکایی ها اثرات منفی مالی را تحمل کردند .از آن زمان ،ارزیابی مناسب قیمت مسکن به یک مسئله ی عمومی تبدیل شده است و مشاوره تخص صی امالک و مس تغالت قطعا برای خریداران مس کن ،فروشندگان ،موس سات مال ی و دولت مورد نیاز است. مطمئناً قیم ت گذاری مناس ب مس کن یک موضوع بسیار مهم در هر دو زمینه عملی و دانشگاهی امور مال ی امالک و مس تغالت اس ت .از منظ ر عملی، خریداران مسکن ،فروشندگان ،اعتباردهندگان، مدیریت ارشد و حسابرسان همگی به ارزیابی قیمت مسکن عالقه مند هستند ،به این دلیل که این مورد تأثیر زیادی بر تصمیم گیری مالی و سرمایه گذاری آنها دارد. Indeed, to make, the right decision on whether to buy or sell a house, an economic agent (including for instance a homebuyer, seller, creditor, senior management, and auditor) need to use an appropriate predictive model to predict the accurate value of house price. In other words, he needs an accurate model for house evaluation. Indeed, it is important to value a property for a purchase to be able to generate profit. For instance, an accurate model is need by homebuyer to evaluate his investment, by seller to evaluate profit, by creditor to evaluate risk, and by senior manager and auditor to better manage assets portfolio. More to the point, real estate and mortgage crisis also brings serious social problems such as unemployment, economic depression and financial crisis if many companies run into financial distress in the same period. Consequently, there is insistent demand for accurate house price evaluation technical models in practice, to which many scholars have been devoted. Indeed, driven by the strong business needs, many statistical modelshave been proposed for house price evaluation in the past few years. For instance, various statistical models have been employed; includingregression analysis [1], semiparametric regression [2], large-scale Bayesian vector autoregressive model [3], Granger causality and variance decomposition [4], lognormal regression model [5], smooth transition model and error correction models [6], analogical regression [7],and dynamic model averaging and dynamic model selection [8,9]. برای تصمیم گیری صحیح در مورد خرید یا فروش خانه و در کل یک عمل،در واقع مدیریت ارشد و حسابرس) باید از، بستانکار، فروشنده،اقتصادی (از جمله خریدار مسکن قیمت خانه نیاز.یک مدل پیش بینی مناسب برای پیش بینی ارزش دقیق استفاده کرد ارزش گذاری یک ملک برای خرید، در واقع.به یک مدل دقیق برای ارزیابی خانه دارد یک مدل دقیق برای خریدار، به عنوان مثال.بسیار مهم است تا بتوان سود ایجاد کرد اعتبارده برای، فروشنده برای ارزیابی سود خود،خانه برای ارزیابی سرمایه گذاری خود و توسط مدیر ارشد و حسابرس برای مدیریت بهتر سبد دارایی ها مورد،ارزیابی ریسک .نیاز است رکود اقتصادی و،بحران امالک و وام مس کن مشکالت اجتماعی جدی مانند بیکاری تقاضای زیادی برای مدل‌های فنی ارزیابی دقیق، در نتیجه.بحران مالی را به همراه دارد . که بسیاری از محققان به آن پرداخته اند،قیمت مسکن وجود دارد مدل های آماری بسیاری برای ارزیابی قیمت، با توجه به نیازهای کسب و کار،در واقع رگرسیون،]1[ از جمله تحلیل رگرسیون،مسکن در چند سال گذشته ارائه شده است تجزیه،]3[ مدل خودرگرس یون برداری بیزی در مقیاس بزرگ،]2[ نیم ه پارامتری ک مدل انتقال صاف و مدل‌های،]5[ مدل رگرسیون لگ نرمال،]4[ علیت و واریانس گرنجر ] و میانگین گیری مدل پویا و انتخاب مدل پویا7[ رگرسیون آنالوگ،6 [ تصحیح خطا ]9و8[ 4 In recent years, artificial intelligence and machine learning based systems and algorithms are attracting more attention than conventional statistical models in house price evaluation. Indeed, this growing interest is due to the fast development of computer power and data storage technologies and their respective ability to provide high prediction accuracies; thus, increasing profits and decreasing losses. In this regard, artificial intelligence systems and machine learning models include fuzzy logic system [10], hybrid fuzzy regression-fuzzy cognitive map algorithm [11], adaptive neuro-fuzzy system [12], support vector machine optimized by particle swarm optimization [13], repeated incremental pruning to produce error reduction (RIPPER) algorithm [14], combination of ensemble empirical mode decomposition and support vector regression [15], and case-based reasoning [16] سیستم‌ها و الگوریتم‌های مبتنی بر هوش،در سال‌های اخیر مص نوعی و یادگیری ماشین ی نس بت به مدل‌های آماری مرس وم در ارزیابی قیم ت مس کن توج ه بیشتری را به خود این عالقه رو به رشد به دلیل توسعه، در واقع.جلب کرده‌اند سریع فناوری‌های ذخیره‌سازی انرژی و داده‌های کامپیوتری و که در نتیجه.توانایی آنها در ارائه دقت در پیش‌بینی باال است در این راستا.آن افزایش سود و کاهش زیان بدست می آید س یستم های هوش مص نوعی و مدل های یادگیری ماشینی الگوریتم نقش ه شناختی،]10[ شام ل س یستم منط ق فازی س یستم عصبی فازی،]11[ فازی ترکیب ی رگرس یون فازی ماشین بردار پشتیبان بهینه‌سازی شده توسط،]12[ تطبیقی هرس افزایشی مکرر برای،]13[ بهینه‌س ازی) ازدحام ذرات ترکیب ی از تجزیه حالت،]14[ تولید کاهش خطا الگوریتم ] و15[ تجرب ی مجموع ه و رگرس یون برداری پشتیبانی .] است16[ استدالل مبتنی بر مورد 5 . For instance, a fuzzy logic system was employed to predict house selling price in different regions of Eskişehir city in Turkey by using house, environmental, transportation, and regional socio-economic factors [10]. It was concluded that the predictions are very close to the unit real price values. A hybrid algorithm based on fuzzy linear regression and fuzzy cognitive map was proposed to deal with imprecise and ambiguous inputs (for example, various supply and demand factors) to better forecast house price in Iran [11]. It was concluded that the proposed hybrid system is effective in presence of uncertainty and severe noise associated with the housing market. Gerek [12] compared ANFIS with grid partition (GP) and ANFIS with sub clustering (SC) in predicting house price in the construction sector in southern Turkey by using exclusively industry factors. The simulations results showed that ANFIS-GP system was, to a small degree, better than the ANFISSC system. In [13], the authors used the support vector machine to predict house average selling price in China by using previous average selling price as inputs. The parameters of the SVM was tuned by either grid algorithm, genetic algorithm or particle swarm optimization. They found that the SVM tuned by particle swarm optimization outperformed backpropagation neural networks, SVM tuned by grid algorithm and SVM tuned by genetic algorithm. In [14], the authors employed repeated incremental pruning to produce error reduction (RIPPER) algorithm trained with 28 variables selected by stepwise logistic regression to predict housing price in the United States. The RIPPER algorithm outperformed C4.5 algorithm, Naïve Bayes, and AdaBoost algorithm. Besides, the authors in [15] ی ک سیستم منطق فازی برای پیش‌بین ی قیمت فروش خان ه در مناطق،به عنوان مثال - حمل‌ونقل و عوامل اجتماعی، محیط،مختلف شهر اسکی‌شهیر ترکیه با استفاده از خانه نتیجه‌گیری شد که پیش‌بینی‌ها به مقادیر واقعی.]10[ اقتصادی منطقه‌ای استفاده شد یک الگوریتم ترکیبی مبتنی بر رگرسیون خطی فازی و.قیمت واحد بسیار نزدیک است عوامل مختلف،نقشه شناختی فازی برای مقابله با ورودی‌های مبهم و مبهم (به عنوان مثال نتیجه گیری.]11[ عرضه و تقاضا) برای پیش‌بینی بهتر قیمت مسکن در ایران پیشنهاد شد شد که سیستم هیبریدی پیشنهادی در صورت عدم قطعیت و نویز شدید مرتبط با بازار را باANFIS ) وGP( پارتیشن شبکهGEREK [12] ANFIS ..مسکن موثر است ) در پیش بینی قیمت خانه در بخش ساخت و ساز در جنوب ترکیه باSC( زیر خوشه بندی نتایج شبیه‌سازی‌ها نشان داد که سیستم.استفاده از عوامل منحصرا ً صنعتی مقایسه کرد نویسندگان از،]13[ در. استANFISSC تا حدودی بهتر از سیستمANFIS-GP ماشین بردار پشتیبانی برای پیش بینی میانگین قیمت فروش مسکن در چین با استفاده از توسطSVM پارامترهای.میانگی ن قیم ت فروش قبل ی ب ه عنوان ورودی اس تفاده کردند آنها متوجه شدند. الگوریتم ژنتیک یا بهینه سازی ازدحام ذرات تنظیم شد،الگوریتم شبکه عملکرد بهتری از شبکه های، تنظی م شده توسط بهین ه س ازی ازدحام ذراتSVM ک ه تنظیم شدهSVM تنظیم شده توسط الگوریتم شبکه وSVM ،عصبی پس انتشار دارد نویسندگان از هرس افزایشی مکرر برای تولید الگوریتم،]14[ در.توسط الگوریتم ژنتیک متغیر انتخاب شده توسط رگرسیون28 ) استفاده کردند که باRIPPER( کاهش خطا .لجس تیک گام ب ه گام برای پیش‌بین ی قیم ت مسکن در ایاالت متحده آموزش داده شد وNAÏVE BAYES الگوریتم،C4.5 از الگوریت مRIPPER الگوریت م بهتر عمل کردADABOOST 6 Besides, the authors in [15] combined ensemble empirical mode decomposition (EEMD) and support vector regression to predict sudden house price drops in the United States. The presented model was trained macroeconomic with variables. ten The annual experimental results showed that the presented approach outperformed autoregressive, random walk, and Bayesian Bayesian vector autoregressive model. In [16], the authors found that artificial neural networks outperform the multivariate regression model in forecasting house price in Taiwan. Other studies focused on decision trees for model and predict house price. For instance, in [17], random forest algorithm was employed to predict House Price Index in United States and achieved a ±5% error margin. In addition, decision trees, gradient-boosting and random forest algorithm were found to be effective compared to multiple linear regression ] تجزی ه حال ت تجرب ی مجموعه15[ نویس ندگان در،عالوه بر ای ن ) و رگرسیون برداری را برای پیش‌بینی افت ناگهانی قیمتEEMD( مدل ارائ ه شده با ده.مس کن در ایاالت متحده پشتیبان ی می‌کنند نتایج تجربی نشان داد.متغیر کالن اقتصادی ساالنه آموزش داده شد ،ک ه رویکرد ارائه‌شده عملکرد بهتری از مدل پیاده‌روی تصادفی ،]16[ در.خودرگرس یون بیزی و خودرگرسیون بردار بیزی دارد نویسندگان فهمیدند که شبکه های عصبی مصنوعی از مدل رگرسیون .چند متغیره در پیش بینی قیمت خانه در تایوان بهتر عمل می کنند سایر مطالعات بر روی درختان تصمیم برای مدل و پیش‌بینی قیمت الگوریتم جنگل تصادفی،]17[ در، به عنوان مثال.خانه متمرکز بودند برای پیش‌بینی شاخص قیمت خانه در ایاالت متحده به کار گرفته شد تقویت، درختان تصمیم، عالوه بر این. رسید%±5 و به حاشیه خطای گرادیان و الگوریتم جنگل تصادفی در مقایسه با مدل رگرسیون خطی .]18[ چندگانه در هنگام اعمال به داده‌های بازار استرالیا مؤثر بودند شبکه‌های عصبی مصنوعی در پیش‌بینی قیمت خانه در،در نهایت الگوس،]19[ )چی ن (س یستم شاخ ص امالک و مس تغالت چین )22( ] و در تارانتو22[ ) بوستون (ایاالت متحده،]20،21[ )(نیجریه در نهایت برای پیش‌بینی قیمت مسکن در.]23[ ) ایتالیا.مؤثر بودند مدل رگرسیون فازی در مقایسه با شبکه‌های عصبی مصنوعی،ایران .]24[ بود ر مؤث model when applied to Australian market data [18]. Finally, artificial neural networks were found to be effective in predicting house price in China (China Real Estate Index System) [19], Lagos 7 The main purpose of the current work is to compare the performance of three optimized predictive models in the context of house price evaluation; each one belongs to a different class of technical tools. The first one is boosting ensemble regression trees that closely resemble human reasoning where decisions are taken following on deductive reasoning. The second one is support vector regression which is based on inductive reasoning to separate data in a hyper-plane. The third one is Gaussian process regression which is a nonparametric method that belongs to advanced statistical models used to approximate shape of functions. Indeed, the origins of these predictive systems are clearly distinct and their respective underlying algorithms differ greatly. In addition, boosting ensemble regression trees and support vector regression are assumptions-free, whilst Gaussian process regression assumes standard statistical assumptions such as stationarity, normality, and independency. Therefore, the findings from this study will enable a better assessment of these different predictive systems in the problem of house price evaluation by means of various performance measures to identify the better one. .هدف اصلی مطالعه حاضر مقایسه عملکرد سه مدل پیش‌بینی بهینه در زمینه ارزیابی قیمت مسکن است تقویت درختان رگرسیون گروهی، اولین مورد.هر کدام به دسته ی متفاوتی از ابزارهای فنی تعلق دارند جایی که تصمیمات بر اساس استدالل قیاسی گرفته می،است که شباهت زیادی به استدالل انسانی دارند مورد دوم رگرسیون برداری پشتیبان است که بر اساس استدالل استقرایی برای جداسازی داده ها.شود سومین روش رگرسیون فرآیند گاوسی است که یک روش ناپارامتریک است که.در یک ابر صفحه است منشأ این، در واقع.متعلق به مدل‌های آماری پیشرفته است که برای تخمین شکل توابع استفاده می‌شود .سیستم‌های پیش‌بینی به وضوح متمایز است و الگوریتم‌های زیربنایی مربوطه آن‌ها بسیار متفاوت است در، تقویت درختان رگرسیون مجموعه و رگرسیون بردار پشتیبان بدون مفروضات هستند،عالوه بر این نرمال بودن و استقالل،حالی که رگرسیون فرآیند گاوسی مفروضات آماری استانداردی مانند ثابت بودن یافته‌های این مطالعه ارزیابی بهتری از این سیستم‌های پیش‌بینی متفاوت را در، بنابراین.را فرض می‌کند مسئله ارزیابی قیمت مسکن با استفاده از معیارهای عملکردی مختلف برای شناسایی بهتر امکان‌پذیر .می‌سازد 8 Of Boosting Ensemble Regression Trees, Support Vector Regression, Gaussian Process Regression InThe Task Of Predicting House Price. Indeed, These Models Have Not Been Employed And Validated On The Same Problem. Second, The Parameters Of The Three Models Are Optimized For Better Fitting Of The Data And Accurate Predictions. In This Regard, Bayesian Optimization Algorithm Is Employed. Indeed, Contrary To The Literature, We Use Optimization For Better Tuning Of The Parameters Of The Models. Third, We Use The Same Large Database As In [16] Where Artificial Neural Networks Outperformed Multivariate Regression Models. Hence, The Models We Adopt And Optimize By Bayesian Optimization (Boosting Ensemble Regression Trees, Support Vector Regression, Gaussian Process Regression) Will Be Compared To Artificial Neural Networks And Multivariate Regression Models. Recall That Support Vector Machines Are Powerful Models Successfully Employed In Various Applications; Including Stock Price Forecasting [25], Cryptocurrency Price Forecasting Prediction [26], Cryptocurrency Trading Volume Prediction [27], Credit Risk Evaluation [28], Bank Telemarketing [29], Financial Risk Forecasting [30], Solar Radiation Prediction [31], Beam Multidamage Detection [32], And Earth-rock Dam Control [33]. Besides, Boosting Ensemble Decision Trees Are Capable To Improve Prediction Ability Of Regressors [34] And Are Found To Be Effective In A Variety Of Managerial Applications [35,36] And Scientific Problems [37,38]. Finally, Gaussian Process Regression Is An Efficient Model Widely Used In Engineering Problems [39– 41]. ] در مطالعه اخیرشان16[ ما سعی می کنیم نتایج خود را با نتایج به دست آمده،در این راستا جایی که آنها دریافتند که شبکه های عصبی مصنوعی هنگام اعمال بر روی،مقایسه کنیم سهم، بنابراین.یک پایگاه داده بزرگ از مدل های رگرسیون چند متغیره بهتر عمل می کنند رگرسیون بردار، م ا عملکرد تقوی ت درختان رگرس یون مجموع ه، ابتدا.م ا س ه برابر اس ت رگرسیون فرآیند گاوسی را در کار پیش‌بینی قیمت خانه پیاده‌سازی و مقایسه،پشتیبانی ، دوم. این مدل‌ها برای همان مشکل مورد استفاده و تایید قرار نگرفته‌اند، در واقع.می‌کنیم در این.پارامترهای سه مدل برای برازش بهتر داده ها و پیش بینی های دقیق بهینه شده اند از، برخالف گذشته، در واق ع.راس تا از الگوریت م بهین ه س ازی بیزی اس تفاده شده اس ت ما از همان پایگاه، سوم.بهینه‌سازی برای تنظیم بهتر پارامترهای مدل‌ها استفاده می‌کنیم ] اس تفاده م ی کنی م ک ه در آ ن شبک ه های عص بی مصنوعی از مدل های16[ داده بزرگ مدل‌هایی که با بهینه‌سازی بیزی اتخاذ و، از این رو.رگرسیون چند متغیره بهتر عمل کردند ، رگرس یون بردار پشتیبانی،بهینه‌س ازی می‌کنی م (تقوی ت درخت‌های رگرس یون مجموع ه رگرسیون فرآیند گاوسی) با شبکه‌های عصبی مصنوعی و مدل‌های رگرسیون چند متغیره به یاد داشته باشید که ماشین های بردار پشتیبان مدل های قدرتمندی.مقایسه می‌شوند از جمله پیش‌بینی قیمت.هستند که با موفقیت در کاربردهای مختلف به کار گرفته شده اند پیش‌بین ی حجم معامالت ارز،]26[ پیش‌بین ی پیش‌بین ی قیم ت ارز دیجیتال،]25[ س هام پیش‌بینی ریسک،]29[ بازاریابی تلفنی بانک،]28[ ارزیابی ریسک اعتباری،]27[ دیجیتال ] و کنترل سد32[ تشخیص چند آسیب پرتو، ]31[ پیش‌بینی تابش خورشیدی،]30[ مالی تقویت درخت‌های تصمیم مجموعه قادر به بهبود توانایی پیش‌بینی، عالوه بر این.]33[ خاکی ] و مشکالت علمی35،36[ ] هس تند و در انواع کاربردهای مدیریت ی34[ رگرس یون‌ها رگرسیون فرآیند گاوسی یک مدل کارآمد است که به طور، در نهایت.] موثر هستند37،38[ ]41،39[گسترده در مسائل مهندسی استفاده می شود 9 Is Used In The Current Work To Find Optimal Values Of Key Parameters Of Boosting Ensemble Regression Trees, Support Vector Regression, And Gaussian Process Regression. Bring In Mind That ] در کار فعلی42[ )BO( الگوریتم بهینه‌سازی بیزی،برای تنظیم بهینه Bayesian Optimization Algorithm Allows Sampling برای یافتن مقادیر بهینه پارامترهای کلیدی تقویت درخت‌های رگرسیون Of Several Thousand Points Within The Variable رگرس یون بردار پشتیبان و رگرسیون فرآیند گاوس ی استفاده،مجموع ه Bounds, Takes Several Of The Best Feasible ب ه خاط ر داشت ه باشی د ک ه الگوریت م بهینه‌سازی بیزی امکان.می‌شود Points, And Improves Them Using Local Search In ،نمونه‌برداری از چندین هزار نقطه را در محدوده‌های متغیر فراهم می‌کند Order To Find The Apparent Best Feasible Point و آنها را با استفاده از،چندین مورد از بهترین نقاط امکان‌پذیر را می‌گیرد [42]. In Addition, The Algorithm Is Fast Since The جستجوی محلی بهبود می‌بخشد تا بهترین نقطه عملی ظاهری را پیدا Best Feasible Points Depend On The Modeled الگوریتم سریع اس ت زیرا بهترین نقاط امکان، عالوه بر این.]42[ کند Posterior Distribution. The rest of the paper is organized as follows: The three predictive systems (ensemble regression پذیر به توزیع خلفی مدل شده بستگی دارد سه سیستم پیش بینی:بقیه مقاله به شرح زیر سازماندهی شده است و رگرسیون فرآیند، رگرسیون بردار پشتیبان،(درخت رگرسیون مجموعه trees, support vector regression, and Gaussian و طراح ی تجربی و معیارهای عملکرد در، بهین ه س ازی بیزی،)گاوس ی process regression), Bayesian optimization, and .3 بخش. نتایج شبیه سازی در ارائه شده است. ارائه شده است2 بخش experimental design and performance measures را به پایان می رساند، در نهایت. نتایج را مورد بحث قرار می دهد4 بخش are presented in Section 2. The simulation results are presented in Section 3. Section 4 discusses the results. Finally, Section 4 concludes the paper. 10 .METHODS 2 2.1. Boosting ensemble regression trees Regression trees are used to construct predictive models from data by recursively partitioning the data space into subsets and fitting a predictive model within each subset. Accordingly, data partition is viewed graphically as a decision tree. In the current study, we focus on boosting ensemble systems which are composed of homogeneous sub-systems represented by several regression trees. روش ها.2 تقویت درختان رگرسیون گروهی1.2 درخت‌های رگرسیون برای ساخت مدل‌های پیش‌بینی از داده‌ها با تقسیم‌بندی بازگشتی فضای داده به زیر مجموعه‌ها و برازش یک ، بر این اساس.مدل پیش‌بینی در هر زیر مجموعه استفاده می‌شوند پارتیش ن داده ه ا ب ه ص ورت گرافیک ی ب ه عنوان درخ ت تصمیم م ا بر تقوی ت سیستم‌های، در مطالع ه حاض ر.مشاهده م ی شود مجموعه‌ای که از زیرسیستم‌های همگن تشکیل شده توسط چندین . تمرکز می‌کنیم،درخت رگرسیون تشکیل شده‌اند 11 پشتیبانی از رگرسیون برداری2.2 2.2. Support vector regression The support vector regression (SVR) [44] seeks to map low-dimensional non-linear data points to a high- ] به دنبال44[ )SVR( رگرس یون بردار پشتیبان ترسیم نقاط داده غیرخطی کم بعدی به فضایی با ابعاد باال با استفاده از یک تابع هسته خاص است به طوری که فاصله خطا بین نقاط داده و ابر صفحه به حداقل .برسد dimensional space by employing a specific kernel function such that the error distance between the data points and the hyperplane is minimized. 12 2.3. The Bayesian optimization The Bayesian optimization (BO) [42] seeks to find the global optimum by incorporating prior belief about the objective function f (x) and updates the prior with observations taken from f (x) to obtain a posterior that improves approximation of f (x). In addition, the Bayesian optimization employs an acquisition function that applies sampling in search sets where an improvement over the current best observation is probable. For instance, let f (x) be the objective function and EI(x,Q) be the expected improvement based on the posterior distribution function بهینه سازی بیزی2.3 ] به دنبال یافتن بهینه جهانی با42[ )BO( بهینه سازی بیزی و به روزF (X) ترکیب یافته های قبلی در مورد تابع هدف برای به دستF (X) رسانی قبلی با مشاهدات برگرفته از را بهبود میF (X) آوردن یک مورد بعدی است که تقریب بهینه‌سازی بیزی از یک تابع اکتسابی، عالوه بر این.بخشد استفاده می‌کند که نمونه‌گیری را در مجموعه‌های جستجو که ،در آن بهبودی نسبت به بهترین مشاهده فعلی محتمل است .اعمال می‌کند 13 2.5. Protocol of experiments and performance measures We adopt ten-fold cross-validation method to train and test each predictive model using machine learning toolbox. پروتکل آزمایش ها و معیارهای عملکرد2.5 ما روش روش اعتبار سنجی متقابل ده برابری را برای آموزش و آزمایش هر مدل پیش بینی و با استفاده از جعبه ابزار یادگیری ماشین اتخاذ میکنیم 14 3. Data and results The data used to train and test boosting ensemble regression trees, support vector regression, and Gaussian process regression consists of five instances (attributes) and one output representing house price. The five input instances are house age in year, distance to the nearest transportation station in meter, number of convenience stores in the living circle on foot, geographic coordinate in terms of latitude in degree unit, and geographic coordinate in terms of longitude in degree unit. The total number of instances is 414. The data is obtained from Taiwan Ministry of the Interior during the period of June 2012 to May 2013 and gathered from two districts in Taipei City and two districts in New Taipei City. The convergence of minimum objective depending on functions evaluation from Bayesian optimization algorithm is displayed in Fig. 1 when applied to boosting ensemble regression trees, Fig. 2 when applied to support vector regression, and Fig. 3 when applied to Gaussian process regression predictive model. Recall that Bayesian Optimization applies a direct the search in order to find the minimum or maximum of an objective function from a Bayesian perspective. Accordingly, the optimal parameters are found by using the predicted mean and predicted variance generated by the normal distribution model. As shown in Figs. 1–3, both minimum observed objective and estimated minimum objective decrease at the same fast rate in a simultaneous manner. ج نتای و اطالعات .3 ،داده‌های مورد استفاده برای آموزش و آزمایش درخت‌های رگرسیون مجموعه‌ای تقویت‌کننده و رگرسیون فرآیند گاوسی شامل پنج نمونه (ویژگی) و یک خروجی،رگرسیون بردار پشتیبانی فاصله تا، سن خانه در سال: پنج نمونه ورودی عبارتند از.است که قیمت خانه را نشان می‌دهد ، تعداد فروشگاه های رفاه در دایره زندگی پیاده،نزدیکترین ایستگاه حمل و نقل بر حسب متر مختصات جغرافیایی بر حسب عرض جغرافیایی بر حسب واحد درجه و مختصات جغرافیایی بر داده ها از. مورد است414 تعداد کل موارد. .حسب طول جغرافیایی بر حسب واحد درجه به دست آمده و از دو منطقه در شهر تایپه2013 تا مه2012 وزارت کشور تایوان در دوره ژوئن همگرایی حداقل هدف بسته به ارزیابی.و دو منطقه در شهر جدید تایپه جمع آوری شده است هنگامی که برای تقویت درخت‌های رگرسیون1 توابع از الگوریتم بهینه‌سازی بیزی در شکل برای3 هنگامی که برای پشتیبانی از رگرسیون برداری و شکل2 شکل،مجموعه اعمال می‌شود به یاد داشته. نمایش داده شده است،مدل پیش‌بینی رگرسیون فرآیند گاوس اعمال می‌شود باشید که بهینه سازی بیزی یک جستجوی مستقیم را برای یافتن حداقل یا حداکثر یک تابع پارامترهای بهینه با استفاده از میانگین، بر این اساس.هدف از دیدگاه بیزی اعمال می کند .پیش‌بینی‌شده و واریان س پیش‌بینی‌شده تولید شده توس ط مدل توزی ع نرمال یافت می‌شوند هم حداق ل هدف مشاهده شده و هم،3-1 .همانطور که در شکل ها نشان داده شده است ، به عبارت دیگر.حداقل هدف برآورد شده با سرعت یکسانی به طور همزمان کاهش می یابد به طور،بهینه‌سازی بیزی برای تنظیم سیستم‌های پیش‌بینی در نظر گرفته شده در کار فعلی .ت اس قبول ل قاب و تشویق‌کننده ی منطق 15 تقویت مدل پیش‌بینی درختان. نقشه ی عملکرد هدفدار حداقل وابسته به ارزیابی های عملکرد: 1 شکل رگرسیون مجموعه Fig. 1. Plot of minimum objective function depending on function evaluations: boosting ensemble regression trees predictive model. 16 نمودار جعبه خطای پیش بینی مرتبط با هر سیستم4 شکل،عالوه بر این مجددا ً مشاهده می شود که درختان رگرسیون.پیش بینی را نشان می دهد مجموعه ای تقویت کننده دارای کمترین میانگین نرخ خطا و تغییرپذیری ، عالوه بر این.خطای کم هستند که با دامنه توزیع نشان داده شده است رگرسیون بردار پشتیبان دارای باالترین میانه خطا و رگرسیون فرآیند تقویت درختان رگرسیون، از این رو.گاوسی بیشترین تنوع خطا را دارد مجموعه ای خطای پیش بینی پایدار و کم را در مقایسه با سایر سیستم نتایج ارزیابی سیستم های پیش1 جدول.های پیش بینی ارائه می دهد Besides, Fig. 4 Shows The Boxplot Of Prediction Error Associated With Each Predictive System. It Can Again Be Seen That Boosting Ensemble Regression Trees Have The Smallest Error Rate Median And Low Error Variability Indicated By The Range Of The Distribution. In Addition, Support Vector Regression Has The Highest Error Median And Gaussian Process Regression Has The Largest Error Variability. Hence, Boosting Ensemble Regression Trees Provide Stable And Low Prediction Error Compared To The Other Predictive Systems. Table 1 Summarizes The Evaluation Results Of The Aforementioned Predictive Systems In Terms Of RMSE, MAE, MARE, And MAPE Performance MeasuresAs Shown In The Table, Boosting Ensemble Regression Trees Yielded To The Lowest Performance Measures Followed By Gaussian Process Regression And Support Vector Regression Respectively. بینی فوق الذکر را بر حسب معیارهای عملکردRMSE، MAE، MARE وMAPE همانطور که در جدول نشان داده.خالصه می کند تقویت درختان رگرسیون مجموعه‌ای به کمترین معیارهای،شده است عملکردی پس از رگرسیون فرآیند گاوسی و رگرسیون بردار پشتیبان منجر دقت کلی تقویت درختان رگرسیون گروهی باالتر از رگرسیون، بنابراین.شد فرآیند گاوسی و رگرسیون بردار پشتیبانی است. 17 Thus, the overall accuracy of boosting ensemble regression trees is higher than those of Gaussian process regression and support vector regression. Obviously, the comparison of the boosting ensemble regression trees over the other single predictive systems shown in Table 1 is helpful in order to understand whether ensemble predictive systems can outperform the single ones; for instance Gaussian process regression and support vector regression. Accordingly, we find that the ensemble predictive system; namely the boosting ensemble regression trees, performs better than single best predictive systems when tested on the data set at hand. However, constructing and optimizing ensembles predictive systems such as boosting ensemble regression trees requires larger memory and computational time than constructing a single optimized predictive system; for instance,Gaussian process regression and support vector regression. بدیه ی اس ت ک ه مقایس ه درخت‌های رگرس یون گروه ی تقویت‌کننده نس بت ب ه سایر ب ه منظور درک اینک ه آیا1 س یستم‌های پیش‌بین ی منفرد نشان‌داده‌شده در جدول سیستم‌های پیش‌بینی مجموعه می‌توانند عملکرد بهتری از سیستم‌های منفرد داشته . مفی د اس ت،باشن د متوجه، بر این اساس. رگرسیون فرآیند گاوسی و رگرسیون بردار پشتیبانی،عنوان مثال یعن ی درخت‌های رگرس یون مجموعه،م ی شوی م ک ه س یستم پی ش بین ی مجموع ه بهت ر از بهتری ن س یستم‌های پیش‌بین ی منفرد هنگام آزمایش بر روی،تقویت‌کننده ساخت و بهینه‌سازی سیستم‌های، با این حال.مجموعه داده‌های موجود عمل می‌کنند به حافظه و زمان، مانند تقویت درخت‌های رگرسیون مجموعه‌ای،پیش‌بینی مجموعه‌ها به.محاسباتی بیشتری نسبت به ساخت یک سیستم پیش‌بینی بهینه‌شده واحد نیاز دارد . رگرس یون فرآین د گاوس ی و رگرس یون بردار پشتیبان ی را انجام میدهد،عنوان مثال معیارهای عملکرد: 1 جدول 18 بحث.4 و با استفاده از مدل های شبکه های عصبیMRSE 8.04 ] با استفاده از مدل های رگرسیون چند متغیره به میانگین16[ به خاطر داشته باشید که از آنجایی. زمانی که هر دو بر روی مجموعه داده های مشابهی اعتبارسنجی می شوند، یک پرسپترون چند الیه، به عنوان مثال. دست یافت7.12 مصنوعی به 6.4450 وRMSE 5.4240، 6.2214 رگرسیون فرآیند گاوسی و رگرسیون بردار پشتیبان به ترتیب به ارزش،که تقویت درختان رگرسیون مجموعه . آنها به وضوح از مدل های رگرسیون چند متغیره و شبکه های عصبی مصنوعی استفاده شده در همان مجموعه داده ها بهتر عمل کردند،رسیدند 4. Discussion Bear in mind that [16] achieved an average MRSE of 8.04 by using multivariate regression models and 7.12 by using artificial neural networks models; for instance, a multi-layered perceptron, when both validated on the same data set as ours. Since boosting ensemble regression trees, Gaussian process regression, and support vector regression yielded respectively to RMSE value of 5.4240, 6.2214, and 6.4450, they clearly outperformed multivariate regression models and artificial neural networks employed by [16] on the same data set. 19 پشتیبانی از مدل پیش بینی رگرسیون. نقشه ی عملکرد هدفدار حداقل وابسته به ارزیابی های عملکرد: 2 شکل برداری Fig. 2. Plot of minimum objective function depending on function evaluations: support vector regression predictive model 20 مدل پیش‌بینی. . نقشه ی عملکرد هدفدار حداقل وابسته به ارزیابی های عملکرد: 3 شکل رگرسیون فرآیند گاوسی Fig. 3. Plot of minimum objective function depending on function evaluations: Gaussian process regression predictive model. 21 22 The Underperformance Of Artificial Neural Networks In [16] Against Boosting Ensemble Regression Trees, Gaussian Process Regression, And Support Vector Regression Could Be Explained By The Fact That The Data Size Is Relatively Small As The Total Number Of Instances Is Only 414. Indeed, Artificial Neural Networks Are Data Consuming Intelligent Machines Capable To Approximate Nonlinear Functions; But They Require Very Large Number Of Examples To Efficiently Learn Data For Better Function Approximation. Besides, Multivariate Regression Models Employed In [16] Are Linear Statistical Models Which Are Sensitive To Normality Distribution, Nonlinearity, And Outliers In Data. On The Other Handboosting ensemble regression trees are kind of artificial intelligence methods that take advantage of their relative processing simplicity and parallelization technique. Specifically, regression trees determine a set of if-then rules and minimize the error cost by considering both error rate and variance. They do not require assumptions regarding the distribution of predictors and can grip highly skewed numerical data. ] در برابر16[ عملکرد ضعی ف شبک ه های عص بی مصنوعی در و، رگرسیون فرآیند گاوسی،تقویت درختان رگرسیون مجموعه رگرسیون بردار پشتیبان را می توان با این واقعیت توضیح داد که اندازه داده ها نسبتا کوچک است زیرا تعداد کل نمونه ها تنها مص نوعی شبک ه های عص بی ماشین های، در واق ع. اس ت414 هوشمن د مص رف کننده داده هس تند ک ه قادر ب ه تقری ب توابع ام ا آنه ا ب ه تعداد بسیار زیادی مثال برای.غیرخط ی هس تند .یادگیری کارآم د داده ه ا برای تقری ب عملکرد بهتر نیاز دارند مدل‌های رگرسیون چند متغیره به کار گرفته شده،عالوه بر این ،] مدل‌های آماری خطی هستند که به توزیع نرمال بودن16[ در از سوی.غیرخطی بودن و نقاط پرت در داده‌ها حساس هستند تقوی ت درختان رگرس یون گروه ی نوعی روش هوش،دیگ ر مص نوعی اس ت ک ه از س ادگی پردازش نس بی و تکنیک موازی درختان رگرسیون مجموعه، به طور خاص.سازی آنها بهره می برد را تعیین می کنند و هزینه خطا را با درif-then ای از قوانین نرخ خطا و واریانس آنها.نظر گرفتن هر دو به حداقل می رساند به فرضیاتی در مورد توزیع پیش بینی کننده ها نیازی ندارند و می توانند داده های عددی بسیار منحرف را بدست آورند 23 یکی از محدودیت های اصلی مطالعه حاضر این است که برخی از متغیرهای کالن و خرد برای ارزیابی قیمت مسکن آثار مختلف نشان داده است که بازار مسکن به عوامل اقتصادی عمومی در سراسر، در واقع.در نظر گرفته نشده اند تأثیر سیاست پولی بر قیمت خانه در آفریقای جنوبی در رژیم خرس بزرگتر از، به عنوان مثال.کشورها بستگی دارد هزینه کاربری و، ازدواج های قریب الوقوع، هزینه های ساخت و ساز، همچنین سطوح درآمد.]25[ رژیم گاو نر بود ] هستند و قیمت مسکن در استان های توسعه یافته تر46[ قیمت زمین عوامل اصلی تعیین کننده قیمت مسکن در ترکیب مقررات نرخ ارز و مالیات بر، عالوه بر این.] 46[ توسط هزینه های ساخت و ساز و قیمت زمین تعیین می شود رشد، رشد واقعی بازار سهام، اسپرد نرخ بهره، عالوه بر این.]47[ دارایی به ثبات بازار مسکن در چین کمک می کند تحوالت، عالوه بر این.]48[ درآمد سرانه قابل تصرف شخصی واقعی و تورم پیش‌بینی‌کننده‌های قیمت مسکن هستند مالی در سایر بازارهای دارایی می تواند نقش مهمی را به عنوان محرک در ظهور انفجار در بازارهای مسکن بین المللی [48[ ایفا کند One Major Limit Of The Current Study Is That Some Macro And Microeconomic Variables Have Not Been Considered For House Price Evaluation. Indeed, Various Works Have Shown That Housing Market Depends On General Economy Factors Across Countries. For Instance , The Impact Of Monetary Policy On House Prices In South Africa Was Found To Be Larger In Bear Regime Than In Bull Regime [25]. Also, The Levels Of Income, Construction Costs, Impending Marriages, User Cost And Land Prices Are The Primary Determinants Of House Prices In [46], And Housing Prices In More Developed Provinces Are Determined By Construction Costs And Land Prices [46]. In Addition, The Combination Of Exchange Rate Regulation And Property Tax Contributes To The Stability Of The Housing Market In China [47]. Furthermore, Interest Rate Spreads, Real Stock Market Growth, Growth In Real Personal Disposable Income Per Capita And Inflation Are Predictors Of House Prices [48]. Moreover, Financial Developments In Other Asset Markets Can Play A Significant Role As A Trigger In The Emergence Of Explosiveness In International Housing Markets [48]. 24 متأسفانه ،پایگاه داده در دسترس عموم که ما استفاده کردیم محدود است و حاوی اطالعات کالن و اقتصاد خرد در تایوان نیست .در واقع ،به طور کلی ،داده های قیمت گذاری مسکن کوچک و محدود است [ ]10،12و مبهم و مبهم [ .]11با این حال ،مطالعه ما این شایستگی را دارد که اثربخشی تکنیک‌های یادگیری ماشین ارائه شده را در پیش‌بینی قیمت خانه در زمانی که تعداد ورودی‌ها به شدت محدود است ،مقایسه کند .در واقع ،برخالف کارهای قبلی [-25،46 ]48که در آن مدل‌های اقتصادسنجی خطی استاندارد برای بررسی رابطه بین متغیرهای اقتصاد کالن ثابت و تغییرات ثابت قیمت مسکن ب ه کار گرفته شد ،مقاله ما از روش‌های یادگیری ماشینی پیشرفته برای پیش‌بینی داده‌های قیمت مسکن با تعداد بسیار محدودی از پیش بینی کننده های غیر ثابت .به عبارت دیگر ،ما عملکرد سه روش مختلف یادگیری ماشین را پیاده سازی و مقایسه کردیم که اساساً یک مشکل تجزیه و تحلیل داده است ،در حالی که کارهای قبلی [ ]47،48[ ]25،46عمدتاً با تخمین آماری و استنتاج رابطه بین اقتصاد کالن سروکار دارند .پیش بینی ها و قیمت خانه بنابراین ،مطالعه ما آثار محدود موجود در تحلیل پیش‌بینی قیمت مسکن را غنی می‌کند [ .]16-10در این راستا ،ما می‌دانیم که نتایج مطالعه ما برای بازار مسکن تایوان اعمال می‌شود ،زیرا دسترسی ما به چنین پایگاه‌داده‌ای محدود است ،اما مقایسه بین این سه مدل را می‌توان به سایر بازارهای مسکن در سراسر جهان نیز تعمیم داد .این برای ت اس مانده ی باق آینده .کارهای 25 ‏Unfortunately, the publicly available database we used is ‏limited ‏and does not contain macroeconomic and microeconomic ‏information ‏in Taiwan. Indeed, in general, house pricing data is small ‏and limited [10,12] and imprecise and ambiguous [11]. However, our ‏study ‏has the merit to compare the effectiveness of the ‏presented machine ‏learning techniques in predicting house price when the ‏number of ‏inputs is strictly limited. Indeed, contrary to previous works ][25,46–48 ‏where standard linear econometric models were adopted to ‏investigate ‏the relationship between stationary macroeconomic ‏variables ‏and stationary housing price variations, our paper uses and ‏compares ‏advanced ‏machine ‏learning ‏methods ‏to ‏predict ‏nonstationary housing ‏price data with very limited number of nonstationary ‏predictors. In ‏other words, we implemented and compared the ‏performance of three ‏different machine learning methods which is basically a ‏data analytics ‏problem, whilst previous works [25,46] [47,48] are mainly ‏dealing ‏with statistical estimation and inference of the relationship ‏between مدل های ناپارامتریکی هستند که بر خالف مدل های اقتصادسنجی به کارSVR به خاطر داشته باشید که تقویت درختان رگرسیون مجموعه و عالوه.]48-46 ،25[ رفته در برخی از کارهای قبلی بر اساس فرضیات مربوط به توزیع های آماری داده ها و فرم های تابع پارامتری خاص نیستند ک ه تأثیر، از اص ل منظم‌س ازی اس تفاده کنی د.SVR روش های یادگیری ماشین ی؛ مانن د تقوی ت درختان رگرس یون گروه ی و،بر ای ن تعامالت غیرخط ی بین، درختان رگرس یون کیس ه‌ای، در ای ن راس تا.پیش‌بینی‌کننده‌های اضاف ی ی ا بی ش از ح د مناس ب را به ص فر می‌رس اند مدل‌های خانواده ماشین‌های بردار پشتیبان (از، عالوه بر این.]49[ پیش‌بینی‌کننده‌ها را به حساب می‌آورند و قادر به کاهش چند خطی هستند به چند خطی،) روش‌های یادگیری ماشینی ویژگی‌های یادگیری قطعی هستند که به دلیل راه‌حل‌های قطعی بردارهای پشتیبانیSVR جمله نیاز به تمیز کردن داده‌های کمتری دارد و تحت تأثیر عوامل پرت وSVR تقویت درختان رگرسیون گروهی و، از این رو.]49[ حساس نیستند .چند خطی قرار نمی‌گیرد Bring in mind that boosting ensemble regression trees and SVR are nonparametric models that are not based on assumptions regarding statistical distributions of the data and specific parametric function forms, contrary to econometric models employed in some previous works [25, 46–48]. In addition, machine learning methods; such as boosting ensemble regression trees and SVR; use regularization principle, which shrinks the influences of redundant or overfitting predictors to zero. In this regard, bagging regression trees account for nonlinear interactions between predictors and are capable to alleviate multicollinearity [49]. Besides, support vector machines family models (including for instance, SVR) are deterministic-learning features machine learning methods which are not sensitive tomulticollinearity due to their deterministic solutions of support vectors [49]. Hence, boosting ensemble regressiontrees and SVR require less data cleaning and are not influenced by outliers and multicollinearity. 26 Finally, Gaussian process regression is not sensitive to multicollinearity since it makes use of a kernel function to compute the approximation function (See Eq. (11), for instance). Indeed, the introduction of a kernel stabilizes the computation of the approximation function which is very effective in presence of noise and multicollinearity. Finally, it is worth to mention that when the goal is to perform a forecasting task (predictive estimation analytics and problem inference as opposition problem), to then multicollinearity is not really a problem under boosting رگرسیون فرآیند گاوسی به چند خطی بودن حساس نیست زیرا،در نهایت از یک تابع هسته برای محاسبه تابع تقریب استفاده می کند (به عنوان مثال محاسبات تابع، معرفی یک هسته، در واقع.) مراجعه کنید11( به معادله .تقریب را تثبیت می کند که در حضور نویز و چند خطی بسیار موثر است شایان ذکر است که وقتی هدف انجام یک کار پیش‌بینی است،در نهایت (مسئله تحلیل پیش‌بینی‌کننده به عنوان مخالفت با تخمین و مشکل پس چند خطی بودن واقعاً مشکلی برای تقویت درخت‌های،)استنتاج . و رگرسیون فرآیند گاوسی نیستSVR ،رگرسیون مجموعه ensemble regression trees, SVR, and Gaussian process regression. 27 به طور خالصه ،ما از الگوریتم تقویت حداقل مربعات [ ]49برای ساخت درختان رگرسیون مجموعه استفاده کردیم تا یادگیرندگان ضعیف (درخت رگرسیون) را با تمرکز مکرر بر روی خطاهای حاصل از هر مرحله ترکیب کنیم تا زمانی که یک یادگیرنده قوی مناسب به عنوان مجموع متوالی به دست آید .ضعیف ها سیستم‌های رگرسیون بردار پشتیبان ،روش‌های یادگیری ماشینی هستند که می‌توانند با استفاده از یک هسته غیرخط ی ،بردار ورودی را بر روی فضای ویژگی‌های ابعادی باال ترسیم کنند ،به طوری که می‌توان مسئله پیچیده را به یک ساده‌تر تبدیل کرد .همچنین ،رگرسیون بردار پشتیبان قادر به دستیابی به بهینه جهانی است و حتی اگر نمونه داده کوچک یا محدود باشد ،کارآمد است [ .]43،50در واقع ،می‌تواند کار یادگیری را با داده‌های نسبتاً کمی انجام دهد [ .]43،50عالوه بر این ،در چارچوب رگرسیون بردار پشتیبان ،تصمیم‌گیری تنها بر روی چند بردار پشتیبان قابل انجام است. ‏In Summary, We Used Least Squares Boosting Algorithm [49] To Construct )Ensemble Regression Trees So As To Combine Weak Learners (Regression Trees ‏By Iteratively Focusing In The Errors Resulting At Each Step Until A Suitable Strong ‏Learner Is Obtained As A Sum Of The Successive Weak Ones. Support Vector ‏Regression Systems Are Machine Learning Methods Capable To Map Input ‏Vector Onto High Dimensional Feature Space By Using A Nonlinear Kernel So ‏That Complex Problem Can Be Transformed Into Simpler One. Also, Support ‏Vector Regression Is Able To Achieve Global Optimum And Is Efficient Even ‏The Data Sample Is ‏Small Or Limited [43,50]. 28 ً رگرسیون فرآیند گاوسی انعطاف‌پذیر و یک سیستم پیش‌بینی کام، بر اساس استفاده از یک تابع هسته برای نگاشت غیرخطی داده‌ها،در نهایت ال احتمالی ] را با استفاده از تکنیک اعتبارسنجی متقاطع ده برابری برای انتخاب مقادیر پارامتر بهینه و مدل34[ مطالعه ما بهینه‌سازی بیزی، عالوه بر این.است بهینه سازی بیزی نیز برای یافتن مقادیر پارامتر بهینه و ساختار درختان رگرسیون گروهی و رگرسیون.پیش‌بینی رگرسیون بردار پشتیبان اجرا کرد . مقایس ه‌ای از نظر معیارهای عملکرد مختلف انجام شده است، برای اعتبارسنجی دقت پیش‌بینی سه مدل پیش‌بینی.فرآیند گاوسی به کار گرفته شد . نتایج تحلیل‌های تجربی نشان داد که درخت‌های رگرسیون مجموعه تقویت‌کننده تنظیم‌شده با بهینه‌سازی بیزی بهترین عملکرد را دارند،بر این اساس عملکرد بهتری، از رگرسیون فرآیند گاوسی و مدل‌های پیش‌بینی رگرسیون برداری پشتیبانی که همگی توسط بهینه‌سازی بیزی تنظیم شده‌اند،در واقع از رگرسیون بردار پشتیبانی که متعلق به، تقویت درخت‌های رگرسیون مجموعه‌ای که متعلق به روش‌های هوش مصنوعی هستند، به عبارت دیگر.داشت تقویت درختان رگرسیون، عالوه بر این. بهتر عمل کرد،خانواده یادگیری ماشینی است و رگرسیون فرآیند گاوسی که متعلق به مدل‌های آماری است هر سه سیستم پیش‌بینی بکار گرفته شده در کار فعلی عملکرد بهتری از، عالوه بر این.مجموعه ای خطای پیش بینی پایدار و کم را ارائه می دهد ] داشتن د و بر روی ی ک مجموع ه داده آزمای ش شدند16[ شبکه‌های عص بی مص نوعی و مدل‌های رگرس یون چن د متغیره مورد اس تفاده در. In fact, it is able to conduct learning task with relatively small amount of data [43,50]. Furthermore, in support vector regression framework, the decision making can be made only on few support vectors. Finally, based on using a kernel function to nonlinearly mapping data, Gaussian process regression is flexible and a fully probabilistic predictive system. Besides, our study implemented Bayesian optimization [34] using ten-fold cross validation technique to choose optimal parameter values and the kernel of support vector regression predictive model. The Bayesian optimization was also adopted to find optimal parameter values and structure of boosting ensemble regression trees and Gaussian process regression. To validate the prediction accuracy of the three predictive models, a comparison in terms of various performance metrics has been conducted Accordingly, the results of empirical analyses showed that the boosting ensemble regression trees tuned by Bayesian optimization perform the best. Indeed, it outperformed Gaussian process regression and support vector regression predictive models all tuned by Bayesian optimization. In other words, boosting ensemble regression trees which belong to artificial intelligence methods outperformed support vector regression which belongs to machine learning family and Gaussian process regression which belongs to statistical models. Furthermore, boosting ensemble regression trees provide stable and low prediction error. Moreover, all three predictive systems employed in the current work outperformed artificial neural networks and multivariate regression models used in [16] and tested on the same data set. 29 نتیجه گیری.5 5. Conclusion This study employed and compared three predictive systems for the first time namely boosting ensemble regression trees which belong to artificial intelligence methods, support vector regression which belongsto machine learning family and Gaussian process regression which belongs to statistical models; all optimized by Bayesian optimization; to the problem of house price prediction. Based on four different performance measures, the experimental results show that the boosting ensemble regression trees are accurate and reasonable for use in house price evaluation as it outperformed support vector regression and Gaussian process regression. In addition, boosting ensemble regression trees provide stable and low prediction error. Besides, all three predictive systems performed much better than artificial neural networks and multi-variate regression model which were employed in a recent workon the same data set. Certainly, the stability and algorithmic efficiencyof boosting ensemble regression این مطالعه برای اولین بار سه سیستم پیش‌بینی را به کار تقوی ت درخت‌های رگرسیون:گرف ت و مقایس ه کرد ،مجموعه‌ای ک ه متعل ق ب ه روش‌های هوش مص نوعی است رگرس یون برداری پشتیبانی که متعلق به خانواده یادگیری ماشین ی اس ت و رگرس یون فرآین د گاوس ی ک ه متعل ق به همه توسط بهینه سازی بیزی بهینه.مدل‌های آماری است بر اساس چهار. به مشکل پیش بینی قیمت مسکن.شده اند نتای ج تجرب ی نشان می‌ده د که،معیار عملکرد مختل ف درخت‌های رگرسیون مجموعه تقویت‌کننده برای استفاده در ارزیابی قیمت خانه دقیق و معقول هستند زیرا از رگرسیون .بردار پشتیبان و رگرسیون فرآیند گاوسی بهتر عمل می‌کنند تقویت درختان رگرسیون مجموعه ای خطای،عالوه بر این هر سه، عالوه بر این.پیش بینی پایدار و کم را ارائه می دهد سیستم پیش‌بینی بسیار بهتر از شبکه‌های عصبی مصنوعی و مدل رگرس یون چن د متغیره ک ه در ی ک کار اخیر بر روی . عمل کردند،مجموعه داده‌های مشابه به کار گرفته شده‌اند پایداری و کارای ی الگوریتم ی تقویت درختان،ًمطمئنا آنه ا را ب ه ی ک کاندیدای ایده‌آل برای،رگرس یون مجموع ه پیش‌بینی قیمت خانه تبدیل می‌کند که در یک نمونه داده .کوچک با پیش‌بینی‌کننده‌های کمی اعمال شود trees make them an ideal candidate for house price forecasting when applied to a small data sample with few 30 ERROR DEPENDENCE, J. HOUS. ECON. 21 (2012) 66–76. [6] R. KOUWENBERG, R. ZWINKELS, FORECASTING THE US HOUSING MARKET, INT. J. FORECAST. 30 (2014) 415–425. [7] O. KETTANI, M. ORAL, DESIGNING AND IMPLEMENTING A REAL ESTATE APPRAISAL SYSTEM: THE CASE OF QUÉBEC PROVINCE, CANADA, SOCIO-ECON. PLAN. SCI. 49 (2015) 1–9. [8] L. BORK, S.V. MØLLER, FORECASTING HOUSE PRICES IN THE 50 STATES USING DYNAMIC MODEL AVERAGING AND DYNAMIC MODEL SELECTION, INT. J. FORECAST. 31 (2015) 63– 78. [9] Y. WEI, Y. CAO, FORECASTING HOUSE PRICES USING DYNAMIC MODEL AVERAGING APPROACH: EVIDENCE FROM CHINA, ECON. MODEL. 61 (2017) 147–155. [10] H. KUSŞAN, O. AYTEKIN, I. ÖZDEMIR, THE USE OF FUZZY LOGIC IN PREDICTING HOUSE SELLING PRICE, EXPERT SYST. APPL. 37 (2010) 1808–1813. [11] A. AZADEH, B. ZIAEI, M. MOGHADDAM, A HYBRID FUZZY REGRESSION-FUZZY COGNITIVE MAP ALGORITHM FOR FORECASTING AND OPTIMIZATION OF HOUSING MARKET FLUCTUATIONS, EXPERT SYST. APPL. 39 (2012) 298–315. [12] L.H. GEREK, HOUSE SELLING PRICE ASSESSMENT USING TWO DIFFERENT ADAPTIVE NEURO-FUZZY TECHNIQUES, AUTOM. CONSTR. 41 (2014) 33–39. [13] J. WANG X. WEN, Y. ZHANG, Y. WANG, REAL ESTATE PRICE FORECASTING BASED ON SVM OPTIMIZED BY PSO, OPTIK 125 (2014) 1439–1443. [14] B. PARK, J.K. BAE, USING MACHINE LEARNING ALGORITHMS FOR HOUSING PRICE PREDICTION: THE CASE OF FAIRFAX COUNTY, VIRGINIA HOUSING DATA, EXP. SYST. APPL. 42 (2015) 2928–2934. [15] V. PLAKANDARAS, R. GUPTA, P. GOGAS, T. PAPADIMITRIOU, FORECASTING THE U.S. REAL HOUSE PRICE INDEX, ECON. MODEL. 45 (2015) 259–267. [16] I.-C. YEH, T.-K. HSU, BUILDING REAL ESTATE VALUATION MODELS WITH COMPARATIVE APPROACH THROUGH CASE-BASED REASONING, APPL. SOFT COMPUT. 65 (2018) 260– 271. [17] A.B. ADETUNJI, O.N. AKANDE, F.A. AJALA, O. OYEWO, Y.F. AKANDE, G. OLUWADARA, HOUSE PRICE PREDICTION USING RANDOM FOREST MACHINE LEARNING TECHNIQUE, PROCEDIA COMPUT. SCI. 199 (2022) 806–813. 31
29,000 تومان