ورد
کامپیوتر و IT و اینترنت

پروژه طرز عمل موتور جستجو تعداد صفحات : 19 نوع فایل : word

پروژه طرز عمل موتور جستجو تعداد صفحات : 19 نوع فایل : wordنسخه قابل ویرایش پروژه دانشجویی و دانشگاهی

محمد فایق مجیدی دهگلان

صفحه 1:
طرز عمل موتور جستجو

صفحه 2:
موتور جست و جوی وب از سه بخش تشکیل می شود: سیک دنلگرد ۲99/16۳ که صفحات وب را بيدا مى كتد تا داخل مججموعه صفحات وب أن موتور قرار كيرف ؟- يك شاخص كذار 100636 كه شاخص معكوس ‎tex ©) inverted index‏ به شاعص 100606 )را که ساختمان اصلی ده های مورد استا؛ است و صفحات وب دنبال گشته ‎crawled‏ را ااه مي کند . اسيك باسخ دهنده كه برس و جو هاى كارير زا با استقاده از شاخصها باسخ مى دهد موتورهای جستجو چگونه کار می کنند؟ هبج تاي حال از خودتان برسيد يد كد وقتى بايك موتو رجستجوى قسوى مثل كوكل ( 900918 آر ميكنيدو يا وارد كردن يك يا جند لغت عجيب و غريب .كوكل كلى ثتايج جالب ومرتبط تق ديمتان جه أتفاقى مى افتد ؟. تابه حال به دنبال باس اين برسش نرفته ايد يأ پاسخ ما بيدا پیشنهاد می كنيم ‏ آخر أين دقاله هصرف مابايد اكرجه الطتوريتم دقيق ر جك رتكى كسار ‎Sas uit‏ موتورهاى جستتجو :كاملا معاوم نيست. اماكلباتى در كار بسيارى از موتورهاى جستجو مشترك ومشابه است كه دانستن آنها خعالى از للف بيش بردازشي دادها يكى از راههابى كه موتورهاى جستجو. بسراى كاهش زمان جستجو به كار مى برئد بيش بسرداش محتوای وب سایت هاست به این ریب که وقتی ازبردرخواست یک برس ر جورمی دهدب ون ها وب سایت فرستاه شود از پیش پردازش شسله دریگ صورت می پذیرد زش به کمک بنامه نسم آفنزاریبه تسام 0۳0010۳ نجام می گید 2۳018۳ . به وسيله تكهدارئده ها وريه روزكتتدكان نک هی اطلاصانی فرستاد ی شود تا فهرست منفحات وب را جمع آوری کند. یک برناهویژه اه اي ‎gah cade‏ را پیسایش می كند تا كلمات را استخراج نمايد و بعد اين كلماث همراء با لينكى به صفحه مربوط عدر فايل شاخصرلا یره می شود پرس و جوهای کاربران با همین فایل شساخص مقایسه و مطابقت ددهمی شود وله با در وب سایت ها الویت بندی ای 1 يالينيك هايى كه به عنوان نتايج جستجو توليد مى شوند معمولا تغيلى زياد هبسن .اما همه اين

صفحه 3:
یج به درد بخورنیستند و حتی ممکن است ‎gl Jie lege‏ فاه شود رای فراهم کنردن دسترسی مسریع و در مین حال صفعحات مناسب و این که صفحات با موضوعیت؛ یت بالاتری قرا گبربد الگوریتم های جستجو استراتزی های رتبهبندی مختفی ربه کر می برد زین باعت شود تیم مناسبی به كابير یکی ازاين روش ها که بسیار معسول است. 1076۳58 ‎tfidf(term frequency‏ ‎a) 2c! document trequncy)‏ )25 چگرنگی توزیع کلمت و تکرار نها ررسی اعددى توليادمى شود ابه معسنى درجه اهميت و اعتبار أنها در + ۷۵0 0۳0 )که ی خردوزندیک از که هر هبتر با شد اهمیت واه يشتر است و می شود و يراى كلما اسناد مختلف است.به این کار وزن دهی وا به ۲ عامل بستگی درا یکی دفمات تک ری ار کم ی تیلست کدف ال وه نت و هر جهن مقر ده .باشد ماهميث وازه در تمايز اسناد كمتر خواهد بود .به إين ترتيب كلماتى كه نكرار ييشترى دارئد مل خقاة10,86 .د 05 و_نسيت به كلماتى كه از نظرمعتاییمناسب ترند و از طرف دیگر در متهای کمتری ظاهر می شوند بوزن کمتری خواهند داشت البته عوامل د زه موثر باشند .محل وقوع واه نمدهای حاص ‎Cont) Jon‏ جملهآند. معمولا کلمه ای که در عنوان یک سندباشدمهمتر از علاوه بر وزن دهیواژه ها .صفحات وب با استراتزی هی دیگسری هم تحليل ‎Link analysis).s:}‏ ماهیت هر صفحه با توجه به ارتباط گرفتهمی شودبه این ترتیب وزن دهی یک صفح با توجدبه تعداد صفحاتى كه به أن صفحه اشاره مي كد ي بدك تعداد صفحاتى كه أن صقحه به آنها أشاره می کند.صورت مي ذبرد.گوگل ۷ ابراى بالا برد نتايج جستجو استفاده مى كند. موقعیت و مسافت اصطلاح 086193100 درباره موتورهاى جسجو هم كاريرة ‎6M eS‏ بتازكى از سوى كاريران وارد شده .در جابى تكهسدارى با بهاصطلاح 606136 مى شود و پسرس و جوى كاربر بس از ارسال به موتور جستجوبه كار مى رود. در واقع وكتى موتور جستجو املاى صحيح كلمه رابه قمااعلام مى كند 1868310 ‎Did YOU‏ ازاين تكنيك بهسرهمى برد استاد از مل تحوبل ترز شد ‎gobo ging.) distributed delivery)‏ بان لمت شل كران لست كر ا مدا ماه ان ار 6 ی درو و وله فش دوه مها جنران ند

صفحه 4:
همان طور كه كنتيم ‎Crawler‏ ها براى بيش بردازش و بزای صفحات به کار می رون بعضی 05818181 ها به روش كوركورائه به بازيابى صفحات مى بردازند.روش كوركوراته به اين معني است كه به شهرت و اهميث يا به عبارتى قال اعتماد بودن تطالب وتويد كت دكان أنها ترجه تدارنك اله اين روش موجب شاه سوء استفاده هاب در شاخص دهى و ستفاد. صورت كيرد يكى از ابن كارها به180636_5883905031500 معروف است.بعضى سايت ها برا ‎al‏ در بيشتر مواقع در تتايج جستجو قرار بكيرند و تعداد مراجعان بيشترى داشته بامند.هزاران بار لغات خاصى را در محتواى سابت خدود قسرار ميدهند تا از نظر موتورهاى جستجو اولويت وامتباز بيشترى رابه خود اختصاص دهند ‎Pagejacking‏ یکی دیگر زاين حبله هاست این حبله از يكى از ويزكي ها نرم افزارهلى وب سرورهاسوه ‎sats LR le oe aah ald legge gS ll‏ ‎al aj‏ دهتد .(مثلا جند كارير همزمان بوافتد به يك ‎Lye on nb‏ 8 مطالب هر صفحه راروی جند انا تشانی هی مختلف كه از دید کریر مخفی ست )قار میدهند و درشواست. كاربراث رايه ابن راياته ها هدايت مى كتند.بعضى سايت هااز . ثرم أفزار استفاده و محتوای صفحات یک سایت راکپی می کند و دز سایت شود قرار می دمن ۱ موتورهای جستجو شاخصی دمی می شود و در حعواست بعضى كاربران به جلى صفحه أصلى به لين صفحات تقبیارجاعدادهمی شوندجه ان ترتیب یک موتور جستجوی وب علاره بر جستجواز سرويس دهى حوب به كارير بايد ‎pA I‏ تشتخیص جمله هی ایترنتی راهم داشته بش تا توق ‏بهترین و صحیح ترین نتایج ممکن را در اختيار كاربران قرار دهف ‎ ‎ ‎ ‏موتورهای جستجو ‎ ‎ ‎ ‎ ‎ ‎ ‏شاخص گذاری: ‏همه شاخ ها پر اساس یک مقهرم اصلی واحد عمل فى كنت كليدها و أهزس فيلدها. ‎ ‎galt gh‏ هایی که بررسي مي کنیم شاخص سادهنامده می شوند را با استاده از هاى ساده اى از ساختمان ها نشان داده مى شوند .كه حاوى كليذها و أدرس فيلدها هستتد. ‎ ‎ ‏چون شاخص ها به طور غیر مستقیم عمل می كتند . بدون دستكارى مححوبات فایل یه فا نم و ترتیب می بخشند. ‎ ‏كاتالوك کارنی در واتع مجموعه ای از سه شاخمي است که هر کدام از یک نید کلب متفاوت استفاده مى كنتد و همه الها از ‏من گیرند ‎ ‏ک شماره کاتلوگ یکسان به عشوان ی أدرس بهره ‏از طريق مسيرهاى كوناكولى به ‎ ‏در جستجوی دردوبی لازم است امکان پرش به وسط فایل را داشته باشیم

صفحه 5:
دیگر برای مرتب سازی . ایجاد شاخص برای فایل است. ‎BEL‏ شید ‎sci ake Se pan‏ ين ساختار ليست است كه هر عنصر آن دو فيلد.داره: يك فيلد كليد و يك فيلد برا آفست بايت. عملياتى كه براى يافتن داده هاى مورد نظر ءاز طريق شاخص لازمتد ‎)١‏ ايجاد قايل فاده هابر شاتعض خالى االيه ؟) باز کزدن فایل شاخص در حافظه بل از به کارگیری آن دماییبه فیل و داده ها 0( حذف رکوردها از ثیل دده ها داده ها بهنگام کردن رکوردها در بهنگم کردن شاخصی برای اتمکاس تغييرات به عمل آمده در ايل داذه ها مزبت بزرگی که روش شیء گرا درد آن است که داشته باشيم می توایم در مندهای کلاس ود ى اجسراى اين عمليات به هرجه نيياز ذر اجاد فیل ها بابد ذو قايل ايجاد شوئد ۲ قیل داده ها رای نگهداری اشبای داده ای ؟) قايل شاخص براى تكهدارى شاخص كليد اوليه site (Ke ها هدر صورت انجام می شود ‎)١‏ بهنكام سازى «تعداد فيلد و كليد را تغيير مى دهد. ؟) بهتكام سازى .در فيلد و كليد تأثير ثمى كذاره

صفحه 6:
آشکارترین پیت سازی .استفاده از جستجوی دردویی در ند 1100 است که توسط 56۵7 , 1756/6 و ۲6/90۷6 به کار گرفتهمی شود مت دیگربهینه سازی بچنانچه رکورد شاخص تفییر نکرده پاش . نوشتن درباوه رکه شاعس در ثابل شاخص استه دستییی یه شاخص روی دیننک دارای معایب زیر است. صورت پذیرد نز به چتد. ترئیب مجده شاخص که از خذف يا اقزوذن ركورد تاشى مى شود تياز به جايه بجا كردت با مرتب سازى ركوردها در حافظه ثانوبه دارد كه اين كار ميلبونها بار كسران تر از اجسرا عملیات در حافظه است. هرگاه یک شاخمی ساده در حافظه جا نشو بايد از موارد زیر ستفده کرد )در ضورتی که سرفت دستیبی در اولویت قرار دشنته ‎jh as‏ سازماندهی درهمسازی استفاده شود ۲ در صورتی که به هر دو وع دستیبی کلیدی و ترتبی از داشته باشید .از یک شساخصی چند سطحی با ساختار درختی نظير درنعت 8 استفاده شود اشاخص هاى ساده نسبت به استفاده از فایل داد جشمكيرى دار ۱) شاخص ساده استفده از جستجوی دودویی را برای دستیابی کلیدی به یک رکنورد در فابلی که طول رکوردهای آن متفیر است امکان پذیر می سازد ای که بر حسب کلید مرت شده اند مزایای ؟) أكر ورودى هاى شاخص بسبار كوجكتر از ركوردهاى قايل داده ها باشد .مرتب مسازی و تكهدارى شاخص نسبت به مرتب سازى و تكهدارى فايل داده ها زمان كمترى مى برد ۳ اگر در فابل داده ها رکوردهایی وجود دارند که در جای خود مستقر هستند با استفاده از شاخ می توا ترتیب کلیدها را بدون جایجایی رکوردهای داده ها عوض کرد

صفحه 7:
هنگامیکه شاعص: شاخعص ثانويه است. زمان الازم برا انجام انويه ان موجود باشد باقزودن يك ركوزة به قايل به معناى افزودن يك بن كار بسيار مشابه زمان لازم بسراى افزودن يد ات یک اختلاف مهم شاخص تانویه و شاعص اولیهآن است که شاخص ثائويه م توائد خنازى کلیدهای درکانهباشد. 9558 معمولاً به معتای حذف تمامی آدرس های آن رکو SH ME pe ‏حذف رکوردی از فایل دده ها ته نها به معای حذف ورودی مریسوط در شتاخص‎ ‏ارلبه که به معنای حذف همه ورودی های موجود در همه شاخص های تایه ى است ك2‎ ین ورودی از شاحص اولیه رجوع می کنند مشکل این است که شاخص های تیه همانند شاخمی ارلبه به ترتیب کلیدها نگهنداری می شوند. در نتیجه حذف یک ورودی شامل ترتیب مجدد ورودی های موجود به منظسور بستن فضای بایمنده از حذف است. بهنگام سا زی فایل داده ها نقط هتگانی شاخمي تایه را تحت تأیر قسرار می دهد كه كليد تفیز یبد که سه وضدیت ممکن آست پیش ‎Mh‏ ‎)١‏ بهنگام سا بهنگام سازی باعث تفیر کلید اولیه می شود ‏۳ بهنگام سازی محدود به فیلدهای دیگر ساختارهاى شاخص ثانويه اى كه تا كنون ارائه كرديم دو مشكل دارئد. ‏ى باعث تغيبر كليد ثانوبه مى شود. ‎)١‏ هرباركه ركورد جديدى به فايل اقزوده مى شود بايد قايل شاخص را د ‏»حتی اگن رکورد جدید به وک کلید تیه موجود مربوظ باشد. ‏۲ اگر کلیدهای ثانیه وجود داشته بشد .یلد ‎ap AIS‏ کار باعث هدر رفتن فضا می شود. ‎ ‏هتم :کنیع ‎ ‏هر ورودى تكسرار مى شود ‎ ‎ ‎Indexed Sequential ‏خاخص دار‎ ‎ ‏فایل با ساختار ‎ ‎Fj waste pane ‏هسب می گرد و کیک شاخص بندى در‎ ‏قیلدها ساخته می شوند. شاخص باعث بل رفتن سرعت. نرمافارهای اسروزی استفاده می شسود و ‎ ‎

صفحه 8:
جزو شیوء های دستیای تصادفی به حساب می آید و شاخص هاین که در این جا بروسی من شوت از نو شاخ سادههستاد در ‎pipes apt lad amp‏ نسدد من .ياشد ‎pi‏ ‏ایندکس (شاعص) برحسب کلید اصلی (شسماره دانشجویی) و حال اگر متا بخواهيم مشخصات دانشجو, کریمک ایندکس معداه با روش ‎Sah‏ با مسدل ۱۹ را بیتیم کافی است ادا د ‎ly yop‏ ال ند ‎۱٩‏ جست و ‎ ‎ ‎ ‏كع بدین ترتبب متوجه خواهیم شد که مشخصات این دانشجو در سطر ۲ ‎gla‏ لذا به سرعت بر سر رکورد ۲ فایل اصلی رفته و اطلاعات مور نياز را مى خوائيم ‎Geel Gs‏ مجبور بودیم با چلت و جوی عطی در فایل اصلی آن ‎TG‏ ‎ ‏کنیم که کاری زمان یر ‎ae‏ ‏در ال ساد ی فوق نداد سطرهاى قايل شاخص براير سطرهاى قايل اصلى مى باد ول تعداد ستون ها آن نها ۲ فیلد است. بدین دلیل یل شساعصی ‎Sha Sis ai‏ اسلو رسي سرت سو در كه فايل ‎ ‎ ‎ ‎ ‏1 ‏كليد اصلى ساخته شود به آن شاخص ثانويه گویند ۱806 566000279 يس قايل شاخص مجموعه فى از تعدادى مدخل (/ا805) مى باشد كه به قرم كلى ‎03 ‎ol‏ مقدار ‎ ‎ ‎ ‎ ‏يك نشائه كر به يك يا گروهی از رکوردهاسست. در یل ‎ ‏س به طول 8 بايث داده اى اصلن فيلد مقدار به طول ۷ بایت شامل صقت خاصه ای یا ترکببی از صفات خاصه ساخته شده است بتبراین ول هر رک ‎ ‎ ‎ ‎

صفحه 9:
+۷ بایت است. به هر نقطه از یل داده ای اصلی كد از مندخل شساخصی په آن شانه گر وجود درد ,£51 ‎ls‏ يا ‎Anchor Point‏ كويند. اگر هر سدخل فایل شاخص به یک ركوره اثشاره كتنب شاخص را ستراکم (06058. 6 گریند و اگر به گروهی از وکورده مثلا یک بلاک اشاره كشك شاخص را قير ‎a ¢ (Non Dense Index) .5i +‏ در شأخص غير متراكم فابل اصلى داده أ بايد بر أساس فيلد متناظر شاخص سرتب شده باشد تا رگرردها را تون دسته بتدی کرد ولی در شاخص متراكم لزومى نيست كه قايل داده أى از قبل مرتب باشد قابل دادماى و فايل شاخص مى توائتد بلاى بتدى شده باشتد يا تشدة باشند. در حالت بلاک بشدی شده اغلب اندازه ی الک فابل شاخص و بلاك قايل داده اى یکسان است. در شاخص نا مراکم مقدار موجود در فبد داده هر مدخل متاند کوچک تسرين با بزرگ ترين مقدار در هر كروء باشد. تعريف ظرفيت نشائه روى ‎(Index fdnout) ants‏ قايل شاخص نيز مثل فايل داده أى بلاك بندى شده است. تعداه مدخل هاى يك بلاى شاشص را ظرفیت نانه روى أن مى كويند در واقع همان فاكتور ‎Bie GA Sh‏ يلاك شاخص و با بارامتر لاآن را تمايش مى دهتد. sarki ‏.يلاك‎ esl 8 ان اطول مدخل ‎asl‏ ‏تعداد سطوح شاعص از رابطه ئ زير به دست مى أيد: ود وماك افوماك || ‎x =flom‏ هرجه تعداد سطوح بيشتر باشد دفعات دستيابى برلى ‎Sly‏ ركورد بيشتر خواهد بود در ام ی دقیم تا ال هیک پاک بریم و لين كداررا موق اتجام من حقيم 4 فابلدارد ماه می شود و احص فاش را بن مالي ساختار فایل چند شاخصی ۱۳۵/۵6 ‎Multi‏ است که ۷۰ الی ۸۰ ساغتار ‎gla Si‏ اطلاعاتی با ین اصلی داشتیم که مرتب بود و یک فايل جائبى داشتيم ارتباط منطقى بين أن ها نبود و براى رقع ابن ل یک سیستم شاخص استفاده می کنردیم كد کنگ می کر

صفحه 10:
مات ل تيوق شاخصها برد د عدم تلوف بود د مطل سر يب is =H فایل اصلی. غیرتتیی با پیل تاد باشد ساگتار موم مظرح بود در این جا وجود نداد عتی 4 است و بالاحره شتود ساعتار شاخص وضعيتى بويا دارد و هم روثد با تغيسيرات قايل دأ قابل تظیم و به هنگام در آوردن است. اگر 3 تعداد صفاث خاصه در فایل باشد. حداکتر افايل شاختص مى توان دافت. از آن جا که در یک رکورد به طور متوسط. 12 تا صفت خاصه وجود دارد.لذا به یک رکورد 3 ساشتار شاتعص ناظر است. ‎og‏ این ساتار در اساس از نظر فیل داده ای همان پایل ست ام مجهزبه یک سری ‎GF Ma Bo hes FA‏ بر می توائد هر تعداد لز ضقفاث خاضه اى كه حر قايل درن ترهواست ایجاد شاخ ‎JS‏ ‏ای تکمین شم تک ع و ا م سر ا جنت و جو مظاک نمی شاطه ی اتعاب صفات عامه ی شاخف: لزوبی نداردکذ ززی تسام صتفات عاتم شاخص ایجاد ‎ye ae‏ تون ین صفات امه تال بهاولویت شد و آن فان ‎ib‏ درخواست ها یه عنولا أركومان حبست و جو به کل رده می شون BLN re ay ‏ساختارتزتیی شاخص در غیرد از تاه ناحيه مر‎ sled ادر فايل جند شاخصى داريم: هرجه تعداد صفات خاصه شاخص بیشتر باشد. عمل بازسابی کارآتر است و هرجه تعداد صفات خاصه شاعص بيشتر باشف عدم تقارن کستر است و فایل داد ای اصلی می تواندپایل باشد و آیجاد شاخص روی ترکیات مختلف صفات مکان پذیر است. فایل وارونه ثایل است که بى تمام فبلدهاى آن شاخص داشته باشيم.

صفحه 11:
در قايل جند شاخصي مى توان بين صفات خاصه اولويت قائل شد و براى ايجاد شاخص أن فبلدهابى را اتتخاب كرد كه در ييشترى برس و جو ها به كار برده مى کوند ‎le ete se‏ شاخص در ‎aL Spc! Sar Ue la yas STI ce‏ باشد قايل هاى شاخص تأمين كننده ى استراتزئ دستيابى براق قايل داده ی هستند در فايل داده اى مقدار قيلدى مى توائد [ألالا يا ناشناخته باشد. اشاخص گذاری جزء نوغ دستای تصادقی استه شاخصی اولي كني آن اس که در شاخص در شاخص ‎Sar gt‏ است کلد نکرای داش بای عر ‎ID‏ که شاخصی آویه و نویه مايه بر ل سكليد وليه تفیز کنده چه تظیم را ید اتجام ‎poe‏ ‏سکن است لازم بالد تا شاعصی اوليه و ثمام شاخص هلى ثاتويه تفيير كتتد بر دوی ‎gle BS gd SAUNA a Why a? oO J‏ ایجا کرد غاوت ليه كليد تكرارى وجود ثدارد ولى ساختار فایل ترتیی شاخص دار شاخص اصلی: وقتی که صفت خاصه ی شاخمی کلید اصلی باشد. رقتی که صفت خاصه ی شاعص كليد ثانويه باشد. ‎col GAS a BE as‏ غبر از کید اصلی که خاصيت تكليد يودن را دارو ‏در ‎Se Ft Ble A‏ بودن قبل دده أ نم بأد مدر شاخص غير متام بايد فايل داده أى مرتب باشد براى اين كه بتوان ركوردها را گروه پندی کرد ‏شاخص نرم افزارى و سخحث افزارى داريم. ‏شاخص نرم افزارى: كروه در شأخص غير متزاكم بلا با پاکت می پاش ‏اشاخص سخت افزارى: كروه در شاخص غير متراكم شيار استوانه با در حالتى كه فايل رو جند ديسك ذيره شله بأشد مى. تواند هود ديسكا باد ‏لتكركاء جيستة تقطه أى از فال داده ای اس كه مدخل شاخص به آن اشاره مى كن و كر ا فايل ترتيى يا احيه ىا ‎ ‎ ‎ ‎ ‎ee‏ را متراکم می گوید ‎yal GU Fos g nee JRE I‏ دار عیاتند ‏ ‎۱ et ‏شاخص در ساختار ترتیی شاخص دار ‎lle ae‏ بازسازی می شود؟ در سازمان دمی ‏زمان خواندن کل فایل در ساختار ‏دست می آید؟ ‎ ‎ ‏شاخ دار به صوزت پی در پی از چه رابطه ای به ‎ ‏که + معايب ساغتار ترقيى شاخص دار عبارتتد از: عدم تفاون ب مسئلهى درج سر ریزی ها ‎obs‏ ‎Way Ss‏ با فده از شاخصن سزيع تر اتجلم مى كيرف ‏ع ‎ted Sie ee IETS Sosy die wll‏ می گرد ‎ ‎

صفحه 12:
أى انجام ععل درج یک رکوردجدید در روشی ‎ae Push Trough‏ اعمالى انجام مين خوخ لاضن بايد دكورد هر أ ‎a CE TET oy aint ge‏ قبلى و نظيم اشاره فر بازتويسى همين وكوي روشهاى بهين ous dindex) 43 ( سازی برای موتور جستجو موتورهای جسنجوی مطرح همچون گوگل و باه جهت یات ‎ol‏ جستجوی لگورینمی, از خزنده ها (6۳101075) استفاده مى كتناد. صفحاتى كه دارا ليتك ساير صقحات فهرست شسده موتورهاى جستحو هستتد نيه فهرست شدن ندچ که لور حو دكار نت مشود رز همجون ياهو دارا سرويس اراه غيررايكان سعد که روش درس یت اب تسن هريثه سور لظريه اراى هر يعم تفسمینمی نماد. ین برنامه هایی معصول وود در دیس را تضمین کره ول ره ندي شاص در سای جستجور مین نمی کشد. دولهرست اصلى: يعتى فهرست "باهو" ويا بروه “فهرست باز” هر دو نيازمتد ارائه دستى و بازشكرى ويرايشى توسط یک شسخصی حقيقى مستند. كركل انزار 1106191538181 گرگل راارائة مى دهد که با اتفاد از آنمی تون 1000 تشه سایت .4 را بصورت رایگان ایجاهو رنه نسود تفت تمامی مفحات بویژه صفاتی كه با جستجوی عودکارقابلدستایی نت ضمین شون (گردشگران) ‎Crawler‏ های موتورهای جستجو ممکن است هنگام گشت. زدن به قاكتورهاى توجه داشته باشند. تمامى صفحات توسط مونورهاى جستجو فهرست نمی شوند. فاص از فهرست اصلى يك سايت ممكن است عاملى در يافته شدن يا نشدن صفحات باشد. ۲ جلوگیری از كشت زنى (058181319) و استاندارد خروج روبات ها به منظور جلوكيرى از يافتن محتواى نانعواسته در شاخص هاى جستجر . 18081312338187 هامى ‎wis‏ به 010481 قها بكويند فابلها ريا فهرسث ها خصاص را از طريق فايل :60. 508018 در فهرست اضلى دومين (40138313) جستجو نكنند يه علاوه مسلماً يك صفحه مى توائد با استقاده از يزه وؤباث ها اذ ‎Se coals‏ موتور جستجو تعارج شود. زمائيكه موتور جستجوبى سايتى را مشاهده مى كند. فايل :50808.60 واقع در فهرست اصلى. فابلی است که جستجو می شود. ان فایل سپس بروسی می شسود و به روات دستور مى دهد جه فايلهابى رانبايد جستجو (580081©5©) كند. به دليل إينكه 01010181 یک موتور جستجو ممكن است كبى كش شده بن فايل را كه درد مکن است گاهاصفساي که ۱۷۵30۵508۴ نمی خواهد نی شود. صفحانى که عموم از کشت زنى نفى مى شوئد شامل صفحات ورود و

صفحه 13:
خروجاعضا یا سبدهای شری و صفحات مخعصوصی کارا که از جستجوهای درون سا پدست. مي أبند اسست. درماه مسارس ‎7٠07‏ كوكل به 1806107385881 ها اخطار داه كد آنه بايد از 00/6 تا جستجریداعلیجلر گر کند. چرا که آنمقعاتبه تن اسهم تج تلقى ی گرد ۳ افزایش اهمیت. روشهای متعدهدیگری نز جهت نما كبرند. ابن روشها شامل موارد زير هستتد: تبدللیک بین صفحات یک وب سایت: اختصاص لینک هاى بيشتر به صفححات اصلى وب سايت يه متظور افزايش رئبه صفنحه مورد استفاده قرار كرفته توسط موتووهای جستجو و ینک از وب سابهای دیگر ‎comment spam ,link farming Ju:‏ یج جستجو می تواند سورد استفاده قرار نوشتن محنریی که شامل عيارات و كلمات كليدي تازه جستجو شدء باشد به طوريكه بابسيارى از ستوالاث جستجو مربوط و مرتبط باشد. افزودن كلماث كليدى ب متاك هاى صفحات وب شامل ‎sb |) keyword stuffing‏ کنات ‎(als‏ سازى 11185 صفحات وب که از طريق 1181 هاى چندگاهقبلدستبابیباشند با استفاده ‎"Canonical" St)‏

طرز عمل موتور جستجو موتور جست و جوی وب از سه بخش تشکیل می شود: -1یک دنبالگرد crawlerکه صفحات وب را پیدا می کند تا داخل مجموعه صفحات وب آن موتور قرار گیرد، -2یک شاخص گذار indexerکه شاخص معکوس ( inverted indexنیز موسوم به شاخص) indexرا که ساختمان اصلی داده های مورد استفاده ی آن موتور جست وجو است و صفحات وب دنبال گشته crawledرا ارائه می کند ، -3یک پاسخ دهنده که پرس و جو های کاربر را با استفاده از شاخصها پاسخ می دهد . موتورهای جستجو چگونه کار می کنند؟ هیچ تا به حال از خودتان پرسیده اید که وقتی با یک موتورجسJJتجوی قJJوی مثل گوگل ( )google کار میکنیدو یا وارد کردن یک یا چند لغت عجیب و غریب ،گوگل کلی نتایج جالب ومرتبط ،تقJJدیمتان می کند ،چه اتفاقی می افتد ؟ اگر تا به حال به دنبال پاسخ این پرسش نرفته اید یا پاسخ مناسبی برای آن پیدا نکJJرده ایJJد،پیشJJنهاد می کJJنیم تا آخر این مقاله همJJراه ما باشJJید .اگرچه الگJJوریتم دقیق و چگJJونگی کJJار وگوگل یا خیلی از موتورهای جستجو ،کامال معلوم نیست. اماکلیاتی در کار بسیاری از موتورهای جسJJتجو مشJJترک ومشJJابه است که دانسJJتن آنها خJJالی از لطف نیست. پیش پردازش' دادها یکی از راههایی که موتورهای جستجو ،بJJرای کJJاهش زمJJان جسJJتجو به کJJار می برند ،پیش پJJرداش محتوای وب سایت هاست .به این تJJرتیب که وقJJتی کJJاربر درخواست یک پJJرس و جو را می دهد .به جای این که این پرس وجو به میلیون ها وب سایت فرستاده شود ،با داده از پیش پردازش شJJده در یک سایت مقایسه می شود و مطابقت صورت می پذیرد .پیش پردازش به کمک برنامه نJJرم افJJزاری به نJJام ‏crawlerانجام می گیرد. ، Crawlerبه وسیله نگهدارنده ها و به روزکنندگان بانک هJJای اطالعJJاتی فرسJJتاده می شJJود تا فهرست صفحات وب را جمع آوری کند .یک برنامه ویژه رایانه ای ،صفحات بازیJJافتی را پیمJJایش می کند تا کلمات را استخراج نماید و بعد این کلمات همراه با لینکی به صفحه مربJJوط ،در فایل شJJاخص ( )indexذخیره می شود .پرس و جو های کاربران با همین فایل شJJاخص مقایسه و مطJJابقت داده می شود ونه با دیگر وب سایت ها. الویت بندی نتایج Urlیا لینیک هایی که به عنوان نتایج جستجو تولید می شوند معموال خیلی زیاد هسJJتند ،اما همه این نتایج به درد بخور نیستند و حتی ممکن است عواملی مثل ابهام زبان باعث شود نتایج مناسJJبی به کJJاربر داده نشود .برای فراهم کJJردن دسترسی سJJریع و در عین حJJال صJJفحات مناسب و این که صJJفحات با موضوعیت بیشتر در الویت باالتری قرار بگیرتد ،الگوریتم هJJای جسJJتجو اسJJتراتژی هJJای رتبه بنJJدی مختلفی رابه کار می برند . یکی از این روش ها که بسJJJیار معمJJJول است tfidf(term frequency inverse ، ) document trequncyاست .در این روش چگونگی توزیع کلمات و تکرار آنها بررسی می شود و برای کلمات ،وزن عددی تولیJJدمی شJJود .این وزن به معJJنی درجه اهمیت و اعتبJJار آنها در اسناد مختلف است.به این کار وزن دهی واژه()term weightingگفته می شود.وزن Jیک واژه به 2عامل بسJJتگی دارد :یکی دفعJJات تکJJرار واژه که هر چه بیشJJتر با شد اهمیت واژه بیشJJتر است و دیگری تواتر اسناد که به معنی تعداد اسJJنادی است که شJJامل آن واژه است و هر چه این مقJJدار بیشJJتر باشد ،اهمیت واژه در تمایز اسناد کمتر خواهد بود .به این ترتیب کلمJJاتی که تکJJرار بیشJJتری دارند مثل ‏or , to,withو...نسJبت به کلمJاتی که از نظرمعنJایی مناسب ترند و از طJرف دیگر در متنهJای کمتری ظاهر می شوند ،وزن کمتری خواهند داشت ؛البته عوامل دیگری می توانند بر وزن (اهمیت)یک واژه موثر باشند .محل وقوع واژه نمادهای خاص مثل ( )fontو برچسب( )tagمربوط به واژه از آن جمله اند .معموال کلمه ای که در عنوان یک سند باشد مهمتر از واژه های خود متن است .همچJJنین واژ ه های خود متن است.همچنین واژه های نوشته شده با قلم خاص مهمتر از کلمJJاتی است که بJJدون این ویژگی ها باشند. عالوه بر وزن دهی واژه ها ،صJفحات وب با اسJتراتژی هJای دیگJری هم وزن می شJود؛مثال در روش تحلیل لینک( J)Link analysisماهیت هر صفحه با توجه به ارتباط آن با دیگر صفحات در نظر گرفته می شود.به این ترتیب وزن دهی یک صفحه با توجه Jبه تعداد صفحاتی که به آن صفحه اشJJاره می کنند یا بعکس،تعداد صفحاتی که آن صفحه به آنها اشاره می کند،صJJورت میپJJذیرد.گوگل از این روش برای باال بردن نتایج جستجو استفاده می کند. موقعیت و مسافت اصطالح Cachingدرباره موتورهای جسجو هم کاربرد دارد .به این ترتیب که پرس وجو هایی که بتازگی از سوی کاربران وارد شده ،در جایی نگهJداری یا به اصJطالح Cacheمی شJود و پJرس و جوی کاربر پس از ارسال به موتور جستجوبه کار می رود .در واقع وقتی موتور جستجو امالی صJJحیح کلمه را به شJJJJما اعالم می کند ( JJJJ)Did you meanاز این تکنیک بهJJJJره می بJJJJرد. استفاده از مدل تحویل توزیع شده ( J)distributed deliveryراه دیگری برای سرعت دادن پاسخ گویی به درخواست های کاربران است .در این مدل کپی هJJایی از شJJاخص ها ومطJJالب مربJJوط تولید می شود وبه مکان های جغرافیایی متعددی انتقال می یابد . مش'''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''کالت همان طور که گفتیم Crawlerها برای پیش پردازش و بازیابی صفحات به کJJار می رونJJد.بعضی Crawlerها به روش کورکورانه به بازیابی صJJفحات می پردازنJJد.روش کورکورانه به این معJJنی است که به شJJهرت و اهمیت یا به عبJJارتی قابل اعتمJJاد بJJودن مطJJالب وتولید کننJJدگان آنها تJJوجهی ندارند.البته این روش موجب شده سوء استفاده هایی در شاخص دهی و استفاده از موتورهای جسJJتجو صورت گیرد.یکی از این کارها به index_spammingمعروف است .بعضی سJایت ها بJJرای اینکه در بیشتر مواقع در نتایج جستجو قرار بگیرند و تعداد مراجعان بیشتری داشته باشJJند،هJJزاران بJJار لغات خاصی را در محتوای سایت خJJود قJJرار میدهند تا از نظر موتورهJJای جسJJتجو اولJJویت و امتیJJاز بیشتری را به خود اختصاص دهند. pagejackingیکی دیگر از این حیله هاست .این حیله از یکی از ویژگی های نرم افزارهای وب سرورها،سوء استفاده می کند .وب سرورها برای اینکه تعJJداد درخواسJJتهای یکیJJان بیشJJتری را در یک زمان پاسخ دهند (،مثال چند کاربر همزمان بخواهند به یک صفحه دسترسی پیدا کنند )مطالب هر صفحه را روی چند رایانه(با نشJJانی هJJای مختلف که از دید کJJاربر مخفی اسJJت)قJJرار می دهند و درخواست کاربران را به این رایانه ها هدایت می کنند .بعضی سایت ها از این ویژگی نرم افزار اسJJتفاده و محتJJوای صفحات یک سJJایت را کJJپی می کنند و در سJJایت خJJود قJJرار می دهند .این صJJفحات هم به وسJJیله موتورهای جستجو ،شاخص دهی می شود و در خواست بعضی کاربران به جای صJJفحه اصJJلی به این صفحات تقلبی ارجاع داده می شوند .به این ترتیب یک موتور جسJJتجوی خJJوب عالوه Jبر جسJJتجو و سرویس دهی خوب به کاربر باید توانJJایی تشJJخیص جمله هJJای اینترنJJتی را هم داشJJته باشد تا بتواند بهترین و صحیح ترین نتایج ممکن را در اختیار کاربران قرار دهد. شاخص گذاری: همه شاخص ها بر اساس یک مفهوم اصلی واحد عمل می کنند :کلیدها و آدرس فیلدها. انواع شاخص هایی که بررسی می کنیم شاخص ساده نامیده می شوند زیرا با استفاده از آرایه های ساده ای از ساختمان ها نشان داده می شوند ،که حاوی کلیدها و آدرس فیلدها هستند. چون شاخص ها به طور غیر مستقیم عمل می کنند ،بدون دستکاری محتویات فایل ،به فایل نظم و ترتیب می بخشند. کاتJJالوگ کJJارتی در واقع مجموعه ای از سه شJJاخص است که هر کJJدام از یک فیلد کلید متفاوت استفاده می کنند و همه انها از یک شماره کاتالوگ یکسان به عنJJوان فیلد آدرس بهJJره می گیرند. بنابراین کاربرد دیگر شاخص بنJJدی این است که می تJJوان از طریق مسJJیرهای گونJJاگونی به فایل دست یافت. در جستجوی دودویی الزم است امکان پرش به وسط فایل را داشته باشیم. راه دیگر برای مرتب سازی ،ایجاد شاخص برای فایل است. ساختار شیء شاخص بسیار ساده است. این ساختار لیستی است که هر عنصر آن دو فیلد دارد: یک فیلد کلید و یک فیلد برای آفست بایت. عملیاتی که برای یافتن داده های مورد نظر ،از طریق شاخص الزمند عبارتند از : )۱ایجاد فایل داده ها و شاخص خالی اولیه )۲باز کزدن فایل شاخص در حافظه ،قبل از به کارگیری آن )۳نوشتن فایل شاخص بر روی دیسک ،پس از به کارگیری آن )۴افزودن رکوردهایی به فایل و داده ها )۵حذف رکوردها از فایل داده ها )۶بهنگام کردن رکوردها در فایل داده ها )۷بهنگام کردن شاخص برای انعکاس تغییرات به عمل آمده در فایل داده ها. مزیت بزرگی که روش شیء گJJرا دارد آن است که بJJرای اجJJرای این عملیJJات به هرچه نیJJاز داشته باشیم می توانیم در متدهای کالس خود بیابیم. در ایجاد فایل ها باید دو فایل ایجاد شوند : )۱فایل داده ها برای نگهداری اشیای داده ای )۲فایل شاخص برای نگهداری شاخص کلید اولیه بهنگام سازی رکوردها به دو صورت انجام می شود : )۱بهنگام سازی ،تعداد فیلد و کلید را تغییر می دهد. )۲بهنگام سازی ،در فیلد و کلید تأثیر نمی گذارد. آشکارترین بهینه سازی ،استفاده از جستجوی دودویی در متد findاست که توسط : insert , searchو removeبه کار گرفته می شود. منبع دیگر بهینه سازی ،چنانچه رکورد شJJاخص تغیJJیر نکJJرده باشد ،نوشJJتن دربJJاره رکJJورد شاخص در فایل شاخص است. دستیابی به شاخص روی دیسک دارای معایب زیر است : )۱جستجوی دودویی شاخص به جای آنکه با سرعت حافظه صورت پذیرد ،نیJJاز به چنJJدین پیگرد دارد. )۲ترتیب مجدد شاخص که از حذف یا افزودن رکورد ناشی می شود نیاز به جابه جا کJJردن یا مرتب سازی رکوردها در حافظه ثانویه دارد که این کار میلیونها بار گJJران تر از اجJJرای این عملیات در حافظه است. هرگاه یک شاخص ساده در حافظه جا نشود باید از موارد زیر استفاده کرد : )۱در صورتی که سرعت دستیابی در اولویت قJJرار داشJJته باشد ،از سJJازماندهی درهمسJJازی استفاده شود. )۲در صورتی که به هر دو نوع دستیابی کلیدی و ترتیبی نیاز داشJته باشJJید ،از یک شJاخص چند سطحی با ساختار درختی نظیر درخت Bاستفاده شود. شاخص های ساده نسبت به استفاده از فایل داده ای که بر حسب کلید مرتب شده اند مزایای چشمگیری دارد : )۱شاخص ساده استفاده از جسJJتجوی دودویی را بJJرای دسJJتیابی کلیJJدی به یک رکJJورد در فایلی که طول رکوردهای آن متغیر است امکان پذیر می سازد. )۲اگر ورودی های شاخص بسیار کوچکتر از رکوردهای فایل داده ها باشد ،مرتب سJJازی و نگهداری شاخص نسبت به مرتب سازی و نگهداری فایل داده ها زمان کمتری می برد. )۳اگر در فایل داده ها رکوردهایی وجود دارند که در جای خود مستقر هستند ،با اسJJتفاده از شاخص می توان ترتیب کلیدها را بدون جابجایی رکوردهای داده ها عوض کرد. هنگامیکه شاخص ثانویه ای موجود باشد ،افزودن یک رکJورد به فایل به معنJای افJزودن یک ورودی شاخص ثانویه است .زمان الزم برا انجام این کار بسیار مشابه زمان الزم بJJرای افJJزودن ورود یی به شاخص اولیه است. یک اختالف مهم شاخص ثانویه و شاخص اولیه آن است که شاخص ثانویه می تواند حJJاوی کلیدهای دوگانه باشد. حذف یک رکورد معموالً به معنای حذف تمامی آدرس های آن رکورد در سیستم فایل است. بنابراین حذف رکوردی از فایل داده ها نه تنها به معنای حJJذف ورودی مربJJوط در شJJاخص اولیه بلکه Jبه معنای حذف همه ورودی های موجود در همه شاخص هJJای ثانویه ای است که به این ورودی از شاخص اولیه رجوع می کنند. مشکل این است که شاخص های ثانویه همانند شاخص اولیه به ترتیب کلیدها نگهJJداری می شوند .در نتیجه حذف یک ورودی شامل ترتیب مجدد ورودی های موجود ،به منظJJور بسJJتن فضای باقیمانده از حذف است. بهنگام سا زی فایل داده ها فقط هنگامی شاخص ثانویه را تحت تأثیر قJJرار می دهد که کلید اولیه یا ثانویه تغییر یابند .که سه وضعیت ممکن است پیش بیاید : )۱بهنگام سازی باعث تغییر کلید ثانویه می شود. )۲بهنگام سازی باعث تغییر کلید اولیه می شود. )۳بهنگام سازی محدود به فیلدهای دیگر ساختارهای شاخص ثانویه ای که تا کنون ارائه کردیم دو مشکل دارند : )۱هربارکه رکورد جدیدی به فایل افزوده می شود ،باید فایل شاخص را دوبJJاره مJJرتب کJJنیم ،حتی اگر رکورد جدید به یک کلید ثانویه موجود مربوط باشد. )۲اگر کلیدهای ثانویه وجود داشته باشد ،فیلد کلید ثانویه بJJرای هر ورودی تکJJرار می شJJود. این کار باعث هدر رفتن فضا می شود. فایل با ساختار ترتیبی شاخص دار :Indexed Sequential شاخص ها بر مبنای کلیدها و آدرس فیلدها ساخته می شوند .شاخص باعث باال رفتن سرعت دستیابی می گردد و تکنیک شاخص بندی در اکثر نرم افزارهای امJJروزی اسJJتفاده می شJJود و جزو شیوه های دستیابی تصادفی به حساب می آید و شاخص هایی که در این جا بررسی می شود ،از نوع شاخص ساده هستند. مثال :فایل ترتیبی دانشجویان در زیر برحسب شماره دانشJJجویی مJJرتب شJJده می باشد که در کنار این فایل ترتیبی یک فایل ایندکس (شاخص) برحسب کلید اصلی (شJJماره دانشJJجویی) و یک فایل ایندکس برحسب معدل ترسیم شده است. فایل ترتیبی شJJJJماره معدل رکورد 17 1 19 2 16 3 15 4 ... ... نام پدر نام سعید مجید شاهین سهیل ... علی حسن امیر جواد ... فایل ایندکس معدل شJJJJJJماره شماره رکورد معدل دانشجویی 15 4 3925 16 3 4713 17 2 5417 19 1 7354 ... ... ... فایل ایندکس اولیه شماره شJJJJJماره رکورد دانشجویی 3925 1 4713 2 5417 3 7354 4 ... ... حال اگر مثال بخواهیم مشخصات دانشجویی با معJJدل 19را ببیJJنیم کJJافی است ابتJJدا در فایل کوچک ایندکس معدل ،با روش باینری ستون سمت چJJپی را به دنبJJال عJJدد 19جست و جو کنیم بدین ترتیب متوجه خواهیم شد که مشخصات این دانشجو در سطر 2فایل ترتیبی اصJJلی قرار دارد لذا به سرعت بر سر رکورد 2فایل اصلی رفته و اطالعات مورد نیJاز را می خJوانیم. بدون این فایل کمکی شاخص مجبور بودیم با جست و جوی خطی در فایل اصلی آن را پیدا کنیم که کاری زمان گیر بود. در مثال ساده ی فوق تعداد سطرهای فایل شJاخص برابر سJJطرهای فایل اصJJلی می باشد ولی تعداد ستون ها آن تنها 2فیلد اسJJت .بJJدین دلیل فایل شJJاخص به مJJراتب کوچک تر از فایل اصJJلی بJJوده و جست و جو در آن سJJریع تر صJJورت می گJJیرد .حJJتی در صJJورتی که فایل ایندکس خیلی کوچک باشد می توان آن را در حافظه ی اصلی نگهداری کرد و بJJدین تJJرتیب سرعت جست و جو افزایش بسیار زیادی می یابد. اگر در فایل ایندکس صفت خاصه ی شاخص ،کلید اصلی باشد به آن شاخص اولیه یا اصJJلی می گویند ( .)Primary Indexو در صورتی که فایل ایندکس بر اسJاس فیلJدی غJیر از کلید اصلی ساخته شود به آن شاخص ثانویه گویند (.)Secondary Index پس فایل شاخص مجموعه ای از تعدادی مدخل ( )Entryمی باشد که به فرم کلی زیر: ‏P ‏V آدرس مقدار فیلد آدرس به طول Pبایت حاوی یک نشانه گر به یک یا گJJروهی از رکوردهاسJJت .در فایل داده ای اصلی فیلد مقدار به طول Vبایت شامل صفت خاصه ای یا ترکیJبی از صJفات خاصه است که ایندکس بر اساس آن ساخته شده است بنابراین طJJول هر رکJJورد فایل شJJاخص برابر V+Pبایت است .به هر نقطه از فایل داده ای اصلی که از مJJدخل شJJاخص به آن نشJJانه گر وجود دارد را لنگرگاه یا Anchor Pointگویند. اگر هر مJJدخل فایل شJJاخص به یک رکJJورد اشJJاره کنJJد ،شJJاخص را مJJتراکم (Dense )Indexگویند و اگر به گJJروهی از رکوردها مثال یک بالک اشJJاره کنJJد ،شJJاخص را غJJیر متراکم ( )Non Dense Indexگویند. در شاخص غیر متراکم فایل اصلی داده ای باید بر اسJJاس فیلد متنJJاظر شJJاخص مJJرتب شJJده باشد تا رکوردها را بتوان دسته بندی کرد ولی در شاخص مJJتراکم لJJزومی نیست که فایل داده ای از قبل مرتب باشد .فایل داده‌ای و فایل شاخص می توانند بالک بندی شده باشند یا نشJJده باشند .در حالت بالک بنJJدی شJJده اغلب انJJدازه ی بالک فایل شJJاخص و بالک فایل داده ای یکسان است .در شاخص نا متراکم مقدار موجود در فیلد داده هر مدخل میتواند کوچک تJJرین یا بزرگ ترین مقدار در هر گروه باشد. تعریف ظرفیت نشانه روی شاخص (:)Index fdnout فایل شاخص نJJیز مثل فایل داده ای بالک بنJJدی شJJده اسJJت .تعJJداد مJJدخل هJJای یک بالک شاخص را ظرفیت نشانه روی آن می گوینJJد .در واقع همJJان فJJاکتور بالک بنJJدی است بJJرای بالک شاخص و با پارامتر yآن را نمایش می دهند. تعداد سطوح شاخص از رابطه ی زیر به دست می آید: هرچه تعداد سطوح بیشتر باشد دفعات دستیابی برای واکشی رکورد بیشتر خواهد بود. اینقدر ادامه می دهیم تا حداقل به یک بالک برسیم و این کJJار را مJJوقعی انجJJام می دهیم که فایل دارد ساخته می شود و شاخص هایش را می سازیم. ساختار فایل چند شاخصی :Multi Indexed اهمیت این ساختار به خJJاطر این است که 70%الی 80%سJJاختار بانک هJJای اطالعJJاتی با این ساختار است. در فایل های ترتیبی یک فایل اصلی داشتیم که مرتب بود و یک فایل جانبی داشتیم برای درج کردن و مشکل این بود که هیچ ارتبJJاط منطقی بین آن ها نبJJود و بJJرای رفع این اشJJکال فایل ترتیبی شاخص دار داشتیم و از یک سیستم شاخص اسJJتفاده می کJJردیم که کمک می کJJرد به دستیابی سریع. سه ایراد عمده داشت1 :ـ ایستا بودن شاخصها بود2 .ـ عدم تقارن بود3 .ـ مسئله سر ریزی بود. و برای رفع این معایب :در فایل هJJای چند شاخصی روش کJJار به این صJJورت است که یک فایل داریم به اسم فایل غیر اصلی و غیر ترتیبی است و حتی می تواند یک فایل پایل باشد. ترتیب مثال بر اساس نام خانوادگی باشد ترتیب مثال بر اساس اسم باشد ترتیب مثال روی شماره ی دانشجویی باشد. سطح اول شاخص فایل اصلی فایل اصلی ،غیر ترتیبی یا پایل میتواند باشد شاخص متراکم ،شاخص به همه ی رکوردها داریم. شاخص دینامیک است ،شاخص همراه تغییر رکوردها تغییر می کند. این ساختار چنان است که پدیده ی عدم تقارن در آن وجود ندارد .زیJJرا روی تعJJدادی ،حJJتی تمام صفات خاصه می توان شاخص داشت و مسئله ی رکوردهای سر ریزی به صورتی که در ساختار سوم مطرح بود در این جا وجود ندارد .یعنی درج رکوردهای جدید آسان تر و پویJJاتر است و باالخره خود ساختار شاخص وضعیتی پویا دارد و هم روند با تغیJJیرات فایل داده ای، قابل تنظیم و به هنگام در آوردن Jاست .اگر aتعداد صفات خاصه در فایل باشJJد ،حJJداکثر a فایل شاخص می توان داشت. از آن جا که در یک رکورد به طور متوسط 'a ،تا صفت خاصه وجود دارد ،لذا به یک رکورد 'aساختار شاخص نJاظر اسJت .پس این سJاختار در اسJاس از نظر فایل داده ای همJان پایل است اما مجهز به یک سری استراتژی دستیابی قوی ،پویا و سریع. کاربر می تواند هر تعداد از صفات خاصه ای که در فایل دارد ،درخواست ایجاد شJJاخص کند و برای واکشی سریع تک رکوردها ،الزامی نJJدارد که حتما از کلید اصJJلی به عنJJوان آرگومJJان جست و جو استفاده نماید. ضابطه ی انتخJJاب صJJفات خاصه ی شJJاخص :لJJزومی نJJدارد که روی تمJJام صJJفات خاصJJه، شاخص ایجاد نمود ،می توان بین صفات خاصه قائل به اولJJویت شد و آن صJJفاتی را برگزید که در بیشترین درخواست ها به عنوان آرگومان جست و جو به کار برده می شوند. اجزاء ساختار ترتیبی شاخص دار عبارتند از :ناحیه اصلی ،ناحیه سر ریJJزی ،مجموعه شJJاخص ها. در فایل چند شاخصی داریم :هرچه تعداد صفات خاصه شJJاخص بیشJJتر باشJJد ،عمل بازیJJابی کارآتر است و هرچه تعداد صJJفات خاصه شJJاخص بیشJJتر باشJJد ،عJJدم تقJJارن کمJJتر است و ساختار فایل داده ای اصلی می تواند پایل باشد و ایجاد شاخص روی ترکیبات مختلف صفات خاصه امکان پذیر است. فایل وارون J،فایل است که روی تمام فیلدهای آن شاخص داشته باشیم. در فایل چند شاخصی می توان بین صفات خاصه اولویت قائل شد و برای ایجاد شJJاخص آن فیلدهایی را انتخاب کرد که در بیشتری پرس و جو ها به کار برده می شوند. تعداد مدخل های شJJاخص در سJJطح اول بJJرای شJJاخص هJJای مختلف ممکن است یکسJJان نباشد. فایل های شاخص تأمین کننده ی استراتژی دستیابی برای فایل داده ای هستند. در فایل داده ای مقدار فیلدی می تواند Nullیا ناشناخته باشد. شاخص گذاری جزء نوع دستیابی تصادفی است. تفاوت بین شاخص اولیه و ثانویه آن است که در شاخص اولیه کلید تکراری وجود ندارد ولی در شاخص ثانویه ممکن است کلید تکراری داشته باشیم. اگر در فایلی که شJJاخص اولیه و ثانویه دارد بر اثر اصJJالح ،کلید اولیه تغیJJیر کنJJد ،چه تنظیم دیگری را باید انجام دهیم؟ ممکن است الزم باشد تا شاخص اولیه و تمام شاخص های ثانویه تغییر کنند. بر روی فایل های ترتیبی و پایل و فایل پایل مرتب شده می توان شاخص ایجاد کرد. ساختار فایل ترتیبی شاخص دار شاخص اصلی :وقتی که صفت خاصه ی شاخص کلید اصلی باشد .وقتی که صفت خاصه ی شاخص کلید ثانویه باشد. کلید ثانویه کلیدی است غیر از کلید اصلی که خاصیت کلید بودن را دارد. در شاخص متراکم لزومی بر مرتب بودن فایل داده ای نمی باشد اما در شاخص غیر متراکم باید فایل داده ای مرتب باشد برای این که بتوان رکوردها را گروه بندی کرد. شاخص نرم افزاری و سخت افزاری داریم. شاخص نرم افزاری :گروه در شاخص غیر متراکم بالک یا باکت می باشد. شاخص سخت افزاری :گروه در شاخص غیر متراکم شیار استوانه یا در حالتی که فایل روی چند دیسک ذخیره شده باشد می تواند خود دیسک باشد. لنگرگاه چیست؟ نقطه ای از فایل داده ای است که مدخل شاخص به آن اشاره می کند و اگر لنگرگاه رکوردی باشد شاخص را متراکم می گویند. اجزای تشکیل دهنده ی ترتیبی ساختار شاخص دار عبارتند از1 :ـ فایل ترتیبی یا ناحیه ی اصلی 2ـ ناحیه ی سر ریزی 3ـ نشانه رو ها شاخص در ساختار ترتیبی شاخص دار در چه حالتی بازسازی می شود؟ در سازمان دهی مجدد. زمان خواندن کل فایل در ساختار ترتیبی شاخص دار به صورت پی در پی از چه رابطه ای به دست می آید؟ معایب ساختار ترتیبی شاخص دار عبارتند از :عدم تقارن ـ مسئله ی درج سر ریزی ها ـ ایستا بودن شاخص. واکشی تک رکوردها با استفاده از شاخص سریع تر انجام می گیرد. در شاخص متراکم واکشی تک رکوردها سریع تر از شاخص غیر متراکم انجام می گیرد. برای انجام عمل درج یک رکورد جدید در روش Push Troughچه اعمالی انجام می گیرد؟ خواندن بالکی که باید رکورد در آن درج شود ـ بازنویسی بالک ـ واکشی رکورد منطقا قبلی و تنظیم اشاره گر ـ بازنویسی همین رکورد. روشهای بهینه سازی برای موتور جستجو )1فهرست ( )indexشدن موتورهای جستجوی مطرح همچون گوگل و یاهو جهت یافتن نتایج جستجوی الگوریتمی ،از خزنده ها ( )crawlersاسJJتفاده می کننJJد .صJJفحاتی که دارای لینک سJJایر صJJفحات فهرست شJJده موتورهای جستجو هستند ،نیاز به فهرست شدن ندارند چرا که بطور خودکار یافت میشوند .برخی از موتورهای جستجو همچون یاهو دارای سرویس ارائه غیررایگJJان هسJJتند که گJJردش در سJJایت را با تعیین هزینه مJJورد نظر به ازای هر کلیک تضJJمین می نمایJJد .چJJنین برنامه هJJایی معمJJوالً وجJJود در دیتابیس را تضمین کرده ولی رتبه بندی خاص در نتJJایج جسJJتجو را تضJJمین نمی کننJJد .دو فهرست اصلی ،یعنی فهرست "یاهو" و یا پروژه "فهرست باز" هر دو نیازمند ارائه دستی و بازنگری ویرایشی توسط یک شJJJخص حقیقی هسJJتند .گوگل ابJJزار Webmasterگوگل را ارائه می دهد که با استفاده از آن می توان feedنقشه سایت XMLرا بصورت رایگJJان ایجJJاد و ارائه نمJJود تا یJJافتن تمامی صفحات بویژه صفحاتی که با جستجوی خودکار قابل دستیابی نیستند تضمین شوند . (گردشگران) Crawlerهای موتورهای جسJJتجو ممکن است هنگJJام گشت زدن به فاکتورهJJای متعددی توجه داشته باشند .تمامی صفحات توسط موتورهای جسJJتجو فهرست نمی شJJوند .فاصJJله صفحات از فهرست اصلی یک سایت ممکن است عاملی در یافته شدن یا نشدن صفحات باشد. )2جلوگیری از گشت زنی ( )crawlingو استاندارد خروج روبات ها به منظور جلوگیری از یافتن محتوای ناخواسته در شاخص های جسJJتجو webmaster ،ها می توانند به spiderها بگویند فایلها و یا فهرست هJJای خJJاص را از طریق فایل robots.txtدر فهرست اصلی دومین ( )domainجستجو نکنند به عالوه مسلماً یک صفحه می تواند با استفاده از متاتگ ویژه روبات ها از دیتابیس یک موتور جستجو خارج شود. زمانیکه موتور جستجویی سایتی را مشاهده می کنJJد ،فایل robots.txtواقع در فهرست اصJJلی، اولین فایلی است که جستجو می شود .این فایل سپس بررسی می شJJود و به روبJJات دسJJتور می دهد چه فایلهایی را نباید جستجو ( )crawlerکنJJد .به دلیل اینکه crawlerیک موتJJور جسJJتجو ممکن است کپی کش شده این فایل را نگه دارد ،ممکن است گاهJJاً صJJفحاتی که webmaster نمی خواهد ،بازبینی شود .صفحاتی که عموماً از گشت زنی نفی می شJJوند ،شJJامل صJJفحات ورود و خروج اعضا یا سبدهای خرید و صفحات مخصوص کاربران که از جستجوهای درون سJJایتی بدست می آیند اسJJJت .در مJJJاه مJJJارس 2007گوگل به webmasterها اخطJJJار داد که آنها باید از indexingنتایج جستجوی داخلی جلوگیری کنند ،چرا که آن صفحات به عنوان اسJJپم جسJJتجو تلقی می گردند. )3افزایش اهمیت روشهای متعدد دیگری نیز جهت نمایش یک صفحه در نتایج جسJتجو می تواند مJJورد اسJJتفاده قJرار گیرند .این روشها شامل موارد زیر هستند: تبادل لینک بین صفحات یک وب سایت :اختصاص لینک های بیشتر به صفحات اصلی وب سایت به منظور افزایش رتبه صJJفحه مJJورد اسJJتفاده قJJرار گرفته توسط موتورهJJای جسJJتجو و یا لینک از وب سایتهای دیگر شامل link farmingو .comment spam نوشتن محتوایی که شامل عبارات و کلمات کلیدی تازه جسJJتجو شJJده باشد به طوریکه با بسJJیاری از سئواالت جستجو مربوط و مرتبط باشد .افزودن کلمات کلیدی به متاتگ هJJای صJفحات وب شJامل ( keyword stuffingقرار دادن کلمات کلیدی) عادی سازی URLصفحات وب که از طریق URLهای چندگانه قابل دستیابی باشJند با اسJتفاده از متاتگ ""Canonical

21,000 تومان