051 3891 11 84 contact@raykahortash.com

موتورهای جست و جو

موتورهای جست و جو ۵٫۰۰/۵ (۱۰۰٫۰۰%) ۴ votes

 Taming-The-Search-Engine-Beast

چکیده

میلیاردها صفحه وب در دنیا وجود دارد که هر روز بر تعداد آن ها افزوده می شود.بدون وجود موتورهای جست  وجو ، استفاده از منابع موجود در اینترنت بسیار سخت خواهد بود.در واقع موتورهای جست وجو ، استفاده از شبکه جهانی وب را برای کابران بسیار راحت کرده اند.

جهت توسعه دادن این نرم افزار ها و نیز استفاده ی کاراتر از آن ها در هنگام جست وجو و یا ثبت وبسایت جدید ، بهتر است که در ابتدا بدانیم ساختار و عملکرد موتور های جست وجویی که درحال حاضر وجود دارند به چه صورت است. اگرچه الگوریتم دقیق و چگونگی کار موتور جست وجوی گوگل یا سایر موتورهای جستجو ،کامال معلوم نیست ، اماکلیات کار بسیاری از موتورهای جستجو ، مشترک ومشابه می باشد.همچنین نیاز است با مباحثی از قبیل انواع سرویس های جست وجو ، فاکتورهای مهم در الگوریتم های رتبه بندی نتایج و بحث بهینه سازی آشنا شویم. چگونگی الگوریتم های رتبه بندی نتایج ، در کیفیت کارکرد موتورهای جست وجو تاثیر بسزایی دارند و عمده ترین تفاوت در کیفیت کارکرد موتورهای جست وجو به وجود تفاوت در سیستم رتبه بندی آن ها مربوط می شود. البته این الگوریتم ها به دلیل مسائل رقابتی و همچنین جلوگیری از سوء استفاده وب داران معموال فاش نمی شوند.

مقدمه

موتور جستجو یا پیمایشگر به طور عمومی به برنامه ای گفته می شود که کلمات کلیدی را در یک سند یا بانک اطالعاتی جستجو می کند. در اینترنت به برنامه ای گفته می شود که کلمات کلیدی موجود در فایل ها و سندهای وب جهانی ، گروه های خبری، منوهای گوفر و آرشیوهای FTP را جستجو می کند و به کاربران در جستجوی اطالعات مورد نظر در میان انبوه اطالعات موجود در شبکه کمک می کند.
در موتور جستجو کاربر کلید واژه ی را وارد کرده و برنامه ی جستجو در بانک اطالعاتی خود به جستجو می پردازد. و سایت های مرتبط با موضوع شما را نمایش خواهند داد. البته امروزه بیشتر موتورهای جستجو دارای اطالعات طبقه بندی شده مانند دایرکتوری ها می باشند و همچنین اکثر دایرکتوری ها قابلیت جستجو مانند موتورهای جستجو را دارند.

تاریخچه:

در سال ۱۹۹۰ اولین ابزار کاوش اینترنت ، تحت عنوان آرکی  توسعه یافت.آرکی تو سط شخصی  به نام آالن امتیچ در دنشگاه مک کیل کانادا ایجاد شد.مککیل کانادا،توسعه یافت. آرکی از طریق نمایهسازی  فایلهای موجود در سایتهای FTP با استفاده از پروتکل انتقال فایل ، امکان جستجو و بازیابی فایلها را در  محیط اینترنت برای کاربران فراهم میساخت.

آرکی از طریق نمایهسازی فایلهای موجود در سایتهای FTP با استفاده از پروتکل انتقال فایل، امکان جستجو و بازیابی فایلها را در محیط اینترنت برای کاربران فراهم میساخت. این ابزار تنها فایلهای اینترنتی را بازیابی میکرد و قابلیت بازیابی متن و اسناد را نداشت.

در سال ۳۹۹۱ برای بازیابی اسناد و متون در سرورهای گوفر، در دانشگاه نوادا، نظامی مشابه آرکی تدوین شد که “ورونیکا” نامداشت . ورونیکا نیز دارای کمبودهایی مانند عدم بازیابی تصاویروپیوندهای فرامتنی بود. یاهو در سال ۳۹۹۱ توسطدودانشجوی دکترای مهندسی برق بهنامهای دیوید فیلو و جری یانگدردانشگاه استانفورد ابداع شد.

در حالی که آگاهی عموم از وجود وب روبه افزایش بود، نیاز به ابزارهای جستجوی این شبکه و افزایش کارایی  آنها در کانون توجه قرار گرفت. در این زمان ها ایده جستجوی عنکبوتی که در آن نرمافزارهای خودکار پیوندهای موجود در شبکه را دنبال میکردند، معرفی گردید. عنکبوت ها از یک وبسایت به وبسایت دیگر میرفتند و آنها را در نمایه خود ذخیره میکردند.

در سال ۱۹۹۴و ۱۹۹۵ سه موتور جستجوی آلتاویستا، الیکوز )Lycos( و وبکرالر )WebCrawler( به وجود آمدند. در همین سالها موتورهای راهنما نیز پا به عرصه جستجو در شبکه گذاشتند که روش نمایه سازی و بازیابی متفاوت از موتورهای جستجو در شبکه گذاشتند. این رقابتها در اواخر دهه نود میالدی و تالشهای صورت گرفته منجر به پیدایش و عرضه موتورهای جستجوی دیگری از آن جمله معرفی موتور جستجوی گوگل )Google( گردید.
در واقع گوگل در سال ۱۹۹۷ توسط دو شخص به نام های “سرگی برین” و “الرنس پیج” در دانشگاه استانفورد به وجود آمد.

انواع سرویس های جست وجو

در دهه نود که موتورهای جست و جو پا به عرصه وجود گذاشتند ، سرویس جست جو به دو دسته کلی تقسیم  می شد: موتورهای راهنما و موتورهای پیمایشی 
ولی با گذشت زمان و به وجود آمدن نسل های دیگری از موتور های جست وجو این تقسیم بندی به شکل دیگری در آمد. در حال حاضر که در جهان بیش از سیصد موتور جستجو وجود دارد ، از موتورهای جستجوی بین المللی بسیار بزرگ تا موتورهای جستجوی کوچکتری که فقط با سایتهای کشورهای خاصی سروکار دارند، این موتورها به چهار دسته تقسیم می شوند.

۱-موتورهای پیمایشی

که نام دیگر آن ها موتورهای متن کامل اسپایدری است ، این موتورها برای فهرست میلیونها و گاهی بیلیونها صفحه ی وب از نرم افزاری به نام عنکبوت ها استفاده میکنند. جستجو در این موتورها از طریق شاخصی قابل جستجوانجام می پذیرد.

چند نمونه از موتورهای پیمایشی که ترافیک اصلی جست وجو بر روی آن ها قرار دارد:

  • Google (www.Google.com)
  • All the Web (www.alltheweb.com)
  • Altavista (www.altavista.com)
  • Yahoo (www.Yahoo.Com)
  • MSN (www.msn.Com)
  • Ask Jeeves (www.Askjeeves.Com)

۲- موتورهای راهنما  :

این موتورها تنها سرفصلها و عناوین موضوعات را جستجو میکند )مانند یاهو که یاهو مادر هه ی دایرکتوری هاست(. این جستجو، شبیه جستجو در فهرست یک کتاب است. موتورهای دایرکتوری یک تفاوت اساسی با موتورهای جستجوی پیمایشی دارند و آن بهکارگیری عنصر انسانی بجای نرم افزارهای عنکبوت ، در جمعآوری، ذخیره و نگهداری اطالعات میباشد. راهنماها توسط افراد متخص خلق و نگهداری میشوند و در حالیکه موتورهای جستجو نمایهسازی را به صورت خودکار و توسط نرمافزارهای روبوت یا همان عنکبوت انجام میدهند.

مزیتهای اصلی موتورهای راهنما

  1.  موتورهای راهنما شامل منابع کمتری در مقایسه با موتورهای جستجو میباشند.
  2. بسیاری از موتورهای راهنما، منابع انتخابی را رتبهبندی، تفسیر و طبقهبندی میکنند.
  3. احتمال بازیابی نتایج مربوط افزایش مییابد.

نقاط ضعف موتورهای راهنما

  1.  در سازماندهی اختیاری منابع که روش اصلی موتورهای راهنما است، یک موتور راهنما ممکن است منابع را به گونهای طبقهبندی کند که متفاوت از موتور راهنمای دیگر باشد. به این ترتیب نمیتوان از یک الگوی واحد در همه موتورهای راهنما برای ارزیابی استفاده کرد.
  2. انتخاب، رتبه بندی و طبقه بندی صفحات وقتگیر و هزینه زیادی را تحمیل میکند. به این ترتیب نهتنها نمیتوان منابع جدید را به سرعت اضافه نمود، در نتیجه منابع بازیابی شده از موتورهای جستجو روزآمد  نیستند.
  3. افراد با ذهینت خود در رابطه با مفید بودن یا نبودن منابع تصمیمگیری میکنند، به این ترتیب آنچه که از طرف یک نفر ممکن است مفید باشد، ممکن است از طرف شخ دیگر مفید نباشد و در فهرست قرار نگیرد.

تعداد موتورهای راهنما در مقایسه با موتورهای جستجوی پیمایشی زیاد نمیباشد ولی مهم ترین آنها عبارتاند از:

  • Galaxy (http://galaxy.Com)
  • HotBot Directory (http://hotbot. Lycos.Com)
  • LookSmart (http://www.looksmart.Com)
  • Open Directory Project (http://dmoz.Org)
  • Yahoo! (http://www.yahoo.Com)
  • Google Directory (www. google.Com)

یاهو و گوگل هم دارای قدرت راهنمای موضوعی هستند و هم جستجوی عنکبوتی را میتوانند انجام دهند؛ به همین جهت نام آنها در هر دو گروه ذکر میشود.

۳- موتورهای جست وجوی ترکیبی با نتایج مختلط: 

موتور جست وجوی ترکیبی به موتورهایی اطالق میشود که هر دو حالت را در کنار هم نمایش میدهند. غالباً، یک موتور جستجوی ترکیبی در صورت نمایش نتیجه جستجو از هر یک از دستههای فوق، نتایج حاصل از دسته دیگر را هم مورد توجه قرار میدهد. مثالً موتور جستجوی ام.اس.ان (MSN) بیشتر نتایج حاصل از فهرستهای تکمیل دستی را نشان میدهد اما در کنار آن نیم نگاهی هم به نتایج حاصل از جستجوی پیمایشی دارد.

۴-ابرجستجوگرها:

این گونه جدید از موتورهای جستجوگر که قدمت چندانی نیز ندارند عمل جست وجو را با استفاده از ترکیب کردن نتایج حاصل از چندین موتورجستجوگر، انجام می دهند؛ بدین معنی که این موتور ها ، عبارت مورد جست و جو را در چندین موتورجستجوگر جستجو می کنند و نتایج آنها را با هم ترکیب کرده و یک نتیجه کلی ارایه میدهند. بنا براین این موتور ها ، دارای پایگاه داده و سیستم شاخ گذاری نمی باشند، و از پایگاه داده ی چندین موتور پایه استفاده می کنند. بهعنوان مثال موتورجستجوگر داگ پایل از نتایج حاصل از موتورهای Google – Yahoo – MSN و ASK استفاده می کند. بدیهی است که سرعت عملکرد این موتور ها کمی کند بوده و چند ثانیه طول می کشد تا نتایج را ارایه بدهند.

لیست کاملی از ابرموتورهای جستجو را میتوان از طریق راهنماها مانند یاهو به دست آورد اما برخی از مهمترین  آنها عبارتاند از:

  • Dogple (www.Dogple.Com)
  • Highway 61 (www.Higwa61.Com)
  • Kartoo (www.Kartoo.Com)
  • Mamma (www.Mamma.Com)
  • MetaCrawler (www.Metacrawler.Com)
  • ProFusion (www.Profusion.Com)
  • Vivisimo (www.Vivisimo.Com)

ساختار موتورهای جستجو

به طور کلی همه موتورهای کاوش ، فرایند جستجو و بازیابی اطالعات را از طریق برقراری ارتباط میان سه جزء  اصلی تشکیلدهنده خود یعنی رباتها )عنکبوت ها( ، پایگاه اطالعاتی و نرمافزار بازیابی اطالعات ]که کاربر از طریق رابط کاربری به آن مرتبط میشود[ انجام میدهند.

موتورهای جستجو جهت کاهش زمان جستجو، بخش های بسیاری ازکار خود را از قبل انجام می دهند و پایگاه  داده خود را آماده می کنند، تا در لحظه ای که کاربر عبارتی را جست وجو می کند ، عمل جست وجو را که شامل مقایسه و تطبیق دادن عبارت جست و جو شده می باشد، فقط از میان داده های موجود در پایگاه داده خود  انجام دهند نه از میان میلیاردها وب سایت. بنابراین این موتورها ، محتویات وب سایت ها را پیش پردازش میکنند.
پیش پردازش به کمک نرم افزارهایی به نام خزنده و عنکبوت انجام می گیرد.
خزنده آدرس لینک ها و وب سایت ها را در اختیار نرم افزار عنکبوت )روبات( قرار می دهد.عنکبوت درخواستی را از طریق پروتکل HTTP به سرور سایت ها ارسال می کند و محتویات وب سایت را در قالب کدهایHTML دریافت می کند و آن ها را پیمایش می کند تا محتویات صفحات وب را جمع آوری کند.

عنکبوت ها در هنگام پیمایش محتویات وب سایت اگر با لینکی مواجه شوند، آن را دنبال می کنند. خزنده تعیین می کندکه عنکبوت، لینک ها را تا چه عمقی دنبال کند که البته ظرفیت دیتا سنتر نیز لحاظ می شود.ممکن است خزنده از قبل برنامه ریزی شده باشد که آدرس های خاصی را طبق برنامه ، در اختیار عنکبوت قرار دهد.
تمامی اطالعات جمع آوری شده توسط عنکبوت، در اختیار سیستم شاخ گذاری قرار می گیرد. سیستم شاخ گذارییک نرم افزار ویژه ای است که محتویات بازیافتی را تجزیه و تحلیل می کند تا کلمات را استخراج نماید و مشخ کند که این اطالعات از کدام صفحه ارسال شده اند. و بعد این کلمات را همراه با لینکی به صفحه مربوطه ، در فایل شاخ )در پایگاه داده( ذخیره می کند. پرس و جو های کاربران با همین فایل شاخ مقایسه و مطابقت داده می شود ونه با صفحات وب .

کار مهم دیگری که ایندکسر انجام می دهد این است که عنوان ها ، برچسب های ابر متن ، تعداد تکرار کلمات کلیدی و مکانی را که این کلمات قرار گرفته اند مشخ می کند. در واقع ایندکسر، صفحه را به پارامترهای آن
خرد می کند و از همه این ها یک مقیاس عددی در می آورد تا بعدا سیستم رتبه بندی بتواند پارامترهای صفحات مختلف را با همدیگر مقایسه کند. در واقع خروجی کار این قسمت از ایندکسر بعدا به سیستم رتبه بندی تحویل
خواهد شد.
قبل از ذخیره سازی کلمات در پایگاه داده، عملیات فشرده سازی انجام می گیرد، تا حجم داده ها کاهش یابد وفضای کمتری اشغال کند.به عنوان مثال موتور جستجوی گوگل برای ذخیره سازی اطلاعات درجه بندی شده
فضایی را به اندازه ۲ بایت یعنی ۱۶ بیت اختصاص می دهد که در این فضا اطلاعات نگهداری می کند.

search1

شاخص گذاری

شاخ گذاری یک هدف را دنبال می کند : دستیابی به اطالعات در سریع ترین حالت ممکن. برای ساخت یک فهرست ، یکی از روش های موثر ، روش ساخت Hash Table می باشد. در این روش فرمولی  به کاربرده می شود که به کمک آن برای هر کلمه ای یک ارزش عددی در نظر گرفته می شود. فرمول مذکور به منظور توزیع متعادل اعداد پیش فرض به کار برده می شود. توزیع عددی کلمات کامال با توزیع کلمات بر حسب حروف الفبا متفاوت است و این تنها کلید موفقیت جدول Hash می باشد.
در زبان انگلیسی ، حروف زیادی در ابتدای لغات استفاده می شوند در حالی که برخی دیگر کمتر. مثال در فرهنگ لغات انگلیسی قسمت مربوط به حرف M قطورتر از حرف Xمی باشد. این نا برابری به این معنا می باشد که برای افتن لغات متداول نسبت به یافتن لغاتی که به مراتب کاربرد کمتری دارند ، مدت زمان بیشتری باید صرف کرد.
عملیات Hashing )ترتیب بندی لغات براساس اعداد( باعث ایجاد تعادل می گردد و سرعت جستجوی بخش  های ورودی را کاهش می دهد. همچنین فهرست را از سیستم ورودی جدا می سازد .جدول Hash شامل اعداد  مجزایی می باشد که هر یک از آنها به اطالعات فعلی داللت می کند و به موثرترین روشی ممکن ذخیره می شوند.
بعد از آنکه تمام مراحل قبل انجام شد، موتور جستجوگر آماده پاسخ گویی به سوالات کاربران است. کاربران  چند کلمه را در جعبه جستجوی (Search Box) آن وارد می کنند و سپس با فشردن Enter منتظر پاسخ می مانند. برای پاسخگویی به درخواست کاربر، ابتدا تمام صفحات موجود در پایگاه داده که به موضوع جستجو شده،  مرتبط هستند، مشخ می شوند. پس از آن سیستم رتبه بندی وارد عمل شده، آنها را از بیشترین ارتباط تا کمترین ارتباط مرتب می کند و به عنوان نتایج جستجو به کاربر نمایش می دهد .

الگوریتم های رتبه بندی

الگوریتم رتبه بندی مجموعه ای از دستورالعمل ها است که موتور جستجوگر با اعمال آنها بر پارامترهای صفحات  موجود در پایگاه داده اش، تصمیم می گیرد که صفحات مرتبط را چگونه در نتایج جستجو مرتب کند. در حال  حاضر قدرتمندترین سیستم رتبه بندی را Google و Ask در اختیار دارند .
حتی اگر موتور جستجوگر بهترین و کامل ترین پایگاه داده را داشته باشد اما نتواند پاسخ های مرتبطی را ارایه  کند، یک موتور جستجوگر ضعیف خواهد بود. در حقیقت سیستم رتبه بندی قلب تپنده یک موتور جستجوگر
است. الگوریتم های رتبه بندی همان طور که ذکر شد فاش نمی شوند ولی معموال از قوانین زیر پیروی می کنند.

قانون مکان/تکرار

قانون مکان/تکرار )بسامد( محل قرار گیری و تعداد دفعات ظاهر شدن یک واژه در یک متن را موردبررسی  قرار می دهد. مثال کلمه ای که در آدرس URL صفحه،در عنوان متن یا در پارگراف اول یا به عنوان ابرچسب  قرار بگیرد رتبه بیشتری نسبت به واژه ای خواهد داشت که در البالی متن یا در قسمتهای پایانی متن آورده شده است.

روش tfidf در رتبه بندی

روشی مشابه متد بسامد نیز وجود دارد که tfidf(term frequency inverse document (trequncy نامیده می شود. در این روش چگونگی توزیع کلمات و تکرار آنها بررسی می شود و برای کلمات، وزن عددی تولیدمی شود . این وزن به معنی درجه اهمیت و اعتبار آنها در اسناد مختلف است.به این  کار وزن دهی واژه گفته می شود.
وزن یک واژه به ۲عامل بستگی دارد: یکی دفعات تکرار واژه که هر چه بیشتر با شد اهمیت واژه بیشتر است و دیگری تواتر اسناد که به معنی تعداد اسنادی است که شامل آن واژه است و هر چه این مقدار بیشتر باشد ،اهمیت واژه در تمایز اسناد کمتر خواهد بود .به این ترتیب کلماتی که تکرار بیشتری دارند مثل , or to,withو…نسبت به کلماتی که از نظرمعنایی مناسب ترند و از طرف دیگر در متنهای کمتری ظاهر می شوند، وزن کمتری خواهند داشت ؛البته عوامل دیگری می توانند بر وزن یک واژه موثر باشند .محل وقوع واژه  نمادهای خاص مثل (font) و برچسب (tag)مربوط به واژه از آن جمله اند. معموال کلمه ای که در عنوان یک سند باشد مهمتر از واژه های خود متن است. همچنین واژه های نوشته شده با قلم خاص مهمتر از کلماتی است که بدون این ویژگی ها باشند.
از طریق این قوانین وب مستر ها می توانند موتورهای جست جو را فریب دهند.مثال با قرار دادن برچسب های  مختلف و با تکرار بیش از حد یک واژه کاری می کنند که رتبه وب آن ها بیشتر شود و از این طریق بازدید  زیادی از وب سایتشان انجام بگیرد.که معموال با این گونه سوء استفاده ها ، در کار موتورهای جست وجو  اختالل ایجاد میکنند و اگر موتورها این سوء استفاده را تشخی بدهند با آن وب سایت به عنوان هرزنامه برخورد خواهد شد و حتی امکان دارد کال از پایگاه داده موتور جست وجو حذف شوند.

عوامل خارج از صفحه

عواملی وجود دارند که در رتبه بندی موتورهای جست وجو بکار گرفته می شوند ولی از کنترل وب دار ها  خارج هستند.در واقع وب دار ها نمی توانند از این طریق ، موتورها را فریب دهند.آن عوامل، عوامل خارج از  صفحه نامیده می شوند که شامل تجزیه و تحلیل لینک ها وارتباطات هست.موتورهای جست وجو لینک ها را بررسی کرده و از محبوبیت آن ها می فهمند که آن صفحات مهم هستند و شایسته ترفیع رتبه میباشند.عالوه  بر آن ، موتورهای جست وجو بررسی می کنند که کدام صفحه توسط کاربری که کلمه ای را جست و جو  کرده انتخاب شده است.سپس با توجه به تعداد انتخاب ها، رتبه صفحه مورد نظر را تعیین می کند.

معیار مقایسه و رتبه بندی موتور های جست وجو

  1.  اندازه پایگاه اطالعاتی در اختیار موتور؛ حجم صفحاتی از وب که در پایگاه نمایه شده است بستگی به این اندازه دارد.
  2.  عمق نمایهسازی؛ که بخشی از صفحه چون کلمات و سطور اول یا کل آن را نمایه کند.
  3.  قدرت جستجو؛ که ضعیف باشد یا پیشرفته و با امکان گزینشهای مختلف.
  4.  روزآمد بودن اطالعات؛ برخی موتورها هر ۲۲ روز یا یک ماه از طریق رباتها اطالعات پایگاه خود را روزآمد میکنند و برخی کمتر یا بیشتر؛ که البته این سیاست معموالً فاش نمیشود و بررسیهای آماری آن را کشف میکند.
  5.  تعداد پیوندهای کور؛ روزانه هزاران صفحه وب، آدرسشان از بین میرود یا تغییرمیکند که کاربر با صفحه “file not found 404” مواجه میشود، هرچه این پیوندها کمتر نمایه شوند امتیاز است.
  6. اولویت نمایش؛ هرچه نتایج مرتبطتر را در ابتدا نمایه کنند، یک امتیاز برای موتور محسوب میشود.
  7. سادگی و قابل فهم بودن رابط کاربری؛
  8. سرعت بازیابی اطالعات؛
  9. حذف نتایج تکراری؛
  10. امکان ترجمه صفحات وب؛
  11. امکان منع بازیابی سایتهای غیراخالقی؛
  12.  امکان جستجوی اطالعات چندرسانهای؛ مانند انیمیشن، موسیقی، کالم، جلوههای صوتی، عکسهای رنگی یا سیاهو سفید، فیلم و… . درموتور جستجوی )www.alltheweb.com( میتوان از طریق واسطهای جستجو ]رابطکاربری[ جداگانه و وارد کردن کلیدواژه مورد نظر، قطعات صوتی و تصویری و ویدیویی را بازیابی کرد.

وب پنهان

در حقیقت بخش اعظم وب از دسترسی موتورهای جستجوگر دور است که به آن وب پنهان گفته می شود. در مقابل می توانید وب نمایان را بخشی از وب بدانیدکه موتورهای جستجوگر می توانند به آن دسترسی داشته باشند و در نتایج جستجو به مراجعه کنندگان خود نمایش دهند.

پایگاههای داده قابل جستجو

بخش اعظم وب پنهان همین پایگاههای داده هستند .برای استفاده از اطالعات موجود در آنها ابتدا باید کاربر فرمی را پر کند .چون موتور جستجوگر توانایی انجام این کار را ندارد بنابراین نمی تواند به اطالعات آن دسترسی داشته باشد .در این پایگاههای داده متناسب با نیاز کاربر صفحه ساخته می شود و با توجه به حجم باالی اطالعات عمال نمی توان تمام حالتهای مورد نیاز کاربر را شناسایی کرد و از قبل برای آن صفحه ای ساخت .اگر کاربری لینک مستقیمی به یکی از این صفحات تولید شده ایجاد کند آنگاه موتور جستجوگر شاید بتواند به آن اطالعات دسترسی پیدا کند.

صفحات منفک شده

 پاره ای از صفحات نیز به دالیلی از تیررس موتورهای جستجوگر دور نگاه داشته شده اند .سیاست کاری صاحبان سایتها و ضعف طراحان سایتها مهم ترین این دالیل هستند .فایلهای پنهان، اسناد نیازمند رمز عبور برای خواندن و پایگاههای داده تجاری مواردی( استفاده از اطالعات به شرط پرداخت حق عضویت در سایت )را می توان در این گروه قرار داد.
موتورهای جویشگر همچنین قادر به کاوش محتوای فایل هایPDF ، اینترانت ها و سایتهای FTP, Telnet …, که منبع HTML ندارند نمی باشند.

بهینه سازی موتورهای جست وجو SEO

تعریف

بهینه سازی موتور جستجو )به انگلیسی: (Search engine optimization (SEO( که گاهی در فارسی به  آن سئو گفته میشود عملیاتی است که برای بهبود دید یک وبگاه یا یک صفحه وب در صفحه نتایج موتورهای  جستجو که میتواند طبیعی و یا الگوریتمی باشد، میگویند. این یکی از روشهای بازاریابی موتور جستجو است.
به صورت کلی وبگاههایی که دارای باالترین مکان و بیشترین تکرار در صفحه نتایج موتورهای جستجو باشند،  بازدیدکننده بیشتری از طریق موتورهای جستجو به دست میآورند.برای وبمسترها یکی از عوامل مهم و حیاتی  بدست اوردن کاربران جدید از موتورهای جستجو و بخصوص گوگل می باشد.

تاریخچه

علم سئو در اواسط دهه ۱۹۹۰ توسط وب مستر ها و مدیران سایتهای بزرگ شروع شد. در ابتدا همه وب مسترها  می بایست تمام صفحات خود را برای آمدن خزنده ها به سایت آنها ثبت می کردند تا در نهایت صفحات آنها در  نتایج جستجو به نمایش گذاشته می شد. امروزه با رشد اینترنت فروش خدمات اینترنتی هم افزایش یافته است.

روشها

– فهرست )index( شدن

موتورهای جستجوی مطرح همچون گوگل و یاهو جهت یافتن نتایج جستجوی الگوریتمی، از خزنده ها  )crawlers( استفاده می کنند. صفحاتی که دارای لینک سایر صفحات فهرست شده موتورهای جستجو هستند، نیاز به فهرست شدن ندارند چرا که بطور خودکار یافت میشوند. برخی از موتورهای جستجو همچون  یاهو دارای سرویس ارائه غیررایگان هستند که گردش در سایت را با تعیین هزینه مورد نظر به ازای هر کلیک  تضمین می نماید. چنین برنامه هایی معموالً وجود در دیتابیس را تضمین کرده ولی رتبه بندی خاص در نتایج  جستجو را تضمین نمی کنند. دو فهرست اصلی، یعنی فهرست “یاهو” و یا پروژه “فهرست باز” هر دو نیازمند  ارائه دستی و بازنگری ویرایشی توسط یک شخ حقیقی هستند. گوگل ابزار Webmaster گوگل را ارائه می دهد که با استفاده از آن می توان feed نقشه سایت XML را بصورت رایگان ایجاد و ارائه نمود  تا یافتن تمامی صفحات بویژه صفحاتی که با جستجوی خودکار قابل دستیابی نیستند تضمین شوند .
)گردشگران( Crawler های موتورهای جستجو ممکن است هنگام گشت زدن به فاکتورهای متعددی توجه  داشته باشند. تمامی صفحات توسط موتورهای جستجو فهرست نمی شوند. فاصله صفحات از فهرست اصلی  یک سایت ممکن است عاملی در یافته شدن یا نشدن صفحات باشد.

– صفحه فرود یا landing page

یکی از فاکتورهای مهم در خصوص سئو مشخ کردن صفحات فرود یا landing page است.

– انتخاب کلید واژه های مناسب

انتخاب کلید واژههای مناسب یکی از فاکتورهای مهم در این رابطهاست که بایستی توسط دارندگان وب  سایت و برنامه نویسان در نظر گرفته شود.

– جلوگیری از گشت زنی )crawling( و استاندارد خروج روبات ها

به منظور جلوگیری از یافتن محتوای ناخواسته در شاخ های جستجو ، webmaster ها می توانند به  spiderها بگویند فایلها و یا فهرست های خاص را از طریق فایل robots.txt در فهرست اصلی دومین
)domain( جستجو نکنند به عالوه مسلماً یک صفحه می تواند با استفاده از متاتگ ویژه روبات ها از دیتابیس  یک موتور جستجو خارج شود.

زمانیکه موتور جستجویی سایتی را مشاهده می کند، فایل robots.txt واقع در فهرست اصلی، اولین فایلی  است که جستجو می شود. این فایل سپس بررسی می شود و به روبات دستور می دهد چه فایلهایی را نباید
جستجو )crawler( کند. به دلیل اینکه crawler یک موتور جستجو ممکن است کپی کش شده این فایل  را نگه دارد، ممکن است گاهاً صفحاتی که webmaster نمی خواهد، بازبینی شود. صفحاتی که عموماً از
گشت زنی نفی می شوند، شامل صفحات ورود و خروج اعضا یا سبدهای خرید و صفحات مخصوص  کاربران که از جستجوهای درون سایتی بدست می آیند است. در ماه مارس ۲۰۰۷ گوگل به webmasterها اخطار داد که آنها باید از indexing نتایج جستجوی داخلی جلوگیری کنند، چرا که آن صفحات به عنوان اسپم جستجو تلقی می گردند.

– افزایش اهمیت

روشهای متعدد دیگری نیز جهت نمایش یک صفحهدرنتایج جستجو می تواند مورداستفاده قرار گیرند. این روشها شامل موارد زیرهستند:
تبادل لینک بین صفحات یک وب سایت: اختصاص لینک های بیشتر به صفحات اصلی وب سایت به منظور  افزایش رتبه صفحه مورد استفاده قرار گرفته توسط موتورهای جستجو و یا لینک از وب سایتهای دیگر شامل
.spam comment و link farming

 نوشتن محتوایی که شامل عبارات و کلمات کلیدی تازه جستجو شده باشد به طوریکه با بسیاری از سئواالت  جستجو مربوط و مرتبط باشد . افزودن کلمات کلیدی به متاتگ های صفحات وب شامل keyword stuffing )قرار دادن کلمات کلیدی( عادی سازی URL صفحات وب که از طریق URL های چندگانه قابل دستیابی باشند با استفاده از متاتگ “Canonical”

نتیجه گیری و جمع بندی

  • موتورهای جستجو، ابزارهای قدرتمندی هستند که به کاربران در جستجوی اطالعات مورد نظر در میان انبوه اطالعات موجود در شبکه کمک می کند.
  • در حال حاضر بیش از سیصد موتور جست و جو وجود دارد که به چهار دسته ی دایرکتوری ها، پیمایشی، ترکیبی و ابر جست وجوگر تقسیم می شوند.
  • آنچه تمام صفحات موجود در وب را به هم پیوند میدهند همان لینکها هستند. موتورهای جستجو به واسطهی لینکها اسناد موجود بر روی وب را پیدا میکنند.بنابراین اگر هیچ لینکی به یک صفحه وجود
  • نداشته باشد به این معناست که در »حالت عادی« موتورهای جستجو آن صفحه را پیدا نخواهند کرد.
  • بعد از اینکه موتورها صفحهها را پیدا کردند وظیفهی آنها این است که بخشهای منتخبی از صفحات را بر روی هارد دیسکهای خود ذخیره کنند تا وقتی نیاز بود مجدداً آنها را بازیابی کنند.
  • در دنیای وب ، مواردی وجو دارد که از دید موتور های جست وجو پنهان هستند.
  • دغدغههای دیگر موتورهای جستجو برای آن که بتوانند در کسر کوچکی از ثانیه نتایج را از هارد دیسک  خود بازیابی کنند، پایگاههای دادهی بسیار بزرگ در شهرهای مختلفی از دنیا راهاندازی کرده اند و با 
  • تکنیک هایی این اطالعات را به صورت بهینه ذخیره سازی می کنند.تجهیزات وسیع ذخیرهسازی اطالعات،  شامل هزاران ماشین پردازش اطالعات هستند که بیوقفه حجم بسیار عظیمی از اطالعات را پردازش میکنند.
  • بهینه سازی موتور جستجو (SEO)عملیاتی است جهت بهبود دید یک وبگاه ی در صفحه نتایج موتورهای  جستجو که میتواند طبیعی و یا الگوریتمی باشد. سئو یکی از روشهای بازاریابی موتور جستجو است.
نظر افشین

Summary

بسیار اطلاعات مفید و کاربردی .

5

Related Posts