بایگانی نویسنده

تحلیل ترافیک سایت – تنها شمارش تعداد کاربران کافی نیست!

آذر ۵م, ۱۳۸۷

بیایید اینگونه فرض کنیم که شما تمام توصیه ها را به کار گرفته اید، صفحات سایت را بهینه ساخته اید، آنها را به موتورهای جستجوگر معرفی کرده اید و با تمام عبارتهای کلیدی در صدر نتایج جستجو قرار گرفته اید و آماده دریافت چندین هزار کیلو ترافیک در سایت خود هستید.
اما از کجا می دانید که تمام تلاش شما کارایی لازم را داشته است و به هدر نرفته است؟
بسیار خوب! شما باید ترافیک سایت خود را اندازه گیری و تحلیل نمایید. برای این کار راههای بسیاری پیش روی دارید. شما می توانید از شمارشگرها، خدمات رهگیری کاربران استفاده کنید. آنچه که در این مقاله بدان پرداخته شده است، استفاده از بهترین روش یعنی استفاده از نرم افزارهای تحلیل آمار سایت (Log file analyzer) است.

چرا تحلیل آمار؟
شناسایی رفتار کاربران در سایت برای بالا بردن ROI
شناسایی استراتژیهایی که بهتر جواب داده اند.
تحلیل رفتار کنونی برای پی ریزی استراتژیهای بعدی سایت

مهمترین تحلیلهایی که روی سایتها انجام می شوند عبارتند از:

Summary Analysis
سایت چه میزان کاربر جدید و تکراری دارد؟ و …

Trend analysis
در طول زمان نحوه استفاده کاربران از سایت چگونه تغییر کرده است. آیا کاربران این ماه از ماه قبل بیشتر شده است؟

Page analysis
کدام صفحات (بخشهای) سایت بیننده بیشتر و کدام صفحات (بخشهای) آن بیننده کمتر دارند؟

Content analysis
کدام متون و محتوای سایت بیشتر مورد توجه کاربران قرار دارد؟

Path analysis
آیا ساختار ناوبری سایت خوب جواب داده است؟ صفحه دوم کاربر بعد از ورود به صفحه اول سایت چیست؟ مسیر حرکت کاربران در سایت چگونه بوده است؟ کدام مسیرها بیشتر به فعل و انفعالات دلخواه مدیر سایت منتج شده اند؟

Entry page analysis
کاربران بیشتر از کدام صفحات وارد سایت می شوند؟ یا کدام صفحات بیشتر بیننده به سایت جذب می کنند؟

Exit page analysis
صفحات و بخشهای فراری دهنده کاربران کدامند؟

Visitor analysis
چه نسبتی از کاربران جدید به کاربران تکراری از سایت خرید کرده اند؟ و …

Referral analysis
کدام موتورهای جستجوگر و سایتها بیننده به سایت می فرستند؟ کلمات مورد استفاده آنها چه بوده است؟ کدام تبلیغات بهتر جواب داده است؟ و …

Campaign analysis
بینندگان ناشی از هر استراتژی اجرا شده چه رفتاری در سایت داشته اند؟ کدام گروه سفارش بیشتری داده اند؟

Demographic analysis
توزیع جغرافیایی کاربران سایت چگونه است؟ کدام گروه زمان بیشتری در سایت سپری کرده اند؟

Customer experience analysis
پیوندهای شکسته سایت کدامند؟ درخواستهای ناقص کدامها بوده اند؟ و …

تحلیلهای فوق نیاز به تجربه و تخصص دارد و برای هر کس قابل انجام نیست. برای آنکه شما با اصول کلی بیشتر آشنا شوید برخی موارد به اختصار شرح داده می شود.

Log file چیست؟
هر بار که بیننده ای به سایت شما مراجعه می کند از خود رد پایی بر روی سرور سایت شما بر جای می گذارد که در این فایل ذخیره می گردد. سرور سایت موارد بسیاری را ثبت می کند که برخی از انها عبارتند از: زمان مراجعه کاربر به سایت، صفحاتیکه کاربر مرور کرده است، مدت زمانیکه در کل سایت یا هر صفحه مانده است، از کدام سایت آمده است، از کدام موتور جستجوگر آمده است، چه کلمه ای را جستجو کرده است، از چه صفحه از سایت خارج شده است و …

Page View
تعداد صفحاتی را نشان می دهد که کاربران سایت مرور کرده اند. Total Page View آمار همگی آنرا و Page View per Visitor یا Average میانگین تعداد صفحه مرور شده در سایت را نشان می دهد.

نوعا برای سایتهای متوسط و بزرگ اگر میانگین برابر ۵ و بیشتر باشد خوب است. مثلا اگر سایتی تنها یک صفحه برای دادن اطلاعات به کاربر دارد و کاربر از طریق فرم درون همین صفحه درخواست خود را به سایت ارسال می کند و بعد از ارسال پیام صفحه “نامه شما دریافت شد” به وی نشان داده می شود. در این حالت میانگین خوب آن است که بیشتر از ۱٫۲ باشد.
البته واقعا نمی توان یک قاعد کلی ذکر کرد اما نکته ای که توجه به آن ضروری است همواره میزان Page View صفحات مهم سایت خود را کنترل کنید. این صفحات می توانند صفحات دان لود نرم افزار، فرمهای تماس، صفحات تشکر از تماس کاربران، معرفی محصولات، دان لود کاتالوگ ها و موارد مشابه باشد.

Hit
به هر درخواست فایلی که از سرور می شود گفته می شود. این فایلها می توانند فلش، تصویری، متنی، اجرایی و … باشند. به عنوان مثال اگر صفحه ای شامل متن و ۱۰ تصویر باشد با مراجعه کاربر به این صفحه یک Page View و یازده Hit بر روی سرور ثبت می گردد (یک صفحه + ده عکس از سرور درخواست شده است.)

Unique Visitor
هر بیننده مشخص را نشان می کند. این بیننده اگر صد صفحه سایت را هم مرور کند تنها یکبار شمرده می شود. این فاکتور بسیار مهم است. برای تبلیغات در سایتهای دیگر هموارده این فاکتور را از صاحب آن سایت درخواست کنید و کنترل کنید که آماری که ارایه می دهند، تعداد Page View نباشد.

لاگ فایلها در فایلهایی با پسوند log ذخیره می شوند که با دان لود آنها می توانید کار تحلیل ترافیک سایت را آغاز کنید. در ادامه برخی از موارد ثبت شده در این فایلها توضیح داده می شود.

زمان و تاریخ مراجعه به سایت
آدرس IP بیننده یا اسپایدر مراجعه کننده به سایت

name.html
صفحه ای است که مشاهده شده است. می تواند نام هر فایل درخواست شده نیز باشد.

Get
نشان می دهد که اطلاعات از سرور درخواست شده است.

Post
بیانگر ارسال اطلاعات به سرور است.

نوع پاسخ سرور
نوع پاسخ سرور می تواند از انواع زیر باشد:
۲۰۰ OK
300 Redirects
400 Failure
500 Server Error

حجم فایل درخواست شده
بیننده از کدام صفحه آمده است.
بیننده از کدام موتور جستجوگر و با چه کلمه ای آمده است.
نوع مروگر، سیستم عامل و دقت صفحه نمایش کاربر
نوع اسپایدر مراجعه کننده به سایت
و …

ما نیاز به خواندن و تحلیل خط به خط داده های این فایل نداریم (کار ساده ای هم نیست) بلکه نرم افزارها به سادگی تمام آنها را برای ما تحلیل نموده، همراه با نمودارهای شکیل و قابل فهم ارایه می دهند. سرور سایت شما قابلیت استفاده از این نرم افزار را باید برای شما فراهم نماید و اصولا توصیه می شود که از خدمات میزبانی شرکتی بهره گیرید که علاوه بر خصوصیات مورد نیاز که میزبان حرفه ای، نرم افزار تحلیل آمار قدرتمندی نیز داشته باشد.

اما از کدام نرم افزار استفاده کنیم؟
رایگان
اگر یک نرم افزار رایگان مد نظر شماست، Weblog Expert Lite را توصیه می کنم که قابلیتهای مناسبی را ارایه می دهد و کار با آن نیز بسیار ساده است. این نرم افزار نسخه حرفه ای و تجاری نیز دارد.

تجاری
در این مورد موارد زیر توصیه می شنود:
Click Tracks
Deep Metrix
Web Trends
Urchin

اگر شما ارایه دهنده خدمات میزبانی وب هستید، توصیه می شود که گزینه Click Tracks را با دقت بیشتری بررسی کنید. این نرم افزار قابلیتهای فوق العاده ای دارد.

حال که به خوبی می دانید آمار سایت چیزی بیشتر از شمارش تعداد کاربران آن است، بجاست که با حساسیت بیشتری آمار سایت خود را تحلیل کنید.
لبخند:
(اگر این مقاله را از ابتدا تا انتها خوانده باشد شما حداقل ۳ دقیقه است که در سایت هستید!)

انتخاب کلمات کلیدی

آذر ۵م, ۱۳۸۷
پایه و اساس یک استراتژی موفق بازاریابی با موتورهای جستجوگر، انتخاب بهترین عبارتهایی است که کاربران وب با جستجوی آنها سایت شما را می یابند. برای انتخاب عبارات مناسب نیز باید تحقیقات و بررسی های لازم انجام شود. شما باید عباراتی را بیابید که مخاطبان بالقوه شما جستجو می کنند نه عباراتی که شما هنگام جستجو از آنها استفاده می کنید (یا دوست دارید از آنها استفاده کنید).
رتبه بالا با عبارت مناسب است که شما باید به آن دست یابید. امکان دارد شما با کلماتی همواره در صدر نتایج جستجو باشید، اما موتورهای جستجو حتی یک بیننده هم روانه سایت شما نکنند! علت چیست ؟ بسیار ساده است: شما واژه هایی را برگزیده اید که جستجو نمی شوند!
کاربران برای یافتن سایت های مورد علاقه خود، عبارت هایی را جستجو می کنند. بعضی از عبارات بسیار جستجو می شوند که به این عبارت ها، عبارت های محبوب گفته می شود. عده ای از عبارت ها هم یا کم جستجو می شوند و یا جستجو نمی شوند که عبارت های دارای محبوبیت کم یا فاقد محبوبیت، خوانده می شوند.
میزان دفعاتی که بعضی از واژه ها در سپتامبر ۲۰۰۴، جستجو شده اند در زیر نشان داده شده است
(میزان محبوبیت):
iran    ۲۷۹۰۲۹
travel    ۵۴۵۵۸۸۴
thailand travel    ۲۷۷۶۲
ترفند: اگر رتبه های متوسطی با عبارت های محبوب کسب کنید بهتر از این است که رتبه های بالایی با سایر عبارات داشته باشید.
بنابراین انتخاب درست عبارت های کلیدی، یکی از مهم ترین گام ها به هنگام سرمایه گذاری بر ارتقا رتبه های سایت در نتایج جستجو است. چه عباراتی را انتخاب کنید؟
برای انتخاب کلمات مناسب سه فاکتور عمده زیر را باید در نظر بگیرید:
• میزان مرتبط بودن آنها با محتوای سایت
• میزان محبوبیت آنها در بین کاربران وب
• میزان رقابتی بودن آنها میان وب سایت های دیگر
برای انتخاب واژه های کلیدی باید مانند بینندگان سایت تان فکر کنید: آنها با چه کلماتی سایت شما را می یابند؟
الف ) تمام عباراتی را بنویسید که دوست دارید، بینندگان با جستجوی آنها، سایت شما را بیایند.
ب ) سعی کنید تمام رقبای خود را شناسایی کنید. برای پیدا کردن این رقبا از چه کلماتی استفاده می کنید؟ آن عبارات را هم بنویسید.
ج ) لیست مرحله الف و ب را در هم ادغام کنید و لیست جدیدی را تشکیل دهید.
به هنگام تحلیل عبارتهای کلیدی شما به دنبال تمایلات کاربران هستید. بعد از تهیه لیست اولیه عبارتها باید مشخص نمایید که کاربران چه ترکیباتی از کلمات را به کار می برند.
• کلمات را به صورت جمع جستجو می کنند یا فرد؟
• عبارتهای مورد استفاده چند کلمه ای اند؟ (دو کلمه ای، سه کلمه ای و …)
• ترتیب جستجوی کلمات چگونه است؟ ( به عنوان مثال “ایران سفر” یا “سفر ایران” )
• مترادف های رایج کلمات کدامند؟
• حالت اختصاری کلمات کدام است؟ (بدون نقطه و با نقطه مانند IRIB و I.R.I.B.)
اگر در حال حاضر سایتی دارید، اطلاعات آماری دید و بازدید از آن می تواند بهترین کمک شما در انتخاب کلمات کلیدی باشند. کاربران تاکنون با چه عبارتهایی سایت شما را یافته اند؟ آن عبارتها را هم به لیست کلمات اضافه نمایید. اگر در حال حاضر سایتی ندارید، می توانید از فهرستها و موتورهای جستجوگر عمده کمک بگیرید.
به هنگام جستجو در برخی از موتورهای جستجوگر، ممکن است آنها عبارتهای دیگری را تحت عناوینی مانند “Related Searchs”، “Other Searchs for” و … به شما معرفی می کنند که توسط کاربران دیگر مورد استفاده قرار گرفته اند و شما آنها را تا کنون در لیست خود قرار نداده اید. این عبارتها را هم به لیست کلمات خود اضافه نمایید.
یکی از این موتورهای جستجوگر، Askjeeves.com است. برای کسب اطلاعات بیشتر درباره عبارتهای کلیدی ابزار دیگری نیز وجود دارد. به کمک این ابزار شما می توانید سه فاکتور مهم اشاره شده در انتخاب کلمات کلیدی را مورد ارزیابی قرار دهید.
Overture Search Term Suggestion Tool
اورچر، یک موتور جستجوگر رتبه بازای پول است که متعلق به یاهو می باشد. این موتور جستجوگر برای کمک به مشتریان خود ابزاری برای پیشنهاد کلمات کلیدی دارد که در آدرس زیر قابل دسترسی است:
با جستجوی کلماتی که تاکنون تهیه کرده اید در این ابزار می توانید میزان محبوبیت آنها را بیابید. همینطور سایر کلمات مرتبط با عبارت جستجو شده نیز نمایش داده می شود. نمونه ای از آن در شکل زیر نمایش داده شده است: هر چه بیشتر در این ابزار جستجو کنید به تصویر بهتری از رفتار مخاطبان واقعی سایتتان دست خواهید یافت.
Google Adwords
گوگل نیز ابزار مفیدی برای پیشنهاد کلمات کلیدی در آدرس زیر دارد:
گوگل تعداد دفعات جستجوی عبارتها را نشان نمی دهد، اما عبارتهایی که نمایش داده می شوند، حتما به میزان مناسبی توسط کاربران جستجو شده اند. هر دو ابزار فوق برای کمک به مشتریان تجاری گوگل و اورچر طراحی شده اند که البته به طور رایگان ارایه می شوند. برای اینکه این سرویسها همچنان به صورت رایگان ارایه شوند، جستجوهای روزانه خود را در آنها محدود نمایید. عموما شما می توانید با حدود ۱۰ جستجو کلمات کلیدی مناسب سایت خود را بیابید.
WordTracker
این ابزار با جمع آوری اطلاعات از چند موتور جستجوگر، به شما کمک می نماید تا کلمات مناسب را تشخیص دهید. هر چند که این سرویس به طور کامل رایگان نمی باشد اما شما هنوز هم می توانید به کمک آن پروسه تحقیق عبارات کلیدی خود را تکمیل نمایید.
برخی از موتورهای جستجوگر به بزرگی و کوچکی حروف حساس هستند. به عبارت دیگر جستجوی iran pistachio و Iran Pistachio در آن، نتایج جستجوی متفاوتی به دنبال خواهد داشت. هنگامی که به مرحله نهایی انتخاب کلمات کلیدی رسیدید باید این نکته را برای عبارتهایی که بیشتر به صورت حروف بزرگ جستجو می شوند نیز در نظر بگیرید. هر چه عبارتهای کلیدی طولانی تری را برگزینید شانس کسب رتبه بالاتر و همینطور مراجعه کاربران مخاطب به سایت شما بیشتر می شود. عبارتهای سه، چهار و پنج کلمه ای عموما منجر به نتایج جستجوی دقیقتری در نتایج جستجو می شوند.
حال که لیست اولیه آماده شده است از ابزار وب، فهرستها و موتورهای جستجوگر نیز کمک می گیریم تا انتخاب عبارتهای کلیدی سایت نهایی شود. بعد از انتخاب نهایی کلمات کلیدی حتما متوجه خواهید شده که لیست نهایی با لیست اولین عبارات مد نظر شما تفاوتهایی دارد که قبلا به آنها فکر نکرده بودید و این موضوع به خوبی گویای این نکته ظریف است که همیشه بخشی از حقیقت نزد دیگران است! میزان رقابتی بودن کلمات تا این مرحله کلمات محبوب و مرتبط تهیه شده است.
حال باید میزان رقابتی بودن آنها بررسی شود. برای این کار هریک از عبارات لیست تهیه شده را به ترتیب در گوگل، جستجو کنید. تقریبا همه موتورهای جستجوگر تعداد صفحاتی را که در پاسخ به جستجوی کاربران یافته اند، نشان می دهند. عدد نمایش داده شده در واقع تعداد رقبا برای آن عبارت جستجو شده را نشان می دهد. همانطور که ملاحظه می کنید با جستجوی عبارت تک کلمه ای iran، گوگل به ما می گوید که ۶۶۳ هزار صفحه درباره آن در پایگاه داده اش دارد. ۶۶۳ هزار صفحه که با هم برای رسیدن به رتبه های بالاتر رقابت می کنند. (آمار مربوط به اوایل ۲۰۰۵ می باشد.)
شما نیز تمام عبارت های لیست کلمات را جستجو کنید و تعداد رقبای خود را برای هر یک از آنها یادداشت کنید.
ترفند: اصولا هر چه کلمه ای محبوت تر باشد و رقبای کمتری نیز داشته باشد، بهتر است.
برای انتخاب کلمات کلیدی نکات زیر را هم مد نظر داشته باشید:
۱- عبارت های کلیدی شما یک کلمه ای نباشند. امروز کمتر عبارات یک کلمه ای جستجو می گردند و کاربران دریافته اند که به کمک عبارات دو، سه، چهار و حتی پنج کلمه ای بهتر می توانند منظور خود را بیان کنند و شرایط جستجو را به موضوع خاصی محدود نمایند. با انتخاب عبارت های دو و سه کلمه ای شما بخش خاصی از بازار را مورد هدف قرار می دهید : بازار کوچکتر، رقبای کمتر و از همه مهمتر، خریداران مشخص تر و علاقه مندتر.
۲- از کلمات بسیار رایج استفاده نکنید. به این گونه کلمات بسیار رایج و پرکاربرد، Stop Word یا بنجل می گویند. کلماتی که تقریبا در هر صفحه ای از وب از آنها استفاده شده است. مواردی نظیر is, the , and , www, home page ,be ,with و… موتورهای جستجوگر از این کلمات صرف نظر می کنند. کاربرد این کلمات چگالی کلمات کلیدی موجود در متن را پایین می آورد و ضمن آن که قابل جستجو هم نیستند.
نتیجه گیری: انتخاب کلمات کلیدی بخش مهم هر فعالیت بازاریابی با موتورهای جستجوگر است. انتخاب کلمات درست نقش مهمی در موفقیت اجرای استراتژطهای شما دارد و انتخاب آنها نیز به انجام بررسی های کافی نیاز دارد.

موتور جستجوگر چگونه کار می کند؟

آذر ۵م, ۱۳۸۷
وقتی جستجویی در یک موتور جستجوگر انجام و نتایج جستجو ارایه می شود، کاربران در واقع نتیجه کار بخش های متفاوت موتور جستجوگر را می بینند. موتور جستجوگر قبلا” پایگاه داده اش را آماده کرده است و این گونه نیست که درست در همان لحظه جستجو، تمام وب را بگردد. بسیاری از خود می پرسند که چگونه امکان دارد گوگل در کمتر از یک ثانیه تمام سایت های وب را بگردد و میلیون ها صفحه را در نتایج جستجوی خود ارایه کند؟
نه گوگل و نه هیچ موتور جستجوگر دیگری توانایی انجام این کار را ندارند. همه آنها در زمان پاسخ گویی به کاربران، تنها در پایگاه داده ای که در اختیار دارند به جستجو می پردازند و نه در وب!
موتور جستجوگر به کمک بخش های متفاوت خود، اطلاعات مورد نیاز را قبلا” جمع آوری، تجزیه و تحلیل می کند و آنرا در پایگاه داده اش ذخیره می نماید و به هنگام جستجوی کاربر تنها در همین پایگاه داده می گردد.
بخش های مجزای یک موتور جستجوگر عبارتند از:

• Spider یا عنکبوت
• Crawler یا خزنده
• Indexer یا بایگانی کننده
• Database یا پایگاه داده
• Ranker یا سیستم رتبه بندی

الف Spider- (عنکبوت)
اسپایدر یا روبوت (Robot)، نرم افزاری است که کار جمع آوری اطلاعات مورد نیاز یک موتور جستجوگر را بر عهده دارد. اسپایدر به صفحات مختلف سر می زند، محتوای آنها را می خواند، اطلاعات مورد نیاز را جمع آوری می کند و آنرا در اختیار سایر بخش های موتور جستجوگر قرار می دهد.

کار یک اسپایدر، بسیار شبیه کار کاربران وب است. همانطور که کاربران، صفحات مختلف را بازدید می کنند، اسپایدر هم درست این کار را انجام می دهد با این تفاوت که اسپایدر کدهای HTML صفحات را می بیند اما کاربران نتیجه حاصل از کنار هم قرار گرفتن این کدها را.

Index.html صفحه ای است که کاربران آنرا به صورت شکل (۱) می بینند:

1 موتور جستجوگر چگونه کار می کند؟

اما یک اسپایدر آنرا چگونه می بیند؟
برای این که شما هم بتوانید دنیای وب را از دیدگاه یک اسپایدر ببینید، کافی است که کدهای HTML صفحات را مشاهده کنید. برای این کار در مرورگر مورد استفاده خود، مسیر نشان داده شده در شکل (۲) دنبال کنید.

2 موتور جستجوگر چگونه کار می کند؟

با انجام این کار فایل متنی شکل (۳) به شما نشان داده می شود:

3 موتور جستجوگر چگونه کار می کند؟

آیا این دنیای متنی برای شما جذاب است؟

اسپایدر، به هنگام مشاهده صفحات، از خود بر روی سرورها رد پا برجای می گذارد. شما اگر اجازه دسترسی به آمار دید و بازدیدهای صورت گرفته از یک سایت و اتفاقات انجام شده در آنرا داشته باشید، می توانید مشخص کنید که اسپایدر کدام یک از موتورهای جستجوگر صفحات سایت را مورد بازدید قرار داده اند.
یکی از فعالیتهای اصلی که در SEM انجام می شود تحلیل آمار همین دید و بازدیدها می باشد.

اسپایدرها کاربردهای دیگری نیز دارند، به عنوان مثال عده ای از آنها به سایت های مختلف مراجعه می کنند و فقط به بررسی فعال بودن لینک های آنها می پردازند و یا به دنبال آدرس پست الکترونیکی (Email) می گردند.

ب- Crawler (خزنده)
کراولر، نرم افزاری است که به عنوان یک فرمانده برای اسپایدر عمل می کند. آن مشخص می کند که اسپایدر کدام صفحات را مورد بازدید قرار دهد. در واقع کراولر تصمیم می گیرد که کدام یک از لینک های صفحه ای که اسپایدر در حال حاضر در آن قرار دارد، دنبال شود. ممکن است همه آنها را دنبال کند، بعضی ها را دنبال کند و یا هیچ کدام را دنبال نکند.
کراولر، ممکن است قبلا” برنامه ریزی شده باشد که آدرس های خاصی را طبق برنامه، در اختیار اسپایدر قرار دهد تا از آنها دیدن کند. دنبال کردن لینک های یک صفحه به این بستگی دارد که موتور جستجوگر چه حجمی از اطلاعات یک سایت را می تواند در پایگاه داده اش ذخیره کند و همچنین ممکن است اجازه دسترسی به بعضی از صفحات به موتورهای جستجوگر داده نشده باشد.

شما به عنوان دارنده سایت، همان طور که دوست دارید موتورهای جستجوگر اطلاعات سایت شما را با خود ببرند، می توانید آنها را از بعضی از صفحات سایت تان دور کنید و اجازه دسترسی به محتوای آن صفحات را به آنها ندهید. تنظیم میزان دسترسی موتورهای جستجوگر به محتوای یک سایت توسط پروتکل Robots انجام می شود که در مقالات دیگر سایت به آن پرداخته شده است. به عمل کراولر ، خزش (Crawling) می گویند.

ج- Indexer (بایگانی کننده)
تمام اطلاعات جمع آورش شده توسط اسپایدر در اختیار ایندکسر قرار می گیرد. در این بخش اطلاعات ارسالی مورد تجزیه و تحلیل قرار می گیرند و به بخش های متفاوتی تقسیم می شوند. تجزیه و تحلیل بدین معنی است که مشخص می شود اطلاعات از کدام صفحه ارسال شده است، چه حجمی دارد، کلمات موجود در آن کدام است، کلمات چندبار تکرار شده است، کلمات در کجای صفحه قرار دارند و … .
در حقیقت ایندکسر، صفحه را به پارامترهای آن خرد می کند و تمام این پارامترها را به یک مقیاس عددی تبدیل می کند تا سیستم رتبه بندی بتواند پارامترهای صفحات مختلف را با هم مقایسه کند.
در زمان تجزیه و تحلیل اطلاعات، ایندکسر برای کاهش حجم داده ها از بعضی کلمات که بسیار رایج هستند صرفنظر می کند. کلماتی نظیر a ، an ، the ، www ، is و … . از این گونه کلمات هستند.

د – DataBase (پایگاه داده)
تمام داده های تجزیه و تحلیل شده در ایندکسر، به پایگاه داده ارسال می گردد. در این بخش داده ها گروه بندی، کدگذاری و ذخیره می شود. همچنین داده ها قبل از آنکه ذخیره شوند، طبق تکنیکهای خاصی فشرده می شوند تا حجم کمی ُُاز پایگاه داده را اشغال کنند.
یک موتور جستجوگر باید پایگاده داده عظیمی داشته باشد و به طور مداوم حجم محتوای آنرا گسترش دهد و البته اطلاعات قدیمی را هم به روز رسانی نماید. بزرگی و به روز بودن پایگاه داده یک موتور جستجوگر برای آن امتیاز محسوب می گردد. یکی از تفاوتهای اصلی موتورهای جستجوگر در حجم پایگاه داده آنها و همچنین روش ذخیره سازی داده ها در پایگاه داده است.

در شکل (۴) حجم پایگاه داده چند موتور جستجوگر با هم مقایسه شده است.

4 موتور جستجوگر چگونه کار می کند؟

شکل ۴- مقایسه حجم پایگاه داده چند موتور جستجوگر در دسامبر ۲۰۰۱
GG= Google, AV= Altavista, Fast= AllTheWeb
INK= Inktomi, NL= NorthernLight
منبع: www.searchenginewatch.com

و- Ranker (سیستم رتبه بندی)
بعد از آنکه تمام مراحل قبل انجام شد، موتور جستجوگر آماده پاسخ گویی به سوالات کاربران است. کاربران چند کلمه را در جعبه جستجوی (Search Box) آن وارد می کنند و سپس با فشردن Enter منتظر پــاسخ می مانند.
برای پاسخگویی به درخواست کاربر، ابتدا تمام صفحات موجود در پایگاه داده که به موضوع جستجو شده، مرتبط هستند، مشخص می شوند. پس از آن سیستم رتبه بندی وارد عمل شده، آنها را از بیشترین ارتباط تا کمترین ارتباط مرتب می کند و به عنوان نتایج جستجو به کاربر نمایش می دهد.

حتی اگر موتور جستجوگر بهترین و کامل ترین پایگاه داده را داشته باشد اما نتواند پاسخ های مرتبطی را ارایه کند، یک موتور جستجوگر ضعیف خواهد بود. در حقیقت سیستم رتبه بندی قلب تپنده یک موتور جستجوگر است و تفاوت اصلی موتورهای جستجوگر در این بخش قرار دارد.

سیستم رتبه بندی برای پاسخ گویی به سوالات کاربران، پارامترهای بسیاری را در نظر می گیرد تا بتواند بهترین پاسخ ها را در اختیار آنها قرار دارد. حرفه ای های دنیای SEM به طور خلاصه از آن به Algo ( الگوریتم) یاد می کنند.
الگوریتم، مجموعه ای از دستورالعمل ها است که موتور جستجوگر با اعمال آنها بر پارامترهای صفحات موجود در پایگاه داده اش، تصمیم می گیرد که صفحات مرتبط را چگونه در نتایج جستجو مرتب کند. در حال حاضر قدرتمندترین سیستم رتبه بندی را گوگل در اختیار دارد.

ُمی توان با ادغام کردن اسپایدر با کراولر و همچنین ایندکسر با پایگاه داده، موتور جستجوگر را شامل سه بخش زیر دانست که این گونه تقسیم بندی هم درست می باشد:

• کراولر
• بایگانی
• سیستم رتبه بندی

تذکر- برای سهولت در بیان مطالب بعدی هر گاه صحبت از بایگانی کردن (شدن) به میان می آید، مقصود این است که صفحه تجزیه و تحلیل شده و به پایگاه داده موتور جستجوگر وارد می شود.

برای آنکه تصور درستی از نحوه کار یک موتور جستجوگر داشته باشید داستان نامتعارف زیر را با هم بررسی می کنیم.

داستان ما یک شکارچی دارد. او تصمیم به شکار می گیرد:

- کار کراولر:
او قصد دارد برای شکار به منطقه حفاظت شده ابیورد، واقع در شهرستان درگز (شمالی ترین شهر خراسان بزرگ) برود.

- پروتکل Robots :
ابتدا تمام محدودیت های موجود برای شکار در این منطقه را بررسی می کند:

• آیا در این منطقه می توان به شکار پرداخت؟
• کدام حیوانات را می توان شکار کرد؟
• حداکثر تعداد شکار چه میزانی است؟
• و … .

فرض می کنیم او مجوز شکار یک اوریال (نوعی آهو) را از شکاربانی منطقه دریافت می کند.

- کار اسپایدر
او اوریالی رعنا را شکار می کند و سپس آنرا با خود به منزل می برد.

- کار ایندکسر
شکار را تکه تکه کرده، گوشت، استخوان، دل و قلوه، کله پاچه و … آنرا بسته بندی می کند و بخش های زاید شکار را دور می ریزد.

- کار پایگاه داده
بسته های حاصل را درون فریزر قرار داده، ذخیره می کند.

- کار سیستم رتبه بندی
مهمانان سراغ او می آیند و همسر او بسته به ذائقه مهمانان برای آنها غذا طبخ می کند. ممکن است عده ای کله پاچه، عده ای آبگوشت، عده ای جگر و … دوست داشته باشند. پخت غذا طبق سلیقه مهمانان کار سختی است. ممکن است همه آنها آبگوشت بخواهند اما آنها مسلما” بامزه ترین آبگوشت را می خواهند!

نکته ها:
• شکارچی می توانست برای شکار کبک یا اوریال و یا هر دو به آن منطقه برود همانطور که موتور جستجوگر می تواند از سرور سایت شما انواع فایل (عکس، فایل متنی، فایل اجرایی و …) درخواست کند.
• غذای خوشمزه را می توانید با نتایج جستجوی دقیق و مرتبط مقایسه کنید. اگر شکارچی بهترین شکار را با خود به منزل ببرد اما غذایی خوشمزه و مطابق سلیقه مهمانان طبخ نگردد، تمام زحمات هدر رفته است.
• به عنوان آخرین نکته این مقاله یاد آوری می کنم که به شکار اوریالی رعنا آن هم در منطقه حفاظت شده ابیورد، اصلا فکر نکنید. اما توصیه می شود که حتما از طبیعت بکر آن دیدن فرمایید (بدون اسلحه!).

به موتورهای جستجوگر نه بگویید!

آذر ۵م, ۱۳۸۷

با استفاده از تکنیک هایی که تاکنون مطرح شده است تمام سعی ما براین بود که هر چه بیشتر از صفحات سایت خود را به بایگانی موتورهای جستجوگر وارد کنیم. در این راه هر بار که متوجه ورود صفحه دیگری از سایت به بایگانی یک موتور جستجوگر می شدیم، هیجان زده احتمالا از خوشحالی فریاد می زدیم! (من که این گونه هستم، شما را نمی دانم!).
اما این تنها روی اول سکه است. روی دیگر سکه این است که گاهی دوست نداریم موتورهای جستجوگر بعضی از صفحات یک سایت را بخواند و سعی می کنیم آنها را از دسترسی به محتوای بعضی از صفحات دور نگه داریم. مثلا می توانید صفحات زیر ساخت سایت خود را از دسترسی موتورهای جستجوگر دور نگه دارید.

دو پروتکل عمده برای منع کردن موتورهای جستجوگر از بایگانی منابع وب وجود دارد:

• پروتکل robots
• پروتکل robots meta tag

بیشتر موتورهای جستجوگر تمایل به پشتیبانی آنها را دارند اما هیچ کدام مجبور به رعایت آنها نیستند. در واقع پروتکل های یاد شده فقط مواردی را به موتورهای جستجوگر توصیه می کنند و رعایت و یا عدم رعایت این توصیه ها به موتورهای جستجوگر بستگی دارد.

پروتکل robots
می توان با یک فایل متنی و بسیار ساده، میزان دسترسی موتورهای جستجوگر به محتوای سایت ها را کنترل کرد. این فایل robots.txt نام دارد و پروتکل حاکم بر آن پروتکل robots نام دارد.
موتور جستجوگر قبل از آنکه وارد سایتی شود، ابتدا فایل یاد شده را درخواست می کند و تمام محدودیت های پیش روی خود در آن سایت را می خواند. نبود این فایل در یک سایت به معنای نبودن هیچ گونه محدودیتی برای تمام اسپایدرها است (حالت پیش فرض).
موتور جستجوگر بعد از آنکه تمام فایل ها و مسیرهای ممنوع را دانست. شروع به خواندن مطالب سایت می کند و البته به محدودیت های موجود نیز احترام می گذارد (اگر یک اسپایدر مودب باشد!).
عده ای از آنها به طور کامل و صد در صد به محتوای این فایل وفادار نیستند. مثال شکارچی را به یاد آورید، آیا همه شکارچیان به تمام توصیه های زیست بانان عمل می کنند؟

نوشتن robots.txt
پروتکل روبوتز تنها دو دستور دارد که به کمک آنها محدودیت های زیر مشخص می شوند:

• کدام اسپایدرها محدود شوند.
• کدام مسیرها محدود شوند.

user-agent:
با این دستور، روبوت ها مشخص می شوند. روبوت (اسپایدر) هر موتور جستجوگر نام مشخصی دارد و برای محدود کردن موتورهای جستجوگر کافی است که نام روبوت های مورد نظر را به همراه این دستور به کار گیریم. ای دستور به صورت زیر به کار می رود:

user-agent: robot name
به عنوان مثال وقتی که روبوت مورد نظر مربوط به گوگل است خواهیم داشت:

user-agent:googlebot


و همین طور اگر روبوت NorthernLight مورد نظر باشد،آنگاه:

user-agent:gulliver


با هر دستور user-agent تنها می توان یک روبوت را مشخص کرد.

disallow:
با این دستور مسیرهای ممنوع مشخص می شوند که به صورت زیر به کار می رود:

disallow:/path/

و مثال هایی از آن به صورت زیر می باشند:

disallow:/sales/
disallow:/shopping_card/

با هر دستور disallow: تنها می توان یک مسیر را مشخص کرد و کابرد آن به صورت زیر اشتباه است:


disallow:/sales/,/shopping/


برای محدود کردن هر روبوت ابتدا آنرا مشخص کرده و سپس تمام مسیرهای محدود شده برای آنرا ذکر می کنیم:

user-agent: googlebot
disallow:/test/
disallow:/sales/

در مثال زیر روبوت موتور جستجوگر آلتاویستا از دسترسی به فولدرهای ۱ ، ۲ و ۳۳ ممنوع شده است:

user-agent: scooter
diallow:/1/
disallow:/2/
disallow:/33/

و با دستور زیر همه روبوت ها می توانند محتوای تمام مسیرها را بخوانند:

user-agent:*
disallow:


کاربرد * به همراه user-agent به معنای تمام روبوت ها است. در مثال زیر به تمام روبوت ها گفته می شود که خوش آمدید، اینجا خبری نیست، لطفا دور شوید (با زبان خوش!).

user-agent:*
disallow:/


کاربرد / به همراه disallow به معنای تمام مسیرها است. همچنین برای نوشتن توضیحات در فایل robots.txt از # به صورت زیر استفاده می شود:

# all robots are allowed
user-agent:*
disallow:


چند مورد از اشتباهات رایج:

User-agent:*
Disallow: slurp


جلوی disallow نمی توان نام روبوت را قرار داد. و یا

User-agent:spot
Disallow: /Jacky/
Allow: /Jill/


فقط disallow داریم و از allow در این پروتکل خبری نیست!
کاربرد توضیحات به صورت زیر اشکالی ندارد اما توصیه می شود توضیحات را در خطوط جداگانه قرار دهید:

Disallow: /cgi-bin/ #comments


شما اگر گالیور بودید و قصد سفر به سایت آدم کوچولوها را داشتید با دیدن دستورات زیر چه می کردید؟

User-agent:*
Disallow:/

User-agent:Gulliver
Disallow:


فایل robots.txt را کجا باید قرار داد؟
از مثالهای زیر کمک گرفته و فایل را در محل مناسب آن قرار دهید.

http://www.iranseo.com/robots.txt

http://www.iranseo.com:6446/robots.txt

http://iranseo.com/robots.txt

و نکات دیگر:
• حتی اگر سایت شما هیچ گونه محدودیتی ندارد توصیه می شود که این فایل را بر روی سرور خود قرار دهید. در این صورت کافیست که به صورت زیر عمل کنید:

user-agent:*
diallow:

بودن این فایل به صورت ذکر شده و نبودن آن در هر دو صورت برای موتورهای جستجوگر یک معنا دارد:

آزادی در دسترسی به محتوای سایت

اما وجود robots.txt می تواند نشان از حرفه ای بودن سایت باشد و شاید در رتبه بندی سایت هم مورد لحاظ قرار گیرد.

آزادی در پرتو یک قانون بدون محدودیت بهتر است از آزادی ناشی از بی قانونی!

• همواره یک مسیر را ممنوع کنید و نه یک فایل را.
گیریم که شما فایل rtg.html را برای گوگل به صورت زیر محدود کرده باشید:

user-agent:googlebot
diallow:/project/html-resources/rtg.html

user-agent:*
disallow:


همانطور که می دانید تنها موتورهای جستجوگر فایل robots.txt را نمی خوانند و در واقع همه کاربران با خواندن این فایل می توانند بفهمند که شما چه فایلی را محدود کرده اید و به راحتی می توانند به آن مراجعه کنند. مثلا آدرس آن می تواند آدرس زیر باشد:

http://www.your-site-name.com/project/html-resources/rtg.html


در حالیکه اگر شما یک مسیر را محدود کرده باشید کاربران چون نام فایل های موجود در آن فولدر را نمی دانند، نمی توانند سر از کار شما در بیاورند (سخت تر می توانند). کمی بعد با علت این کار بیشتر آشنا می شوید.

• تمام مسیرهای درون این فایل را با حروف کوچک انگلیسی بنویسید. وب سرورهای نصب شده بر روی سیستم های عامل یونیکس به بزرگی و کوچکی حروف در URL حساس هستند.
• هر سایت تنها می تواند یک فایل robots.txt داشته باشد.
• بعد از آنکه فایل robots.txt را بر روی سرور سایت خود قرار دادید با بررسی Server Logs سایت خود می توانید بفهمید که آیا موتورهای جستجوگر به محدودیت هایی که تعریف کرده اید وفادار بوده اند یا خیر.
اگر یک موتور جستجوگر به محتوای آن توجه نکرده باشد، می توانید با آنها مکاتبه کرده و علت را جویا شوید و از آنها بخواهید که فایل های مسیر مورد نظر را از بایگانی خود حذف کنند.
• در ابتدا و انتهای تمام مسیرهای قرار گرفته در Disallow از / استقاده کنید.

آیا با این پروتکل می توان دسترسی به صفحه اصلی را هم محدود کرد؟

بعد از آنکه فایل روبوتز مربوط به سایت خود را نوشتید می توانید صحت آنرا بررسی کنید برای این کار عبارت robots validator را در گوگل جستجو کنید و سایت مناسبی را برای این کار برگزینید.
محتوای www.bbc.co.uk/robots.txt در زیر آورده شده است.

www.bbc.co.uk/robots.txt

User-agent: *
Disallow: /cgi-bin
Disallow: /cgi-perl
Disallow: /cgi-store
Disallow: /furniture
Disallow: /navigation
Disallow: /images
Disallow: /weather/broadband/
Disallow: /education/bitesize
Disallow: /education/dev
Disallow: /education/navigation
Disallow: /education/nav
Disallow: /education/ximages
Disallow: /education/images
Disallow: /worldservice/images/
Disallow: /worldservice/ssi/
Disallow: /films/gateways
Disallow: /worldservice/psims/
Disallow: /nav/
Disallow: /includes/
Disallow: /print/
Disallow: /eoltools/
Disallow: /paintingtheweather/zoom/


برای یافتن این فایل روی سایت های ایرانی، بررسی های زیادی انجام دادم اما متاسفانه سایتی که
این فایل را داشته باشد، نیافتم.

پروتکل robots meta tag
با استفاده از robots.txt توانستیم بعضی از مسیرهای سایت خود را برای همه و یا تنی چند از موتورهای جستجوگر محدود کنیم. می توان با استفاده از یکی از شناسه های HTML هم محدودیت هایی را برای یک صفحه تعریف کرد.
این شناسه میزان دسترسی به یک صفحه را معین می کند و به یکی از چهار صورت زیر به کار می رود:

<meta name=”robots” content=”index,follow”>
<meta name=”robots” content=”noindex,follow”>
<meta name=”robots” content=”index,nofollow”>
<meta name=”robots” content=”noindex,nofollow”>


Index
به معنای این است که موتور جستجوگر می تواند محتوای صفحه را بایگانی کند. آوردن no بر سر آن به معنای این است که موتور جستجوگر نمی تواند محتوای صفحه را بایگانی کند.

Follow
به این معناست که موتور جستجوگر می تواند لینک های موجود در صفحه را دنبال کند. آوردن no بر سر آن به این معنا است که موتور جستجوگر نباید لینک های صفحه را دنبال کند.

با استفاده از این شناسه محدودیت ها به تمام موتورهای جستجوگر اعمال می شود و نمی توان محدودیت های موردی اعمال کرد: همه یا هیچ کدام!
اگر در صفحه ای از این شناسه استفاده نشده باشد، به معنای index, follow است. یعنی محتوای صفحه خوانده شود و لینک های آن دنبال گردد (حالت پیش فرض).
می دانید هر یک از چهار ترکیب یاد شده برای چه صفحاتی مناسب می باشند؟

برخی از موتورهای جستجوگر نیز META robots مخصوص به خود دارند ( نظیر گوگل) که می توانید از آنها نیز استفاده کنید. برای اطلاع از چگونگی استفاده از آنها می توانید از Help همان موتور جستجوگر کمک بگیرید.

آیا می دانید کاربرد هر یک از چهار ترکیب یاد شده برای چه صفحاتی مناسب است؟

سایتهای داینامیک و بهینه سازی آنها

آذر ۵م, ۱۳۸۷

صفحات دینامیک امروزه بسیار محبوب شده اند. آنها و پایگاه های داده به سایت ها قدرت فراوانی ارزانی کرده اند. صفحه دینامیک صفحه ای است که در پاسخ به درخولست کاربر ساخته می شود و بیشتر محتوای آن از یک پایگاه داده فراهم می شود.
تنها با انتخاب چند گزینه توسط کاربران صفحه ای که مورد نظر وی بوده است، ساخته می شود. این گونه صفحات به کاربران توانایی دسترسی سریع به حجم عظیمی از اطلاعات و به مدیران سایت ها سرعت و سادگی به روز رسانی اطلاعات را هدیه می کنند زیرا تنها اطلاعات پایگاه داده به روز رسانی می شود، نه صدها صفحه دیگر!
ممکن است هنوز هم آنها کمی برای شما پیچیده به نظر برسند. اگر اینگونه است آخرین باری که در گوگل جستجو کرده اید را به خاطر آورید. صفحه ای که نتایج جستجو را در اختیار شما قرار داد یک صفحه دینامیک بود!
صفحه دینامیک در حقیقت وجود ندارد و تنها با توجه به درخواست کاربر ساخته می شود. برای ساخت اینگونه صفحات از تکنولوژی هایی نظیر دات نت، PHP, ASP, JSP, Cold Fusion, Perl استفاده می شود.

این صفحات از دیدگاه کاربران فوق العاده هستند اما از دیدگاه موتورهای جستجوگر می توانند مشکل زا باشند. اما مشکل چیست؟

گفته شد که برای ساخته شدن این صفحات باید متغیرهایی انتخاب شوند و سپس دکمه ای فشرده شود. مشکل هم در همین جا نهفته است: اسپایدرها توانایی انتخاب این گزینه ها را ندارند و لذا صفحه ای ساخته نمی شود که آنرا بخوانند.
آدرس اینگونه صفحات اغلب دارای علامت سوال (?) است. همینطور وجود علامتهای % ، = ، +، $ یا & در یک آدرس می تواند بیانگر داینامیک بودن آن باشد. به تمام آنچه که بعد از علامت سوال می آید Query String گفته می شود.
بسیاری از موتورهای جستجوگر امکان دسترسی به صفحات دینامیک را ندارند زیرا توانایی فراهم کردن متغیرهای لازم برای ساخته شدن آن صفحات را ندارند. این عدم توانایی موتورهای جستجوگر، مفهوم وب پنهان را برجسته تر می کند.
در واقع بسیاری از اطلاعات وب که گفته می شود در حدود ۶۰ درصد است از طریق موتورهای جستجوگر قابل دسترسی نیست. لذا به هنگام جستجوی اطلاعات، ضروری است که کاربران ابتدا به کمک موتورهای جستجوگر، وب های پنهان موجود را شناسایی نموده، سپس با مراجعه به آنها به جستجوی اطلاعات مورد نیاز خود بپردازند.

آیا اگر مستقیما به صفحات داینامیک لینک داده شود، آیا موتورهای جستجوگر این صفحات را می خوانند؟ موتور جستجوگر به هنگام رسیدن به علامت سوال و دیگر علامتها، پرچم زرد احتیاط را بالا می برد. اما چرا احتیاط؟
دلایلی که موتورهای جستجوگر با اینگونه آدرسها با احتیاط برخورد می کنند، عبارتند از:

• جلوگیری از بایگانی شدن محتوای یکسان
در سایتهای داینامیک اغلب اتفاق می افتد که محتوایی مشخص، آدرسهای متفاوتی داشته باشد. کاربران نیز دوست ندارند، صفحاتی با محتوایی یکسان در نتایج جستجو نمایش داده شوند لذا موتورهای جستجوگر برای جلوگیری از این مورد به هنگام برخورد به علامت سوال، احتیاط پیشه می کنند. موتورهای جستجو، در واقع تا قبل از علامت سوال را بایگانی می کنند که آدرس صفحه ای مشخص خواهد بود هر چند که تمام کارکترهای بعد از علامت سوال در آن حذف شده است. سایتهایی که از Session ID در آدرسهای صفحات خود بهره می گیرند نیز این مشکل را دارند.

• موتورهای جستجوگر می خواهند نتایج دقیقی را ارایه دهند.
موتورهای جستجوگر، پایگاه داده خود را در بازه زمانی مشخصی که معمولا چهار تا هشت هفته است، به روز رسانی می کنند. لذا اتفاق می افتد که محتوای صفحه ای بعد از اینکه توسط موتور جستجوگر بایگانی شد، تغییر یابد. در صفحات استاتیک محتوای جدید معمولا مرتبط با محتوای قدیم همان صفحه است. اما در صفحات داینامیک اینگونه نیست.
فرض کنید یک سایت فروش کتاب در ماه رمضان، کتاب پیشنهادی ماه به کاربران را یک کتاب مذهبی قرار داده است. بعد از اینکه ماه رمضان سپری شود کتاب پیشنهادی ماه سایت تغییر می کند و یک رمان جای آن قرار می گیرد. حال اگر موتور جستجوگر این صفحه داینامیک را در ماه رمضان بایگانی کند و بعد از ماه رمضان برای به روز رسانی محتوای جدید آن صفحه مراجعه نکند، کاربرانی را روانه صفحه می کند که کتاب مذهبی را جستجو می کنند در حالیکه در آن صفحه کتاب رمانی معرفی شده است.

با بایگانی نکردن برخی از صفحات داینامیک، موتورهای جستجوگر از تکرار مواردی مشابه پیشگیری می کنند.

• جلوگیری از گیر افتادن در پایگاه داده ای خاص
ممکن است با بایگانی شده صفحه ای از یک سایت، صفحات بی نهایت دیگری به اسپایدر موتور جستجوگر خورانده شود که منجر به از کار افتادن اسپایدر یا اتلاف وقت آن می شود. این حالت زمانی اتفاق می افتد که حلقه ها در برنامه نویسی سایت بسته نشوند (حلقه های if یا while).

در حال حاضر بسیاری از موتورهای جستجوگر مشکلی با صفحاتی که تنها دارای یک پارامتر در آدرس خود هستند، ندارند. نمونه ای از این آدرسها در زیر آمده است:

www.mywebsite.com/products.asp?no=20

اما زمانیکه پارامترهای یک آدرس چندین مورد می شود، برای موتور جستجوگر تشخیص اینکه آیا آدرس مورد نظر محتوایی غیر تکراری و منحصر بفرد را ارایه می دهد، سخت تر می شود. در یک آدرس داینامیک می توان یک صفحه را با چندین پارامتر که از هم به کمک & جدا شده اند، نمایش داد. در آدرس زیر که دو پارامتر دارد موتور جستجوگر راهی برای تشخیص اینکه کدام پارامتر یک صفحه جدید را نشان می دهد و کدام پارامتر تنها برای مقاصدی دیگری از قبیل دسته بندی اطلاعات و … به کار رفته است، ندارد:

www.mysite.com/products.asp?no=20&cat=app

بنابراین یک راه مناسب برای طراحی سایتهایی داینامیک که مشکلات کمتری با موتورهای جستجوگر دارند، کاهش دادن تعداد پارامترهایی است که در آدرسها به کار می روند. راههای دیگر استفاده از صفحات اطلاعاتی، طراحی نسخه ای از صفحات مهم داینامیک به صورت استاتیک، اصلاح کاراکترهای آدرسهای صفحات و حضور در نتایج جستجو به کمک روشهایی مانند PFI یا PPC است.

امروزه مقوله بهینه سازی سایتهای فروشگاهی که عمدتا به صورت داینامیک هستند، بسیار جدی است زیرا اگر این سایتها نتوانند بینندگان قابل ملاحظه ای از موتورهای جستجوگر کسب کنند، فروش آنها به میزان زیادی کاهش می یابد.

در مقالات بعدی روشهای معرفی شده، توضیح داده خواهند شد.

گوگل، PageRank و تولبار آن

آذر ۵م, ۱۳۸۷

پیج رنک روش گوگل برای اندازه‌گیری “اهمیت” صفحات است. زمانیکه تمام فاکتورهای دیگر نظیر درصد تکرار کلمات در عنوان صفحه، درصد تعداد تکرار کلمات در متن صفحه، ارزش مکانی کلمات و … محاسبه شدند، گوگل از‍ پیج رنک برای تنظیم نتایج جستجو، استفاده می‌کند و لذا سایتهایی که مهمتر هستند به رده‌های بالاتر می‌آیند.

نحوه رتبه بندی در گوگل، ‌‌ بدین شرح است :

  • ابتدا تمام صفحات مرتبط با عبارت جستجو شده را در پایگاه داده اش، می‌یابد.
  • صفحات یافته شده را با توجه به پارامترهای موجود در خود صفحات، رتبه بندی می‌کند.
  • پارامترهای صفحات که به لینک‌های ورودی و سایتهای لینک دهنده به آنها مرتبط است را محاسبه می‌کند.
  • سایتها و صفحات را با توجه به دو مرحله قبل رتبه بندی می کند.
  • نتایج جستجوی مرتب شده در مرحله قبل را با توجه به پیج رنک مرتب می‌کند.

PageRank چه مفهومی دارد؟
تئوری گوگل، اینگونه بیان می‌کند: وقتی‌ صفحه A به صفحه B، لینک می دهد، یعنی اینکه از دیدگاه صفحه A ، صفحه B یک صفحه مهم است. پیج رنک همچنین اهمیت لینک‌هایی که به صفحه شده است را لحاظ می کند. اگر صفحه‌هایی که اهمیت بالایی دارند، به صفحه‌ای لینک بدهند؛ آنگاه لینک‌های آن صفحه به صفحات دیگر هم، اهمیت بیشتری می یابند.
گفتنی است که پیج رنک با متن لینک ارتباطی ندارد.

PageRank چگونه محاسبه می گردد؟
زمانیکه گوگل، هنوز یک پروژه دانشگاهی بود، طراحان آن، فرمول اصلی خود را در محاسبه پیج رنک بدین گونه بیان کردند. البته امکان دارد که آنها دیگر از این فرمول استفاده نکنند، اما امروزه هم به اندازه کافی دقیق به نظر میرسد.

PR(A)=(1-d)+d*{PR(T1)/C(T1)+PR(T2)/C(T2)+…+PR(Tn)/C(Tn)}

PR (A)، یعنی پیج رنک صفحه A

d یک فاکتور تضعیف است که معمولا برابر هشتاد و پنج صدم در نظر گرفته میشود. T1, T2,…, Tn صفحاتی‌اند که به صفحه A لینک داده اند. C(T1) نیز تعداد لینک‌هایی است که از صفحه T1، خارج شده است.

برای محاسبه پیج رنک هر صفحه نیاز به دانستن پیج رنک تمام صفحاتی است که به آن لینک داده اند. در مثال زیر نحوه محاسبه پیج رنک، برای تنها چهار صفحه، بررسی می‌شود. صفحات A، B، C و D به صورت نشان داده شده در شکل (۱) به یکدیگر لینک داده اند:


در ابتدا چون پیج رنک هیچ کدام از صفحات، معلوم نیست، همه آنها برابر ۱ فرض می شوند:


با قرار دادن d=0.85، پیج رنک چهار صفحه محاسبه می شود:

PR (A) =1-0.85+0.85{PR(C)/1} = 0.15+0.85{1/1}=1 PR (B) =0.575, PR (C) =2.275, PR (D) =0.15

شکل(۳)، پیج رنکهای جدید را نشان می‌دهد:


این محاسبات نشان می دهد که صفحه C اهمیت بیشتری دارد. اما چون این محاسبات با در نظر گرفتن پیج رنک یکسان برای همه صفحات شروع شده است، چند بار دیگر هم محاسبات تکرار می شود تا پیج رنک واقعی صفحات محاسبه شود. در تکرار دوم پیج رنکها به صورت زیر خواهند بود:

PR (A) = 2.58375, PR (B) = 0.575 PR(C) = 1.19125, PR (D) = 0.15

حال محاسبات، آنقدر تکرار می شود تا اینکه تغییرات در پیج رنک، ناچیز گردد. بعد از ۲۰ تکرار، پیج رنکها به مقادیر زیر می‌رسند:

PR (A) = 1.4901259564, PR (B) = 0.7832552713 PR(C) = 1.5766187723, PR (D) = 0.15

و به این ترتیب پیج رنک تمام صفحات بدست می‌آید.

فیدبک در PageRank
همانطور که صفحه C باعث تقویت پیج رنک صفحه A می گردد، پیج رنک جدید صفحه A هم باعث تقویت پیج رنک صفحه C می گردد. این فیدبک موجود در محاسبه پیج رنک، در کارکرد مناسب آن بسیار موثر است.

چگونه می‌توان PageRank ‌ یک صفحه را دانست؟
برای این کار می‌توان تولبار مخصوص گوگل را از آدرس زیر دان لود کنید:

http://toolbar.google.com

پس از نصب آن، با مراجعه به هر سایت، پیج رنک آن که عددی بین صفر تا ده است، در تولبار نشان داده میشود. البته اگر سایت در فهرست گوگل قرار داشته باشد می توان با مراجعه به محل سایت در فهرست گوگل و مشاهده کدهای HTML صفحه به مقدار دقیقتری از آن که عددی بین صفر تا ۳۰ است، دست یافت.

تولبار گوگل چقدر دقیق است ؟
باید توجه کرد پیج رنکی که گوگل در تولبارش نشان می دهد با آنی که عملا در سیستم رتبه بندی اش از آن استفاده می کند، تفاوت دارد. در حقیقت تولبار گوگل دیر به دیر به روزرسانی می گردد و خود گوگل نیز به این موضوع اعتراف کرده است. لذا مدیران سایتها نباید نگران پیج رنک پایین سایت خود در تولبار گوگل باشند زیرا امکان دارد پیج رنک واقعی سایت آنها بیشتر از مقدار نشان داده شده باشد.

همچنین تولبار گوگل‌ در بیان پیج رنک خیلی دقیق نیست. این تولبار دو محدودیت دارد:

  • تولبار بعضی وقت ها حدس می زند. اگر کاربر، صفحه‌ای را مشاهده کند که در بایگانی گوگل وجود ندارد، اما صفحه‌ای خیلی نزدیک به آن در بایگانی گوگل وجود دارد، تولبار تخمینی از پیج رنک را نشان می‌دهد.
  • تولبار تنها جایگزینی از پیج رنک واقعی را نشان می دهد. در حالیکه پیج رنک خطی است، گوگل از یک گراف غیر خطی برای نشان دادن آن استفاده کرده است. لذا در تولبار تغییر از ‍PR=2 به PR=3 نیاز به افزایش کمتری دارد، نسبت به حالتی که تغییری از PR=3 به PR=4 انجام گیرد.

مثال مقایسه‌ای زیر، این موضوع را بهتر توضیح می دهد( اعداد واقعی نیستند).

اگر PageRank واقعی بین دو عدد زیر باشد. ————– تولبار، عدد زیر را نشان می دهد.

ده به توان منفی هشت و ۵———————- ۱

۶ و ۲۵————————- ۲

۲۶ و ۱۲۵—————- ۳

۱۲۶و ۶۲۵————- ۴

۶۲۶ و ۳۱۲۵———– ۵

۳۱۲۶ و ۱۵۶۲۵———–۶

۱۵۶۲۶ و ۷۸۱۲۵————- ۷

۷۸۱۲۶ و ۳۹۰۶۲۵————— ۸

۳۹۰۶۲۶ و ۱۹۵۳۱۲۵—————– ۹

۱۹۵۳۱۲۶ و بی نهایت——————— ۱۰

گوگل، از یک گراف غیر خطی برای بیان پیج رنک استفاده می‌کند. حرف آخر پیج رنک موضوع بسیار پیچیده‌ای است که غالبا اشتباه فهمیده می شود. در حال حاضر اطلاعات کافی در اختیار نیست تا از همه چیز اطمینان صد در صد حاصل شود. گوگل نیز تنها جایگزینی از پیج رنک را در تولبارش نشان می دهد و در زمان استفاده از آن باید این نکته را به خاطر داشت که تولبار گوگل خیلی دقیق نیست و همچنین دیر به دیر به روز رسانی می شود. اما در هر صورت تنها چیزی است که دیدگاه گوگل را بیان می‌کند. پیج رنک تاثیرش را در پروسه رتبه بندی دارد. این تاثیر به اندازه‌ای که خیلی ها تصور می‌کنند، زیاد نیست. تمرکز بیش از حد بر روی پیج رنک برای بالا بردن رتبه ها در گوگل بی مورد است. در حقیقت سایتهای می توانند با بهینه سازی صفحات و ارایه محتوای مناسب به رتبه های مناسبی دست یابند.

گرفتن لینک از سایتهای دیگر
بسیاری از مدیران به دلیل آشنا نبودن با پیج رنگ گوگل به هنگام لینک گرفتن یا لینک دادن تنها به صفحات دارای پیج رنک بالا فکر می کنند. این تصور اشتباه است، شما اگر مدیر سایتی هستید به محتوای سایتها بیشتر توجه کنید تا پیج رنک آنها. در حقیقت لینک از یک صفحه مرتبط با پیج رنک کم در بالا رفتن رتبه سایتان بسیار موثر است. اگر درخواست لینکی از یک سایت مرتبط اما با پیج رنک کم از شما می شود، آنرا رد نکنید! این لینک به سایت شما همانند یک “بوسه داغ” است!

شیرجه به اقیانوسی به نام اینترنت

آذر ۵م, ۱۳۸۷

هات بات، تیوما، ویویزیمو، یوجیکو، …  اشتباه نکنید! قرار نیست با این کلمات جمله ای ساخته شود. اینها تنها نام برخی از موتورهای جستجوگر است. می توان صدها مورد دیگر را به این لیست اضافه نمود. در حقیقت موتورهای جستجوگر بسیاری وجود دارد اما تقریبا همه کاربران وب، دنیای جستجو و موتورهای جستجوگر را با گوگل و یاهو می شناسند. اما به راستی یک موتور جستجوگر چیست؟

انسان یک موجود اجتماعی است. به عبارت دیگر ما برای زندگی بهتر به دیگران، اطلاعات و تجربه آنها نیازمندیم. در گذشته محدودیتهای زمانی و مکانی امکان استفاده از تجربه و اطلاعات دیگران را برای همه امکان پذیر نمی ساخت اما پدید اینترنت این محدودیتها را برداشته است. اگر در گذشته از نبود اطلاعات رنج می بردیم امروزه با کثرت اطلاعات مواجه هستیم. اینترنت این امکان را به ما داده است که در هر مکان و هر زمانی به اقیانوسی از اطلاعات دسترسی داشته باشیم.

اینترنت این خاصیت را دارد که همه کس با هر سواد و تجربه ای می توانند در آن اطلاعات منتشر کنند. همچنین میلیونها سایت و منبع اطلاعاتی وجود دارد که اطلاعات بسیاری با موضوعات مختلف را منتشر می کنند. اما سوال همواره مطرح این است که در میان این اقیلانوس پهناور، اطلاعات مورد نیاز ما کجاست؟ راه دسترسی به اطلاعات مورد نیاز چیست؟ از میان حجم عظیم اطلاعات، کدامها موثق و قابل استناد هستند؟ آیا می توان به هر اطلاعاتی استناد کرد؟

جستجو زمانی معنا می یابد که به دنبال اطلاعات باشیم. جستجوی کفش ورزشی مورد علاقه، مقاله مورد نیاز، تلفن یک اداره دولتی و … در تمام این موارد اطلاعات، گمشده اصلی ماست.

موتور جستجوگر نیز ابزاری است که به ما کمک می کند، جستجو کنیم. ابزاری است که ما را از به خاطر سپردن آدرس سایتهای بسیار بی نیاز می کند. راههای بسیاری برای جستجوی اطلاعات وجود دارد اما موتور جستجوگر همواره یک گزینه مطمئن دنیای امروز بوده است.

می توان گفت که موتور جستجوگر یک سایت است که به سوالات ما پاسخ می دهد. با مراجعه به یکی از آنها ابتدا می گوییم که چه می خواهیم بعد از آن است که موتور جستجوگر صدها، هزاران و شاید میلیونها پاسخ برای آن به ما ارایه می دهد.

عده ای اینگونه تصور می کنند که موتور جستجوگر برای پاسخ دادن به سوالات ما در همان لحظه تمام اینترنت را می گردد. این تصور درست نیست بلکه موتور جستجوگر برای سرعت دادن به فرایند پاسخ دهی به سوالات کاربران، ابتدا پایگاه داده ای از تمام سایتهای که می شناسد، تشکیل می دهد. سپس برای پاسخ دادن به سوالات از همین پایگاه داده کمک می گیرد.

هر چه این پایگاه داده بزرگتر باشد و اطلاعات آن به روزتر باشد، موتور جستجوگر شانس کسب موفقیت بیشتری دارد زیرا کاربران همواره اطلاعات جدید می خواهند. ارایه اطلاعات سوخته و قدیمی وقت و هزینه کاربر را تلف می کند. بنابراین موتور جستجوگر به طور مداوم اطلاعات پایگاه داده خود را به روز رسانی می نماید، سایتهای مرده را حذف و سایتهای جدید را به آن اضافه می کند.

دقت اطلاعاتی که ارایه می شود و یا پاسخهایی که داده می شود بسیار مهم است. در حقیقت بهتر آن است که بگوییم کاربران اطلاعات تازه و دقیق می خواهند. دقت پاسخهای داده شده مهمترین تفاوت بین موتورهای جستجوگر است چیزی که گوگل با تمرکز بر آن توانسته است از رقبای خود پیشی بگیرد.

موتور جستجوگر نرم افزاری دارد که لحظه به لحظه اطلاعات پایگاه داده اش را افزایش داده، به روز رسانی می کند. به هنگام پاسخ دادن به سوالات نیز موتور جستجوگر با مراجعه به این پایگاه داده پاسخها را می یابد و بهترین پاسخها را در ابتدای نتایج جستجوی خود قرار می دهد.
هر موتور جستجوگر برای تشخیص بهترین پاسخها از الگوریتمی مختص به خود کمک می گیرد. هر چه این الگوریتم بهتر عمل کند، پاسخهای داده شده بهتر خواهند بود و موتور جستجوگر محبوب تر می شود. محبوبیت گوگل نیز ناشی از در اختیار داشتن بهترین الگوریتم در ارایه نتایج جستجو است.

دقت پاسخها، تعداد پاسخها و جدیدتر بودن این پاسخها سه حوزه ای هستند که موتورهای جستجوگر در آن به جنگ یکدیگر می پردازند زیرا می دانند که کاربران دقیقا این سه مورد را می خواهند. این سه مورد پاسخ این سوال هستند که چرا همه موتورهای جستجوگر مانند گوگل و یاهو معروف نمی شوند؟

بیایید اینگونه فرض کنیم که موتور جستجوگر طراحی شده است که دقیقا به سوال کاربر پاسخ می گوید و دقیق ترین و جدیدترین پاسخ را به وی ارایه می دهد. آیا در این صورت همه می توانند به آنچه که می خواهند دست یابند؟
متاسفانه پاسخ منفی است. زیرا رفتار کاربران نیز مهم است. ما اگر نتوانیم به موتور جستجوگر بگوییم که چه می خواهیم، آن نیز نمی تواند پاسخی درست به ما بدهد. “۳۱ روز بعد از اول اسفند” برای گوگل همان “۳۱ روز بعد از اول اسفند” است در حالیکه مقصود من “اول بهار” یا “اول فروردین ماه” بوده است!

آیا با این نوع سوال پرسیدن می توانم به خواسته خود برسم؟ این احتمال وجود دارد که با این روش به اطلاعاتی که می خواهم دست یابم اما مطمئنا به سختی و خیلی دیر به آنها دست خواهم یافت: “آمدی جانم به قربانت ولی حالا چرا …”

آشنایی کاربران با تکنیکهای جستجو به آنها کمک میکند، بهتر و سریعتر به آنچه که می خواهند دست یابند. مقوله دیگری که در جستجوی اطلاعات باید مد نظر قرار داده شود، ارزیابی اطلاعات است. به عبارت دیگر آیا هر چه که در اینترنت وجود دارد، اطلاعات موثق و معتبری می باشد؟ پاسخ منفی است.

توجه به این موضوع بسیار مهم است. ما همواره به دنبال اطلاعاتی هستیم که نیاز ما را برآورده کند. شاید پاسخهای داده شده در یک جستجو، بسیار دقیق و معتبر باشند اما ممکن است فراتر از نیاز کاربر باشد. آیا مقاله ای که برای دانشجویان سال آخر مهندسی برق تنظیم شده است برای یک دانش آموز دوره راهنمایی که به دنبال اطلاعاتی درباره نیروگاه برق می گردد، مفید خواهد بود؟ خیر.

لذا کاربران باید هم با مقوله جستجو در اینترنت و کار با موتورهای جستجوگر آشنا باشند و هم با مقوله ارزیابی اطلاعات.

اطلاعات موجود در اینترنت را می توان از دیدگاه تجاری به سه دسته تقسیم بندی کرد:

الف – اطلاعات رایگان و پیدا
ب – اطلاعات رایگان و ناپیدا
ج – اطلاعات تجاری

موتور جستجوگر هر چقدر هم از پایگاه داده بزرگی برخوردار باشد نمی تواند تمام اطلاعات وب را در خود داشته باشد. ماهیت تجاری بودن بسیاری از سایتها و همینطور محدودیتهای تکنولوژیکی موتور جستجوگر را از دسترسی به تمام اطلاعات وب دور می کند. گفته می شود اگر اطلاعات تمام موتورهای جستجوگر بر روی هم ریخته شود حداکثر ۵۰ درصد وب را شامل می شود.

در حقیقت بخش اعظم وب از دسترسی موتورهای جستجوگر دور است که به آن وب پنهان گفته می شود. بنابراین برای یک جستجوی کامل نیاز به مراجعه به سایر ابزار جستجو نیز داریم. ابزاری نظیر کتابخانه های مجازی و وبهای پنهان.

بسیاری از اطلاعاتی که کاربران به دنبال آن هستند، ماهیت تجاری دارند بنابراین موتورهای جستجوگر هم از دید کاربران و جستجوی اطلاعات و هم از دید دارندگان سایتها مهم است. ممکن است اطلاعات جستجو شده، آخرین آهنگهای یک خواننده معروف و یا قیمت و فروشنده پیراهن تیم فوتبال مورد علاقه کاربر باشد.

سایتها برای بقا در وب به بیننده نیاز دارند، سایتی که بیننده ندارد، وجود نداشته باشد بهتر است. سایتی که بیننده بیشتری دارد از سایت کم بیننده تر، ارزش تجاری بیشتری دارد. آیا ارزش یک فروشگاه پر از خریدار با ارزش فروشگاهی که در انتهای یک کوچه بن بست در محله ای کم جمعیت قرار دارد یکسان است؟

دارندگان سایتها همواره در صدد جذب بیننده بیشتر به سایت خود هستند. هر چه بیننده یک سایت بیشتر باشد شانس آن برای فروش و سود بیشتر، افزایش می یابد.

بازاریابی الکترونیک امروزه روشهای بسیاری را در اختیار مدیران سایتها قرار داده است اما مهمترین روش همواره استفاده تجاری از موتورهای جستجوگر بوده است. وقتی کاربری چیزی را جستجو می کند در بیشتر مواقع بدان معناست که به آن نیاز دارد بنابراین حاضر به پرداخت هزینه برای در اختیار داشتن آن می باشد.

بازاریابی با موتورهای جستجوگر بدین معناست که کاری کنیم تا موتور جستجوگر سایت ما را در رتبه های بالاتر قرار دهد تا شانس مراجعه به سایت ما افزایش یابد. موتور جستجوگر ممکن است میلیونها سایت را در پاسخ به سوال کاربر نمایش دهد اما آیا کاربران تمام این سایتها را بازدید می کنند؟ خیر در اغلب موارد آنها نیاز اطلاعاتی خود را با مراجعه به سایتهای رتبه یک تا ۳۰ برآورده می کنند. بنابراین نیازی به مراجعه به سایتهای دیگر نخواهند داشت.

معنای واضح این رفتار کاربران این است که سایتهایی که رتبه های بالاتر از ۳۰ دارند شانس کمتری برای جذب بیننده بیشتر دارند و چه از این بدتر برای یک مدیر سایت!

تجارت الکترونیک امروزه خود را با رتبه های موتورهای جستجوگر هماهنگ کرده است زیرا مدیران سایتها دریافته اند که کاربران عجول و کم حوصله اند و در اغلب موارد سایتهای رتبه یک تا ۳۰ را بازدید می کنند و از بقیه سایتها صرفنظر می کنند.

موتورهای جستجوگر هر روز مهم تر و مهم تر می شوند. در اهمیت آنها همین بس که گوگل چند سال متوالی به عنوان نام تجاری سال انتخاب شد و بالاتر از نامهایی نظیر کوکاکولا قرار گرفت.

امروزه جنگ موتورهای جستجوگر برای کسب سهم بیشتری از میزان جستجوهای کاربران وارد حوزه های دیگری شده است. در حال حاضر رقابت اصلی میان گوگل، یاهو و MSN است.

دنیای جستجو و موتورهای جستجوگر، دنیای جذابی است. هر روز اخبار بسیاری از فعالیت موتورهای جستجوگر منتشر می شود، سایتهای بسیاری درباره موضوعات مختلف دنیای جستجو، محتوا منتشر می کنند و هر ساله کنفرانسهای متعددی درباره آن برگزار می شود.

موتورهای جستجوگر هر روز هوشمندتر می شوند و ماهیت تجاری بیشتری می یابند. سوالی که شاید خیلی ها می پرسند این است که آیا گوگل نیز رتبه های عادی خود را خواهد فروخت؟ به عبارت دیگر آیا می توان با پرداخت هزینه، جایی در صدر نتایج عادی گوگل داشت؟

از دنیای جستجو بسیار می توان گفت و شنید. دنیای جستجو حتی رقص دارد. شغلهای بسیاری تنها بر اساس جستجو و موتورهای جستجوگر ایجاد شده است. شاید بالا و پایین شده رتبه ها برای ما که فقط اطلاعات می خوایم چندان مهم نباشد اما بد نیست بدانید همین بالا و پایین شدن رتبه ها دغدغه اصلی افراد بسیاری در سراسر دنیاست.

از دیدگاه کاربرانی که از موتورهای جستجوگر برای دسترسی به اطلاعات مورد نیاز استفاده می کنند، مهمترین مقوله های مورد توجه عبارتند از:

  • استفاده از کدام ابزار جستجو
  • تکنیکهای موثر جستجو برای صرفه جویی در وقت و هزینه
  • تحلیل نتایج جستجو
  • ارزیابی اطلاعات بدست آمده

از دیدگاه دارندگان سایتها و تجارت الکترونیک که موتور جستجوگر را ابزار نخست بازاریابی خود می دانند، مقوله های زیر مد نظر است:

  • میزان وابستگی به رتبه ها تا چه میزان
  • رتبه های بالا در کدام موتور جستجوگر
  • رتبه های بالا در موتورهای جستجوگر پولی یا موتورهای جستجوگر رایگان
  • چگونگی کسب رتبه های بالا
  • رتبه های بالا با چه عباراتی
  • تحلیل ترافیک سایت

برخی موضوعات مورد توجه از دیدگاه تکنولوژی های جستجو و موتورهای جستجوگر نیز عبارتند از:

  • کسب درآمد بیشتر
  • طراحی بهترین الگوریتم برای رتبه بندی صفحات
  • راهکاری تشخیص تقلب در رتبه ها از سوی دارندگان سایتها
  • نزدیک تر کردن جستجو به زبان محاوره کاربر
  • فشرده سازی اطلاعات و بزرگتر کردن هر چه بیشتر پایگاه داده
  • طراحی روشهای سریعتر بازیابی اطلاعات
  • جستجوی بهتر در فایلهای صوتی و تصویری

با تمام پیشرفتهای انجام شده، موتورهای جستجوگر هنوز جای کار دارند و محدودیتهای بسیاری دارند. تغییرات مداوم در ذائقه کاربران نیز در مسیر حرکت موتورهای جستجوگر موثر است. بنابراین انتظار ارایه خدمات بهتر و رقابت شدیدتر موتورهای جستجو می رود که در این میان رقبات اصلی میان گوگل، یاهو و MSN است.

وب اطلاعات بسیاری دارد اما موفقیت خود را مدیون موتورهای جستجوگر است. به راستی اگر راهی نبود که بدانیم اطلاعات مورد نیاز ما کجای وب قرار دارد، آیا وب به اندازه امروز، محبوب می شد؟

وب پنهان،اطلاعاتی که موتور جستجوگر بدان راهی ندارد!

آذر ۵م, ۱۳۸۷

واقعیت آن است که چالش عمده ما در حال حاضر، نبود اطلاعات نیست، بلکه دسترسی به اطلاعات مهمتر شده است. آنهم دسترسی به اطلاعات دقیق و معتبر و در زمان مورد نیاز. گفته می شود وب منبع بزرگ اطلاعاتی عصر حاضر است و تقریبا درباره هر موضوعی می توان در آن اطلاعاتی یافت. در آن می توانیم درباره موضوعاتی از “پرورش لاک پشت” تا “طراحی موشک” اطلاعاتی بیابیم. اما کجا؟ به عبارت دیگر در کدام سایت؟

وب راهنمایی دارد که به کاربران برای یافتن اطلاعات کمک کند. سایتهایی وجود دارند که کاربران وب با مراجعه به آنها پاسخ سوالات خود را می یابند. ما اینگونه سایتها را با عنوان “موتورهای جستجوگر” می شناسیم. در حقیقت موتور جستجوگر سایتی است که کاربر وب با مراجعه به آن و نوشتن چند کلمه می تواند هزاران پاسخ برای سوال خود بیابد. علاوه بر مراجعه به موتورهای جستجوگر یکی از راههای دیگر جستجوی اطلاعات، استفاده از “وب پنهان” است. به راستی وب پنهان چیست؟

انواع اطلاعات اطلاعات موجود در اینترنت را می توان به سه دسته زیر تقسیم بندی کرد:

  • اطلاعات رایگان و پیدا
  • اطلاعات رایگان و ناپیدا
  • اطلاعات تجاری

اطلاعات رایگان و پیدا اطلاعاتی هستند که در دسترس همگان قرار داده شده اند و با جستجو در موتورهای جستجوگر می توانیم آنها را بیابیم. موتور جستجوگر هر چقدر هم از پایگاه داده بزرگی برخوردار باشد نمی تواند تمام اطلاعات وب را در خود داشته باشد.

اطلاعات تجاری اطلاعاتی هستند که برای استفاده از آن باید مبلغی پرداخت شود. و در آخر اطلاعات رایگان و ناپیدا اطلاعاتی اند که نمی توانیم از طریق موتورهای جستجوگر به آنها دسترسی داشته باشیم.

وب پنهان چیست؟

در حقیقت بخش اعظم وب از دسترسی موتورهای جستجوگر دور است که به آن وب پنهان گفته می شود. در مقابل می توانید وب نمایان را بخشی از وب بدانید که موتورهای جستجوگر می توانند به آن دسترسی داشته باشند و در نتایج جستجو به مراجعه کنندگان خود نمایش دهند.

پایگاههای داده قابل جستجو
بخش اعظم وب پنهان همین پایگاههای داده هستند. برای استفاده از اطلاعات موجود در آنها ابتدا باید کاربر فرمی را پر کند. چون موتور جستجوگر توانایی انجام این کار را ندارد بنابراین نمی تواند به اطلاعات آن دسترسی داشته باشد. در این پایگاههای داده متناسب با نیاز کاربر صفحه ساخته می شود و با توجه به حجم بالای اطلاعات عملا نمی توان تمام حالتهای مورد نیاز کاربر را شناسایی کرد و از قبل برای آن صفحه ای ساخت. اگر کاربری لینک مستقیمی به یکی از این صفحات تولید شده ایجاد کند آنگاه موتور جستجوگر شاید بتواند به آن اطلاعات دسترسی پیدا کند.

صفحات منفک شده
پاره ای از صفحات نیز به دلایلی از تیررس موتورهای جستجوگر دور نگاه داشته شده اند. سیاست کاری صاحبان سایتهاو ضعف طراحان سایتها مهم ترین این دلایل هستند. فایلهای پنهان، اسناد نیازمند رمز عبور برای خواندن و پایگاههای داده تجاری مواردی (استفاده از اطلاعات به شرط پرداخت حق عضویت در سایت) را می توان در این گروه قرار داد.

آخرین مطالعه آکادمیک صورت گرفته نشان می دهد که وب نمایان ۱۱٫۵ میلیارد سند دارد و موتورهای جستجوگر ۸۵ درصد آنرا می شناسند. این مطالعه همچنین حجم “وب پنهان” را ۵۰۰ میلیارد سند برآورد کرده است. در این مطالعه گوگل با بایگانی کردن ۸٫۱ میلیارد سند رتبه اول را دارد (۶۹٫۶ درصد) و پس از آن یاهو با ۶٫۶ میلیارد صفحه (۵۷٫۴ درصد) در جایگاه دوم قرار گرفته است. با این که مطالعه انجام شده بر اساس تخمینهای بسیار بوده است اما در نوع خود یکی از آخرین تلاشها برای برآورد حجم واقعی وب و میزان پوشش آن توسط موتورهای جستجوگر است.

وب “پنهان” را چگونه “نمایان” کنیم؟

برای استفاده از وب پنهان ابتدا باید آدرس یکی از آنها را به کمک موتورهای جستجوگر بیابید. به عنوان مثال اگر موضوع پزشکی مد نظر شماست، کافیست که در گوگل اینگونه جستجو کنید: پایگاه داده پزشکی یا پایگاه داده علوم پزشکی. در هر صورت کلمه “پایگاه داده”-Database- یک کلمه کلیدی است.

فراموش نکنید که “وب پنهان” به هر حال وجود دارد و صرف کمی وقت برای استفاده از آنها می تواند مکمل مناسبی باشد برای آنچه که از طریق موتورهای جستجوگری نظیر یاهو و گوگل می یابید.برخی از آنها عبارتند از:

  • Librarians Index
  • AcademicInfo
  • Infomine

با استفاده از www.invisible-web.net می توانید موارد بسیار دیگری از وب پنهان متناسب با نیازتان را مشخص کنید.

اینترنت منبع مهمی برای دستیابی به اطلاعات معتبر و موثق است. مهم آن است که کاربر تکنیکهای جستجو و ارزیابی اطلاعات را بداند تا بتواند بهتر و سریعتر به آنچه که می جواهد دست یابد. از سوی دیگر تمام اطلاعات از طریق موتورهای جستجوگر قابل دسترسی نیست.

ماهیت تجاری بسیاری از سایتها و همینطور محدودیتهای تکنولوژیکی موتور جستجوگر را از دسترسی به تمام اطلاعات وب دور می کند. در این مورد کاربر باید بتواند از اطلاعات موجود در “وب پنهان” بهره گیرد.

شباهتهای آفلاین و آنلاین: موتور جستجوگر و شکارچی

آذر ۵م, ۱۳۸۷

مهران در روستایی زیبا نزدیک منطقه حفاظت شده ابیورد واقع در شمال شرقی ایران زندگی می کند. او شکارچی ماهری است و همیشه با گوشت لذیذ شکار از میهمانانش پذیرایی می کند.

تابستان گذشته بدون اطلاع قبلی به او سر زدم. آنجا که رسیدم خیلی خسته بودم و البته گرسنه. درست یکساعت بعد در حالیکه شکمی از عزا درآورده بودم به این فکر می کردم که مهران چگونه به آن سرعت، غذایی خوشمزه از گوشت آهو برایم آماده کرد؟ او که همان لحظه به شکار نرفته بود!

این سوال من را یاد سوال یکی از مشتریانم انداخت که قبلا به من گفته بود: چگونه گوگل در کمتر از یک ثانیه به سوالات ما پاسخ می دهد؟ مگر گوگل می تواند در این مدت کوتاه در تمام وب بگردد؟

چه فانتزی! می توانم رفتار مهران را با رفتار یک موتور جستجوگر مقایسه کنم. این مقایسه برای من که کسب و کاری آنلاین دارم جذاب است. شاید برای شما هم جذاب باشد!

مهران برای شکار، به مجوز نیاز دارد هر چند که می تواند غیر قانونی هم این کار را بکند. او می تواند از راههای بسیاری وارد منطقه حفاظت شده شود. می تواند آهو شکار کند یا کبک یا خرگوش و … . ممکن است شب به شکار برود و یا روز. جالب است بدانید که او گاهی دست خالی و بدون شکار بر می گردد.

موتور جستجوگر نیز می تواند از راههای متفاوتی به یک سایت وارد شود. این راهها همان لینکها هستند. موتور جستجوگر برای خواندن صفحات سایت مجوزهای لازم و محدودیتها را در فایل ROBOTS.TXT بررسی می کند. هر چند که می تواند آن مجوزها را به طور کلی نادیده بگیرد. موتور جستجوگر می تواند انواع فایل را بخواند: فایل DOC، PDF، HTML، PHP و … شب به سایت سر بزند و یا روز. گاهی هم که به سایت سر می زند با دست خالی بر می گردد زیرا سرور سایت جواب نمی دهد و سایت موقتا و یا برای همیشه فعال نیست.

مهران بخشهای زاید شکار را همانجا دور می ریزد و بقیه را باخود به خانه اش می آورد. گوشت را بسته بندی می کند و در فریزر قرار می دهد تا در روزهای آینده از آن استفاده نماید.

موتور جستجوگر نیز بعد از خواندن محتوای سایت بخشهای زاید را دور می ریزد (کلمات بنجل) و بقیه را با خود می آورد، گروه بندی می کند، فشرده سازی می کند و در پایگاه داده اش قرار می دهد تا بعدا از آن استفاده نماید.

مهران اگر لذیذترین گوشت را هم در اختیار داشته باشد اما آشپز خوبی نباشد و نتواند غذای خوبی طبخ کند، برای من که کمی شکمو هستم، اوضاع نگران کننده است و او آشپز محبوب من نخواهد بود.

موتور جستجوگر هم اگر بهترین اطلاعات را در اختیار داشته باشد اما نتواند پاسخهای خوبی به سوالات کاربران بدهد، موتور جستجوی محبوب کاربران وب (گرسنگان اطلاعات) نخواهد بود.

برداشتهای فنی:

  • سایت شما نباید منطقه حفاظت شده باشد.
    از سایتهای دیگر بخواهید که به شما لینک کنند. ساختار سایت را به گونه ای طراحی و تدوین کنید که موتور جستجوگر به راحتی بتواند به بخشهای مختلف آن سر بزند. اگر شکارچی سرخود راهی “شرق” نمی شود تا منطقه ای حفاظت شده در آن سو بیابد موتور جستجوگر نیز تا راهی (لینکی) به سایت شما نداشته باشد روانه آن نمی شود.
  • مجوز لازم را به موتور جستجوگر بدهید.
    سایت طراحی شده است که اطلاعاتی عرضه کند بنابراین ضرورتی ندارد دسترسی به آنها را محدود کنید. پس با دقت فایل robots.txt سایت خود را تهیه کنید. حتی اگر سایت شما محدودیتی ندارد این فایل را تهیه کنید و در سایت خود قرار دهید. حالا سایت شما حرفه ای تر است چون برای خود قانون دارد!
  • در انتخاب میزبان وب سایت خود دقت کنید.
    وب سایت شما باید همواره در دسترس باشد تا موتور جستجوگر بتواند با مراجعه به آن فایلهای مختلف را شکار کند.
  • راه ورود به سایت شما تنها صفحه اول آن نیست!
    اشتباه بسیاری از مدیران این است که تمام لینکها را به صفحه اول سایت خود ارجاع می دهند. اگر از سایتهای دیگر لینک درخواست می کنید به صفحات داخلی سایتتان نیز لینک کنید. صفحه اول سایتها معمولا محتوای کمی دارد و شانس کسب رتبه بالا را کاهش می دهد.
  • هر موتور جستجوگری مهم نیست.
    وقت خود را با تمرکز بر روی موتورهای جستجوگر غیر مهم تلف نکنید. آنها هیچ ارزشی برای سایتان ندارند زیرا ترافیک ناشی از آنها در عمل برابر صفر است. گوگل، یاهو، MSN و ASK در اغلب موارد کافی اند. من نیز این قانون را رعایت می کنم و به کار مهران ایمان دارم و سراغ شکارچی دیگری نمی روم.

های مهدی! امروز تو هم باید با من بیایی. با این صدا بود که من از دغدغه های ذهنی ام خارج شدم. وب و گوگل را فراموش کردم. دنیای مهران هم می تواند جذاب باشد هر چند که او اصلا نمی داند گوگل چیست!

Google Sitemap – گوگل سایت مپ

آذر ۵م, ۱۳۸۷

موتورهای جستجوگر از جمله گوگل از نرم افزاری به نام عنکبوت برای جمع آوری اطلاعات وب استفاده می کنند. آنها به محض اینکه سایتی را پیدا کردند، متن صفحات را می خوانند و لینکها را دنبال می کنند. همه مدیران سایتها تلاش می کنند تا میزان مراجعه عنکبوت به سایت و زمان حضور آن در سایت خود را افزایش دهند.

با بکارگیری تکنیکی که در زیر معرفی شده است شما می توانید با عنکبوت گوگل مهربان تر باشید تا شانس حضور موثرتر سایتتان در نتایج جستجوی گوگل افزایش یابد. برای این کار شما فایلی با نام sitemap.xml می سازید و در روت سایت خود قرار می دهید.

سایت مپ سایت ایران سئو ( www.iranseo.com/sitemap.xml ) در زیر آمده است:

<?xml version=”1.0″ encoding=”utf-8″ ?>
- <urlset xmlns=”http://www.google.com/schemas/sitemap/0.84“>
- <url>
<loc>http://www.iranseo.com/index.php</loc>
<changefreq>always</changefreq>
<priority>1.0</priority>
</url>
- <url>
<loc>http://www.iranseo.com/rouseoblog/index.php</loc>
<changefreq>weekly</changefreq>
<priority>1.0</priority>
</url>
- <url>
<loc>http://www.iranseo.com/articles/index.php</loc>
<changefreq>weekly</changefreq>
<priority>1.0</priority>
</url>
</urlset>

  • <loc> و </loc> آدرس صفحه را مشخص می کنند.
  • <changefreq> و </changefreq> دوره به روزرسانی شدن محتوای صفحه را مشخص می کنند. شما می توانید ازalways, hourly, daily, weekly, monthly, yearly, never برای این تگ استفاده کنید.
  • <priority> و </priority> میزان اهمیت هر صفحه در مقایسه با کل صفحات سایت را نشان می دهد که عددی بین صفر و یک است. سعی نکنید به همه عدد یک داده شود. برای سایت ایران سئو تنها برای سه صفحه عدد یک در نظر گرفته ام. در هر صورت به خاطر داشته باشید که اهمیت همه صفحات سایت شما یکسان نیست و برخی مهمترند!
  • استفاده از تگهای <loc> و <urlset> و <url> و اجباری است و بقیه تگها اختیاری می باشند.دقت کنید که تنها موارد مهم در این مقاله ذکر شده است تا از پیچیدگی مطلب کاسته شود.

آدرس چند نمونه دیگر که خیلی ساده آنها را تنظیم کرده ام را می توانید در آدرسهای زیر ملاحظه نمایید:

www.irpedia.com/sitemap.xml

www.persianblog.com/sitemap.xml

برای کسب اطلاعات بیشتر حتما به آدرس زیر مراجعه نمایید:

https://www.google.com/webmasters/sitemaps/docs/en/about.html

بعد از آنکه سایت مپ سایت شما آماده شد و بر روی سرور سایتتان قرار دادید با مراجعه به آدرس زیر و عضویت در گوگل سایت مپ می توانید سایت مپ (های) خود را به گوگل معرفی کنید. گوگل مراجعه به آنها و وضعیت هر یک را بعد به شما نشان خواهد داد.

https://www.google.com/webmasters/sitemaps/login