کمک...
خلاصه ماجرا:
محتوای فارسی که در وب قرار گرفته است با کدپیج متفاوتی از حروف "ی" و ک" منتشر شده است. عدهای با حروف "ک" و "ی" و عدهای هم با حروف "ک" و "ی" (کاف همزه دار و ی نقطهدار) مطالب خود را نوشتهاند.
این روش باعث شده است در هنگام جستجوی محتوای فارسی در بسیاری از مواقع نتایج مطلوب به دست نیاید.
راه حل آن مشکل ارسال نامه و فهماندن موتورهای جستجوگر به این موضوع است که در هنگام جستجو فرقی بین حرف "ک" و "ک" و "ی" و "ی" نگذارد. کما این که در حروف لاتین نیز چنین مسألهای وجود داشته و رفع گردیده است.
این مطالب به صورت مفصل به موضوع پرداخته و سعی دارد جهت انعکاس نظر فارسینویس به موتورهای جستجوگر به خصوص گوگل راه حلی پیدا کند.
پیش از بیان اختلاف چند نکته را در این زمینه یادآوری میکنم:
1- پایه فارسیسازی ویندوز 98 ویندوزهای عربی بود. به همین دلیل حروف فارسی به کار برده شده در ویندوزهای فارسی 98 همان حروف عربی به علاوه حروف گچپژ بود. به اضافه این که layout کیبورد عربی نیز به فارسی تغییر کرده بود.
2- فارسینویسی ویندوز 2000 به بعد بر مبنای فارسیسازی قرار گرفت که مایکروسافت به صورت پیشفرض در ویندوز قرار داده بود. مایکروسافت برای فارسی نویس علاوه بر حروف عربی، علاوه بر حروف گچپژ حروف دیگری نظیر " ک" و "ی" برای استاندارد فارسی خود اضافه کرد. تفاوت این دو حروف آخر در شکل ظاهری آنها بود. در عربی "ک" و "ی" و در فارسی " ک" و "ی".
3- همچنین تفاوتهایی هم در layout فارسیسازهای ویندوز 2000 و xp وجود دارد. نظیر تایپ حرف “” به برای "پ" و shift-c برای "ژ". در حالی که صحیح آن برای حرف "پ" کلید “~” و برای حرف "ژ" کلید “” است. هنگام تایپ کلید D در صفحه کلید حرف "ی" تایپ میشد، ولی با وجود آن با زدن کلید ترکیبی Shif-x حرف "ی" نیز تایپ میشد. محل قرار گیری حرف نیم فاصله به shift-2 تغییر کرده بود. (نیم فاصله همان کاراکتری است که باید بین "می" و "شود" قرار بگیرد تا بدون آن که فاصلهای بین این دو کلمه نباشد در عین حال به همدیگر هم نچسبد.
کلمه همراه با فاصله: "می شود"
بدون فاصله: "میشود"
با نیمفاصله: "میشود"
در حالی که در حالت استاندارد قدیمی فارسی shift-space کار نیمفاصله را انجام میداد.
برای حروف "،" "؛" و «»، فتحه، کسره، ضمه، تنوینها و خط کشیده "ـ" هم همین تفاوت به وجود آمد.
مشکلاتی که این تفاوت ایجاد میکرد:
1- املای متفاوت حروف.
در واقع هر مطلبی که با ویندوز 98 تایپ میشد با املای حرف "ک" و "ی" نوشته میشد (کاف همزه دار و ی نقطهدار) و در ویندوز 2000 و xp با "ک" و"ی". در این حالت مطلبی که در ویندوز xp تایپ شود اگر در ویندوز 98 مشاهده شود، یا این که آن مطلب در وب قرار گیرد، حرف "ک" دیده نمیشود و به جای آن علامه ؟ نمایش داده میشود و حرف "ی" هم به صورت حرف جداگانه نمایش داده میشود. مثلا: "ویندوز"
همچنین بسیاری از فونتهای استاندارد فارسی که در نشر فارسی نظیر روزنامهها و کتابها به کار میرود این حروف جدید را پشتیبانی نمیکنند و یا با حروف بزرگ نشان میدهند.
2- به دلیل این که اکثر روزنامههای فارسی زبان که بر روی اینترنت منتشر میشود با سیستم استاندارد قدیمی فارسی مطالب خود را نوشته و منتشر میکنند به همین دلیل مطالب منتشر شده آنها در سایتهای اینترنتی هم به همین صورت قرار میگیرد. همچنین اکثر خبرگزاریهای فارسی زبان جهت رفع مشکلات layout صفحهکلید فارسی (نظیر محل قرارگیری صحیح حروف پ، ژ و نیمفاصله، کاما، گیومه و... layout قدیمی را جایگزین layout جدید کرده و مطالب منتشر شده آنها با همان استاندارد قدیمی فارسی است.
این کار باعث شده است حجم عظیمی از محتوای فارسی با سیستم قدیمی بر روی وب قرار گرفته و در حال قرار گرفتن است.
درحالی که اکثر وبلاگنویسان و یا کاربران عادی اینترنت از سیستم جدید فارسی در ویندوز xp استفاده میکنند.
مشکلی که در این حالت با آن مواجه میشویم جستجوی محتوای فارسی است.
تفاوت در جستجوی مطالب فارسی
تصور کنید یک مطلب با سیستم قدیمی فونت فارسی نوشته شده و در اینترنت قرار گیرد و شما با سیستم جدید در آن بخواهید چیزی را جستجو کنید.
تفاوت در جستجو هنگامی به وجود میآید که به عنوان مثال در سایت مورد جستجو حروف کاف و ی عربی نوشته شده باشد (ک ی) و شما با ویندوز xp خود با حروف "ک" و "ی" جستجو کنید.
در این حالت نتایج جستجو به هیچ وجه مطابق میل شما نخواهد بود. در واقع جستجوگرهای اینترنتی بین این دو حروف تفاوت قائل میشوند.
به همین دلیل جستجو با حروف مختلف نتایج کاملا متفاوتی را در بر دارد.
مثالهایی در این زمینه:
جستجو عبارت "کلمه فارسی" با حروف "ک" و "ی"
نتیجه جستجو 33600 یافته
جستجوی عبارت "کلمه فارسی" با حروف "ک" و "ی"
نتیجه جستجو 339 یافته
در واقع کسانی که از ویندوز xp استفاده میکنند در صورتی که دنبال عبارت "کلمه فارسی" باشند از پیدا کردن 33600 یافته محروم خواهند شد.
و تصور کنید این جستجو شامل عبارت بیشتر یا جملهای باشد و مطمئناً در بسیاری از موارد کاربر جستجوگر را نتایجی غیر مطلوب وی خواهد رساند.
به دلیل آن که اکثر مطالب مستند، رسانهای و مقالات و پژوهشها توسط رسانهها و سایتهایی گردآوری شده است که با استفاده از سیستمهای استاندارد قدیمی فارسی گردآوری شده و در وب منتشر شدهاند یک محقق به جای آن به به این مطالب در جستجو دسترسی پیدا کند جستجویش به وبلاگهایی منتهی میشود که در بسیاری از موارد ممکن است مطالب مفید برای آن پژوهشگر را در بر نداشته باشد. چرا که اکثر وبلاگنویسان با استفاده از سیستم جدید فارسی مینویسند.
تاییدی بر این حرف مثال زیر است:
جستجوی عبارت "وبلاگ فارسی" با حرف "ی" (عربی)
نتیجه 65700 یافته
جستجوی عبارت "وبلاگ فارسی" با حرف "ی" (ی بدون نقطه)
نتیجه جستجو 276000 یافته
نگاهی به نتیجه جستجو نشان میدهد که عبارت "وبلاگ فارسی" که معمولا توسط وبلاگنویسان در وبلاگشان به کار میرود اگر با حروف "ی" (بدون نقطه) جستجو شود اختلافی دویست و هفتاد هزارتایی دارد.
راه حل مشکل:
باید توجه داشت این مشکل اختلاف کاراکترها فقط در بین فارسی و عربی وجود ندارد. بلکه زبانهای اروپایی هرکدام دارای کاراکترهای متفاوت هستند و در ضمن در انگلیسی حروف بزرگ و کوچک با هم تفاوت ماهیتی در کاراکتر دارند.
اما موتورهای جستجوگر و مهمتر از همه آنها گوگل (که در بین فارسینویسان جزء محبوبترین است) این نکات را در نظر داشته و مشکل پیش رو در این زمینه را حل کرده است. گوگل بین حروف بزرگ و کوچک تفاوتی قائل نیست. و همین طور بین حروفی نظیر ö و é و à با o و e و a که در دیگر زبانهای اروپایی استفاده میشود تفاوتی قائل نیست. در واقع اگر شما دنبال عبارت "googlé" در سایت گوگل بگردید علاوه برای پیدا کردن سایتهایی که عبارت googlé در آنها وجود دارد عبارت google را هم جستجو میکند. (میتوانید امتحان کنید.)
پس در این زمینه بهترین راهحل برای گذر از چنین مشکلی پیشنهاد میشود موتورهای جستجوگر نظیر گوگل این موارد را در هنگام جستجوی فارسی در نظر بگیرد و هنگام جستجو تفاوتی بین حروف "ک" و "ک" و یا "ی" و "ی" قائل نشوند.
برای انتقال این بحث به سایتهایی نظیر گوگل چه پیشنهادی میکنید؟
لطفا نظرات خودتان را راجع به این مطلب بنویسید و در صورتی که پیشنهادی در زمینه دارید مشتاق خواندن آنها هستم.
قکر می کنم شما هم نسبت به محتوای فارسی دغدغه دارید اگر لطف کنید در تکمیل و گسترش ایده زیر کمک کنید کمک بزرگی به همه فارسی زبان ها کرده اید:
راه فوق العاده ساده، ارزان، موثر و سریع برای تولید محتوای فارسی در اینترنت، انتشار صدها کتاب و مقاله ای است که توسط سازمان های دولتی طی سالیان گذشته منتشر شده اند. اگر فقط آرشیو نشریات و کتابهایی که دانشگاه و سایر سازمان های دولتی قصد چاپ شان را ندارند روی شبکه قرار بگیرد حجم محتوای ارزشمند فارسی چند برابر خواهد شد.
انتشار مقالات پذیرفته شده در سمینارها، همایشها و جشنوارههای برگزار شده توسط سازمانهای دولتی، همین طور مقالات منتشر شده در نشریات علمی دانشگاهها و موسسات تحقیقاتی دولتی و نیز انتشار اینترنتی کتابهایی که به هر دلیل چاپ کاغذی آنها به صرفه نیست تاثیر فوق العاده ای بر روی حجم و کیفیت محتوای فارسی اینترنت خواهد گذاشت.