پروژه نگاشت اسامی به پایگاه داده افراد

نگاشت اسامی داخل متن به پایگاه داده افراد شناخته شده

یا

پروژه نگاشت اسامی به پایگاه داده افراد سی شارپ

 جزئیات پیاده سازی برای تکرارپذیری آزمایش

در این پروژه جهت یافتن اسم ها، از یک دیتابیس اختصاصی استفاده می کند، این دیتابیس از نوع XML می باشد که نیاز است کنار فایل اصلی پروژه وجود داشته باشد.

جهت به دست آوردن دیتابیسی جامع از اسم های افراد معروف، لیست بازیگران، ورزشکاران، سیاستمداران، روحانیون، دانشمندان، هنرمندان، نقاشان، نویسندگان و… از ویکی پدیا جستجو شد و در یک فایل Excel اضافه شد، سپس با استفاده از توابع Excel نام و نام خانوادگی افراد از هم جدا شد. سپس دیتاهای  تکراری حذف شد.

بعد از کانورت اطلاعات به صورت مناسب و در قالب فایل XML  دیتابیس آماده است.

نرم افزار NLP_Project جهت نگاشت اسامی داخل متن به افراد شناخته شده، در محیط ویژوال استودیو ۲۰۱۳ با .net 4.5 ایجاد گردید. تصویر زیر محیط اصلی نرم افزار را نشان می دهد:

نگاشت اسامی پایگاه داده NLP

روش کار نرم افزار:

متن مورد نظر را در کادر بالا وارد کرده  و دکمه “جستجو با Wikipedia API ” را کلیک می کنیم، برنامه همه کلمه های جمله را بررسی کرده و با نام های دیتابیس XML  مقایسه می کند، در صورتی که کلمه مورد نظر در فایل XML وجود داشته باشد، برنامه به وب سرویس Wikipedia API متصل شده و نتایج مربوطه به کلمه را استخراج می کند، این نتایج عبارتند از عنوان، توضیح مختصری در مورد نام و لینک مطلب موجود در ویکی پدیا.

برای نمونه کلمه “هاشمی” در متن ذیل وجود دارد:

“رئیس جمهور های ایران به ترتیب ابوالحسن بنی صدر ، محمد علی رجایی ، سید علی خامنه ای ، اکبر هاشمی رفسنجانی ، سید محمد خاتمی ، محمود احمدی نژاد و حسن روحانی می باشند. ”

متن فوق را به صورت ذیل به برنامه داده و نتیجه را مشاهده می کنیم (کامپیوتر باید به اینترنت متصل باشد)

همانطور که در تصویر فوق مشخص است، برنامه، همه اسم های متن را در یک کنترل TreeView اضافه کرده و پیغام “انجام شد” را به کاربر نمایش می دهد، بعد از تایید کردن پیغام، گره کلمه “هاشمی” را باز می کنیم:

همانطور که مشخص است، برنامه افراد معروفی که در ویکی پدیا وجود دارند و به کلمه “هاشمی” مربوط هستند را لیست می کند، لینک ارائه می دهد و توضیحی مختصر در مورد کلمه ارائه می دهد، برای نمایش جزئیات کامل می توانیم روی هر کدام از رکوردها کلیک کنیم:

برنامه به صورت اتوماتیک متن را انتخاب کرده و آماده کپی می کند، در صورتی که روی لینک کلیک کنیم به صورت زیر می توانیم، URL را کپی کنیم:

متن URL ارائه شده:

https://fa.wikipedia.org/wiki/%D8%A7%DA%A9%D8%A8%D8%B1_%D9%87%D8%A7%D8%B4%D9%85%DB%8C_%D8%B1%D9%81%D8%B3%D9%86%D8%AC%D8%A7%D9%86%DB%8C

آدرس فوق به دلیل داشتن کاراکتر های فارسی به صورت Url Encode نمایش داده شده است، لینک فوق را در مرورگر باز می کنیم:

مرور

هنوز مروری وجود ندارد