اخبار نظرات با یادگیری ماشین در Google یافت می شود
اخبار نظرات در برترین داستان ها
در اوایل سال جاری ، من یک پست در مورد داستان های خبری نوشتم که در چرخ فلک در نشان داده شده است داستانهای برتر Google براساس امتیازات مهم انتخاب می شوند
حق ثبت اختراعی که در آن پست نوشتم به ما گفت که ممکن است Google سعی کند نظرات مربوط به موضوعاتی را که به عنوان داستان های برتر شناخته می شوند نشان دهد ، اما چیز زیادی در مورد آن نظرات به ما نمی گفت. حق ثبت اختراعی که به نظر می رسد مربوط به شناسایی نظرات در اسنادی است که ممکن است مقالات خبری باشند و براساس برخی از معیارهای مهم می توانند رتبه بندی شوند.
اختراع ثبت شده در اوایل این ماه به ما می گوید که چگونه Google ممکن است از یادگیری ماشینی برای شناسایی نظرات در اسناد در وب استفاده کند.
با جزئیات بیشتر ، این حق ثبت اختراع در مورد سیستم ها و روش هایی است که برای طبقه بندی بخشهایی از اسناد به عنوان نظر یا عقیده ، از یک یا چند مدل یادگیری ماشین استفاده می کند. بنابراین می توان بخشهایی را که به عنوان نظر طبقه بندی می شوند ، در یک صفحه نمایش اطلاعاتی در نظر گرفت.
توضیحات مربوط به حق ثبت اختراع با بیان اینکه “درک مطلب (مثلاً محتوای متنی) موجود در یک سند توسط یک سیستم محاسباتی یک مشکل چالش برانگیز است” آغاز می شود.
این مقاله اشاره می کند که این امر به ویژه در فضای روزنامه نگاری حرفه ای خبر ، که دارای مقالاتی است که به طور معمول با زبان و نحو با کیفیت بالا نوشته می شوند ، صادق است. و اینکه سیستم های محاسباتی فقط در درک کمی از محتوای واقعی آن مقالات خبری مشکل دارند. بنابراین این حق ثبت اختراع جدید به ما می گوید که روی اطلاعات خبری متمرکز است.
همچنین به ما در مورد دشواری در تعیین چگونگی مقایسه یک مقاله با سایر مطالب می گوید ، و اینکه مقاله های مرتبط مرتبط با اخبار دیگر روزنامه نگاران یک کار چالش برانگیزتر است. حق ثبت اختراع برتر واقعاً به ما نمی گفت که چگونه ممکن است یک مقاله را به جای مقاله دیگری برای نمایش در چرخ فلک انتخاب کند ، بنابراین دیدن این موارد خوب است.
به ما گفته شده است که سیستم های تولیدی که می توانند اسنادی (به عنوان مثال ، مقالات خبری) را برای جستجوگران انتخاب و تهیه کنند ، تقریباً منحصراً بر اساس سیگنال های محتوای کم عمق (مانند اصطلاحات برجسته و اشخاص مختلف و غیره) و / یا فراداده (مثلاً چقدر مهم است ناشر است ، هنگامی که محتوا منتشر شد (به عنوان مثال ، نسبت به سایر مقالات) ، منابع (به عنوان مثال ، پیوندها) بین مقالات ، و غیره).
این حق ثبت اختراع چندین مشکل را شناسایی می کند و به ما می گوید که چنین سیستم های تولیدی معمولاً به درک دقیق محتوای واقعی خود مقاله متکی نیستند.
راه حلی که به ما گفته شده شامل بسیاری از زمینه های تحقیقاتی است که مربوط به درک رایانه ای محتوای اسناد است و در زمینه تلاش برای شناسایی ذهنیت برای شناسایی متن ذهنی کار می کند.
در این نوع تکنیک های تشخیص ذهنیت اغلب از یک فرهنگ لغت یا یک مدل آموزش دیده با استفاده از فرهنگ لغت استفاده می شود و متأسفانه استفاده از چنین واژه نامه ای می تواند ذاتاً محدود کننده باشد.
همچنین به ما گفته شده است که ذهنیت به خودی خود آموزنده نیست. به عنوان مثال ، “این عالی است!” یک جمله ذهنی است ، اما به خودی خود ، بسیار آموزنده نیست.
با تجزیه و تحلیل احساسات سعی می شود احساسات (به عنوان مثال مثبت ، منفی یا خنثی) متن یا احساسات مربوط به برخی جنبه ها / موضوع ها / موجودیت های خاص (به عنوان مثال دیدگاه مثبت یا منفی در مورد یک معاهده بین المللی) که ممکن است در مورد آن باشد ، را جلب کند.
اما ، به ما گفته شده است که تجزیه و تحلیل احساسات در سطح جمله هیچ درکی از آنچه که متن در واقع می گوید فراهم نمی کند.
و آن تجزیه و تحلیل احساسات در سطح جنبه / موضوع / موجودیت می تواند بصیرت بیشتری داشته باشد ، اما محدودیت هایی دارد:
این جنبه / موضوع / موجودیت باید در برخی دانش ها وجود داشته باشد و تعیین نحوه ارتباط دو جنبه / موضوع / موجودیت با یکدیگر دشوار است.
همچنین ، کار در زمینه مربوط به تشخیص موضع معمولاً در مورد یافتن یک موضوع خاص برای یا مخالف آن است (مانند یک اقدام قانونی پیشنهادی).
با این حال ، سیستم های بدست آمده فقط برای مباحثی که در آنها آموزش دیده اند کار می کنند و می توانند کاربرد محدودی در مباحث جدید یا در حال توسعه داشته باشند.
این حق ثبت اختراع سعی در ارائه راه حلی در برابر همه این مشکلات دارد.
این کار با یک مدل طبقه بندی نظر یاد گرفته شده توسط ماشین شروع می شود که برای طبقه بندی بخشهایی از اسناد یا به عنوان نظر یا نظر تنظیم شده است.
پس از آن دسته بندی انجام می شود ، چندین عملیات انجام می شود.
اولین قدم ممکن است شامل بدست آوردن اطلاعات توصیفی یک سند باشد که شامل یک یا چند قسمت است.
سپس حداقل بخشی از سند را در یک مدل طبقه بندی نظر یاد گرفته شده توسط ماشین وارد کنید.
پس از دریافت ، به عنوان یک خروجی از مدل طبقه بندی نظر یاد گرفته شده توسط ماشین ، یک طبقه بندی از آن قسمت از سند به عنوان نظر یا عدم نظر است.
این حق ثبت اختراع را می توان در:
یادگیری ماشینی برای شناسایی نظرات در اسناد
مخترعین: بوریس داداچف و کیشوره پاپیننی
واگذار کننده: Google LLC
حق ثبت اختراع ایالات متحده: ۱۰،۸۳۲،۰۰۱
اعطا شده است: ۱۰ نوامبر ۲۰۲۰
بایگانی شده: ۲۶ آوریل ۲۰۱۸
چکیده
جنبه های نمونه ای از افشای فعلی به سیستم ها و روش هایی هدایت می شود که برای طبقه بندی بخشهایی (به عنوان مثال ، جملات ، عبارات ، پاراگراف ها و غیره) اسناد (به عنوان مثال ، مقالات خبری ، صفحات وب و غیره) از یک مدل طبقه بندی نظرات یاد گرفته شده توسط ماشین استفاده می کنند. به عنوان نظرات یا عقاید بودن بعلاوه ، در برخی از پیاده سازی ها ، بخشهایی را که به عنوان نظر طبقه بندی شده اند می توان برای درج در یک صفحه نمایش اطلاعاتی در نظر گرفت. به عنوان مثال ، بخش های سند را می توان با توجه به اهمیت رتبه بندی و برای درج در یک صفحه نمایش اطلاعاتی بر اساس رتبه بندی آنها انتخاب کرد. بعلاوه یا برای سیستمهایی که به چندین اسناد دسترسی دارند و آنها را در نظر می گیرند ، بخشهای یک سند را که به عنوان نظر طبقه بندی می شوند ، می توان برای انجام خوشه بندی اسناد ، برای اطمینان از تنوع در یک ارائه و یا سایر وظایف ، با بخشهای طبقه بندی شده مشابه سایر اسناد مقایسه کرد.
نحوه شناسایی نظرات در اسناد
این حق ثبت اختراع در مورد سیستم ها و روش های استفاده از یک مدل طبقه بندی نظرات یاد گرفته شده ماشینی است که برای طبقه بندی بخشهایی مانند جملات ، عبارات ، پاراگراف ها و غیره مقاله های خبری ، صفحات وب و سایر اسناد ، به عنوان نظرات یا عقاید نیست.
بخشهایی که به عنوان نظر طبقه بندی شده اند ممکن است در یک صفحه نمایش اطلاعاتی گنجانده شوند.
بخشهای سند ممکن است با توجه به اهمیت رتبه بندی شوند و سپس براساس رتبه بندی آنها برای درج انتخاب شوند.
حق ثبت اختراع به ما می گوید که هنگام بررسی چندین اسناد ، بخشهایی از اسناد را که به عنوان نظر طبقه بندی می شوند ، می توان برای انجام خوشه بندی اسناد ، با بخشهای طبقه بندی شده مشابه سایر اسناد مقایسه کرد و این امر به اطمینان از تنوع در ارائه و سایر وظایف کمک می کند.
طبقه بندی نظر و اهمیت
بنابراین این سیستم محاسباتی دو جز components اصلی دارد:
- یک مدل طبقه بندی نظرات ماشینی ، که بخشهایی از یک سند را بدست می آورد و آنها را به عنوان نظرات یا نظرات طبقه بندی نمی کند
- یک الگوریتم جمع بندی ، که بخش هایی از یک سند را با توجه به رویکرد اهمیت بخشی (و همچنین احتمالاً سایر معیارهای مثال مانند توانایی ایستادن به تنهایی و بدون زمینه دیگر) رتبه بندی می کند
نحوه نمایش نظرات در نتایج جستجو
این دو م mayلفه ممکن است برای نشان دادن یک سند به جستجوگر که هم مهم است و هم دارای نظر است ، استفاده شود.
به عنوان مثال نمایش یک اسناد با شناسایی برخی اسناد ، با یک خلاصه یا “قطعه” برای هر یک ، که در آن هر قطعه از بخشی از سند طبقه بندی شده به عنوان نظر گرفته شده و یا دارای اهمیت بالایی است.
این قطعه می تواند هنگام ارائه نتایج جستجو در پاسخ به یک س ،ال ، به عنوان بخشی از ویژگی “داستان های برتر” یا “آنچه باید بعد بخوانید” برای یک برنامه جمع آوری / ارائه اخبار یا سایر سناریوها ، که می تواند شامل ارائه چندین مقاله مختلف خبری که مربوط به همان داستان “اخبار” اصلی است.
این حق ثبت اختراع برای ایجاد خلاصه های بهتر یا “قطعه هایی” از اسناد مانند مقاله های خبری برای کاربر از یادگیری ماشینی استفاده می کند.
جستجوگر می تواند با تهیه قطعه هایی که بهتر محتوای واقعی را منعکس می کند ، به جای حقایق عمومی یا نقل قول ها ، ماهیت واقعی سند را درک کند و تصمیم بگیرد که آیا علاقه مند است که سند را به طور کامل بخواند یا خیر.
یک جستجوگر می تواند اسنادی را که ممکن است علاقه ای به خواندن آنها نداشته باشد بارگیری و بخواند.
با شناسایی و مقایسه بخشهایی از اسناد که به عنوان محتوای واقعی تفکر طبقه بندی شده اند ، می توان نمایشگرهای اطلاعاتی را با در نظر گرفتن محتوای واقعی اسناد با تنوع ، ساختار و سایر ویژگی های بهبود یافته ارائه داد.
جستجوگر می تواند از خواندن مقاله هایی با نظرات زائد اجتناب کند.
و نظرات ، همانطور که در سرمقاله ها ، “توضیحات” ، تفسیرها و نظایر آن دیده می شود ، نقشی اساسی در اکوسیستم روزنامه نگاری خبر دارند.
آنها به تیم های تحریریه ، کارشناسان خارج از کشور و صداهای شهروندان عادی فرصتی می دهند تا در بحث عمومی در مورد یک موضوع یا رویداد شرکت کنند.
این می تواند به عموم مردم کمک کند تا جنبه های مختلف داستان را ببینند و حباب های فیلتر را بشکنند.
یک نظر می تواند شامل یک دیدگاه یا نتیجه گیری باشد که نویسنده یک سند صریحاً در آن سند می نویسد.
گاهی اوقات ، نظرات یا بخشهای نظر یافته یک سند را می توان به صراحت کمتر به این ترتیب شناخت.
به عنوان مثال ، یک سوال بلاغی بسته به نحوه بیان آن ، مانند کنایه ، می تواند نوعی نظر باشد.
به عنوان مثال دیگر ، خلاصه ای از واقعیت ها می تواند یک نظر باشد یا یک نظر را نشان دهد که بسته به آن:
- بخشهایی از حقایق کلی انتخاب می شوند
- ترتیب ارائه آن واقعیت ها
- عبارت بینابینی
- عوامل دیگر
این نمایش اطلاعات چگونه خواهد بود و چگونه به آنجا خواهیم رسید؟
حق ثبت اختراع به ما می گوید تعیین اینکه بخشی از یک سند نظر است یک کار چالش برانگیز است و به درک دقیق ارتباطات انسانی نیاز دارد.
سیستم رایانه ای جمع آوری و ارائه مقالات خبری به جستجوگر ممکن است یک مقاله خاص را شامل شود یا نشان دهد.
قطعه ممکن است تیتر مقالات را تقلید یا منعکس کند.
در موارد دیگر ، قطعه ممکن است از خروجی یک الگوریتم خلاصه استخراج کننده چند سند عمومی باشد.
به ما گفته می شود که یک الگوریتم جمع بندی عمومی معمولاً ذهنی بودن یک متن را در نظر نمی گیرد.
بنابراین ، در تلاش برای برجسته سازی و جمع بندی بخشهای ذهنی یک نظر ، یک الگوریتم جمع بندی عمومی به طور معمول قادر به شناسایی خلاصه ای نیست که به طور موثر نظر واقعی ارائه شده توسط مقاله را منتقل کند.
این حق ثبت اختراع به ما می گوید که تشخیص موضع برای امکان درک بهتر داستان ها (با استفاده از خوشه مقاله های ناشران مختلف در یک رویداد خبری) بسیار مفید خواهد بود.
اما تعریف موضع گیری دشوار است و به همین ترتیب می توان کمی سازی کرد.
به دلیل این چالش ها ، حق ثبت اختراع حاضر تشخیص می دهد که اسناد خبری به طور معمول دارای دو رنگ اصلی هستند ، گزارش خنثی از اخبار و نظرات ارائه شده در مورد این حوادث.
امکان تفکیک متن متن خنثی در مقاله های خبری می تواند برای فیلتر کردن متن حمل کننده عدم موضع مفید باشد ، که می تواند در انجام تشخیص موقعیت کمک کند.
افشاگری فعلی می تواند در انجام تشخیص موضع یا سایر کارهای مرتبط با موارد زیر مفید باشد:
- شناسایی بخشهای نظر یافته در اسناد
- مرتبط کردن بخشهای نظر یافته در داخل سند و / یا در سراسر اسناد دیگر (به عنوان مثال ، که مربوط به همان داستان است)
- برای نمایش قطعه های نظر داده شده یا نقل قول به کاربران یک برنامه جمع آوری اخبار / ارائه اخبار و / یا به صورت نتایج جستجو
- برای شناسایی بخشهایی از یک سند که نظر را منتقل می کند (به عنوان مثال ، در مقایسه با نقل قول ها و حقایق)
حق ثبت اختراع به ما می گوید که این مدل طبقه بندی برای فیلتر کردن بخشهای “جالب” غیرقابل استفاده برای اهداف تشخیص موضع ، مانند نقل قول ها و حقایق استفاده خواهد شد.
بخش بندی اسناد برای نظرات
سیستم محاسباتی توصیف شده در این حق ثبت اختراع می تواند هر بخش را به مدل طبقه بندی نظر وارد کند و مدل می تواند یک طبقه بندی برای قسمت ورودی تولید کند.
انواع اسنادی که طبقه بندی می کند می تواند شامل موارد زیر باشد:
- مقالات خبری
- صفحات وب
- متن مکالمه (به عنوان مثال ، مصاحبه)
- متن سخنرانی
- اسناد دیگر
بخشهایی از اسناد که می توانند طبقه بندی شوند عبارتند از:
- جمله ها
- جفت جملات متوالی
- پاراگراف ها
- صفحات
- و غیره.
این قسمت ها می توانند همپوشانی داشته باشند یا غیر همپوشانی داشته باشند.
تعیین نظر در اسناد
حق ثبت اختراع به ما می گوید که “نظرپذیری” (یعنی درجه ای که چیزی منتقل می کند یا نظر را منتقل می کند) تا حدودی ذهنی است و به شدت وابسته به موضوع و زمینه است.
و به ما می گوید که به همین دلیل ، و چون روشهای ساده محدودیتهای روشنی دارند ، سیستمها و روشهای ثبت اختراع از رویکرد یادگیری ماشین استفاده می کنند.
اشکال رویکردهای موجود این است که استفاده از فرهنگ لغت از پیش تعریف شده به اندازه کافی برای زمینه ارائه بخشی از آن حساب نمی کند.
به عنوان مثال ، اصطلاح “کوته فکر” واضح است که در یک مقاله سیاسی یک کلمه نظر یافته است اما احتمالاً در یک مقاله پزشکی نیست.
و به عنوان مثالی دیگر ، “اختصاص” هنگام صلاحیت دادن شخص گفته می شود اما هنگام صلاحیت یک شی not نه.
بنابراین استفاده اساسی از یک فرهنگ لغت برای شناسایی بخشهای دارای تفکر به درستی ضبط یا حساب نمی شود.
استفاده از یک مدل یاد گرفته شده با ماشین همانطور که در اینجا توضیح داده شده نتایج برتر را ارائه می دهد که درک و طبقه بندی متکی به موضوع و / یا موضوع را آشکار می کند.
به عنوان یک نمونه ، مدل طبقه بندی نظرات یاد گرفته شده توسط ماشین می تواند شامل یک یا چند شبکه عصبی مصنوعی (“شبکه های عصبی”) باشد.
برخی از شبکه های عصبی به عنوان مثال می تواند شامل موارد زیر باشد:
- انتقال شبکه های عصبی
- شبکه های عصبی راجعه
- شبکه های عصبی کانولوشن
- اشکال دیگر شبکه های عصبی
همچنین به ما گفته شده است که شبکه های عصبی می توانند شامل لایه هایی از نورون های پنهان باشند و در چنین مواردی می توانند به عنوان شبکه های عصبی عمیق شناخته شوند.
و مدل طبقه بندی نظرات یاد گرفته شده توسط ماشین می تواند شامل یک مدل جاسازی شده باشد که بخشی از سند دریافت شده را رمزگذاری می کند.
مدل جاسازی می تواند یک جاسازی را در یک فینال یا نزدیک به فینال تولید کند ، اما لایه نهایی مدل نیست.
این می تواند اطلاعات مربوط به بخشی از سند را در یک فضای بعدی تعبیه شده رمزگذاری کند.
مدل طبقه بندی نظرات یاد گرفته شده توسط ماشین همچنین ممکن است شامل یک مدل پیش بینی برچسب باشد که بر اساس رمزگذاری یا تعبیه برچسب طبقه بندی تولید می کند.
مدل تعبیه شده می تواند یک شبکه عصبی راجعه باشد (یا شامل یک شبکه حافظه کوتاه مدت یک جهته یا دو طرفه) در حالی که مدل پیش بینی برچسب می تواند باشد یا شامل یک شبکه عصبی پیشخور (به عنوان مثال ، یک شبکه کم عمق با فقط چند لایه های).
مدل تعبیه می تواند یک شبکه عصبی کانولوشن باشد یا شامل هسته های تک بعدی طراحی شده روی کلمات باشد.
مدل طبقه بندی نظرات ماشینی می تواند شامل یا استفاده از:
- تعبیه های جمله
- مدل های کلمه ای (به عنوان مثال ، یونیگرام ، سطح بزرگ و / یا تریگرام)
- اشکال دیگر مدل ها
مدل طبقه بندی نظر می تواند یک طبقه بندی باینری باشد ، به این معنی که می تواند برچسب “Opinion” یا “Not Opinion” را برای هر قسمت از سند ورودی به مدل تولید کند.
یا مدل طبقه بندی نظر می تواند یک مدل طبقه بندی چند طبقه باشد.
به عنوان مثال مدل طبقه بندی می تواند یکی از سه کلاس زیر را تولید کند:
- نظر نیست
- نظر گزارش شده (به عنوان مثال ، ارائه نظر شخص ثالث مانند نقل قول از نظر شخص)
- نظر نویسنده (به عنوان مثال ، ارائه دهنده نظر نویسنده سند)
بخشهایی که به عنوان “نظر” یا “نظر نویسنده” طبقه بندی می شوند ممکن است برای درج در یک صفحه نمایش اطلاعاتی در نظر گرفته شوند (به عنوان مثال ، به صورت قطعه های دارای نظر).
این امکان وجود دارد که از برچسب های اضافی و / یا متفاوت استفاده شود به جای آن.
به عنوان مثال ، ممکن است از برچسب های اضافی استفاده شود (به عنوان مثال ، علاوه بر “نظر” یا “عدم نظر”) که مواردی را برای طبقه بندی بخشی از سند به چالش می کشد (به عنوان مثال ، در مرز بین نظر و عدم وجود نظر) یا ترکیبی از واقعیت و نظر است.
این برچسب ها می توانند مواردی از قبیل:
- برچسب “May Be Opinion” باشد
- برچسب “دیدگاه نویسنده احتمالی”
- برچسب “واقعیت و نظر مختلط”
مدل طبقه بندی ممکن است یک امتیاز طبقه بندی ایجاد کند و سپس برچسب بر اساس نمره طبقه بندی تولید شود (به عنوان مثال ، با مقایسه نمره با یک آستانه).
یا ممکن است از نمره طبقه بندی به عنوان نمره اطمینان یاد شود.
معمولاً ، یک نمره طبقه بندی بزرگتر نشان می دهد که بخش مربوطه دارای نظر بیشتری است یا احتمالاً دارای نظر است.
به عنوان مثال ، یک مدل طبقه بندی ممکن است یک نمره طبقه بندی از ۰ تا ۱ داشته باشد ، که ۰ مربوط به نظر کامل نیست و ۱ مربوط به نظر کامل است.
به دنبال آن ، نمره طبقه بندی ۰.۵ می تواند ترکیبی از نظر یا عقیده را نشان دهد.
یا ، مدل طبقه بندی ممکن است یک نمره واحد داشته باشد و برچسب بر اساس یک نمره طبقه بندی واحد تولید شود (به عنوان مثال ، با مقایسه نمره با یک یا چند آستانه).
یا ، مدل طبقه بندی ممکن است برای هر برچسب موجود یک نمره مربوطه ایجاد کند و یک یا چند برچسب بر اساس نمرات متعدد به قسمت اعمال شود (به عنوان مثال ، با مقایسه هر نمره مربوط به یک آستانه مربوطه و / یا با انتخاب برچسبی که بالاترین امتیاز را دریافت کرد).
یا ، ممکن است از ویژگی های اضافی استفاده شود (به عنوان مثال ، به عنوان ورودی در کنار خود سند به مدل ارائه می شود یا به طور جداگانه به عنوان منطق انتخاب اضافی استفاده می شود).
نمونه هایی از ویژگی های اضافی می تواند شامل موارد زیر باشد:
- لغت نامه
- موضوع (های) مقاله اصلی
- متن اطراف
- زمینه داستان
- نوع سند (به عنوان مثال ، مقاله خبری در مقابل مقاله دانشگاهی پزشکی)
- متن در مورد ناشر و / یا روزنامه نگار
- ویژگی های دیگر
به عنوان مثال دیگر ، فقط بخشهایی از یک سند که به عنوان یک نظر طبقه بندی شده اند و همچنین دارای حداقل دو کلمه کاملاً ذهنی با توجه به واژگان ذهنی هستند ، انتخاب می شوند.
مجموعه داده های آموزش نظر
مدل طبقه بندی نظرات یاد گرفته شده توسط ماشین ممکن است براساس بسیاری از طرح های مختلف آموزشی یا مجموعه داده های آموزش آموزش داده شود.
حق ثبت اختراع از دو مجموعه داده آموزشی به ما می گوید.
- اولین مجموعه داده آموزشی می تواند شامل بخش نظرات یک مجموعه اخبار باشد ، جایی که برچسب های نظر در سطح سند اعمال می شود
- و یک مجموعه داده آموزش دوم با کیفیت بهتر که شامل اسنادی با بخشهایی است که به صورت جداگانه و دستی با استفاده از منابع گسترده برچسب گذاری شده اند
به عنوان مثال ، برچسب ها را می توان طبق دو کلاس اعمال کرد:
- جمله منعکس کننده نظر نویسنده است
- هر چیز دیگری یا طبق سه طبقه فوق الذکر که تمایز بین نظر نویسنده و نظر گزارش شده را شامل می شود
اولین مجموعه آموزش می تواند برای بهبود یا طبقه بندی مدل طبقه بندی (به عنوان مثال ، برای یادگیری تعبیه ، استفاده از داده های دارای برچسب اما پر سر و صدا) استفاده شود.
مجموعه داده آموزش دوم امکان آموزش طبقه بندی با دقت بالاتر را فراهم می کند.
مدل طبقه بندی نظرات یاد گرفته شده توسط ماشین را می توان فقط در مجموعه داده آموزش دوم آموزش داد.
یک مدل پردازش زبان از قبل آموزش دیده ، که در مورد سایر کارها آموزش دیده است ، شاید برای ایجاد مدل طبقه بندی نظر ، دوباره در مجموعه داده های آموزش اول و / یا دوم آموزش داده شود.
این مدل پردازش زبان از قبل آموزش دیده می تواند شامل مدل Word2vec باشد.
اولین مجموعه داده آموزش ممکن است با شناسایی مقالات نظر با استفاده از قوانین مختلف جستجو ایجاد شود.
این فرآیند می تواند با مشاهده کلمات کلیدی مانند “نظر” یا “oped” در URL یا بدنه مقاله ، مقالاتی را برای عقاید و غیر عقاید از مجموعه اخبار استخراج کند.
از اولین مجموعه آموزش ، کلیه جملات از مقالات شناسایی شده ممکن است استخراج شود.
سپس برچسب گذاری اسناد را می توان به هر قسمت (به عنوان مثال جمله) از چنین سندی اختصاص داد. این یک روش نسبتاً ساده و سریع برای تولید یک مجموعه داده بزرگ آموزشی بزرگ است.
این مجموعه آموزش اول به دلیل نحوه ساخت یک اشکال دارد: مدل طبقه بندی حاصل یاد می گیرد که این جمله احتمالاً بخشی از یک نظر است ، به جای اینکه یک نظر را بیان کند.
به همین دلیل است که آموزش در مجموعه داده های آموزش ریزدانه تر در یک پیشرفت قابل توجه به وجود می آید.
حق ثبت اختراع به ما می گوید که بعضی اوقات آموزش مدل ممکن است فقط با استفاده از مجموعه داده آموزش دوم انجام شود و نه اولین.
آموزش مجموعه داده دوم ممکن است شامل جمع آوری داده های اضافی در مورد تعدادی از جنبه های مرتبط باشد:
- آیا این جمله boilerplate است (“برای دریافت خبرنامه عالی ما ثبت نام کنید!”)
- این که آیا نظر ابراز شده از نظر نویسنده است یا خیر (برخلاف نظرات گزارش شده در نقل قول ها ، به عنوان مثال)
- اینکه آیا این جمله می تواند خود به خود بایستد
- آیا این جمله را می توان فقط با دانستن عنوان مقاله فهمید
به عنوان مثال طرح های آموزشی توصیف شده ، مدل طبقه بندی نظرات یاد گرفته شده توسط ماشین را قادر می سازد تا یاد بگیرد که چگونه نظرات را از یک مجموعه بزرگ حاشیه نویسی بیان می کند.
این مدل کل قسمت را به عنوان ورودی در نظر می گیرد (به عنوان مثال مدل هایی که شامل یک شبکه عصبی راجعه هستند که هر کلمه را به صورت ورودی به صورت متوالی در نظر می گیرند) ، و مدل برای درک و استفاده از اطلاعات ساختاری موجود در قسمت ها ، از جمله ساختار جمله ، آموزش داده می شود.
سیستم آموزشی داده های سندی را شامل می شود که دارای برچسب های نظر است.
سیستم محاسبات آموزشی ممکن است ارتباط بین جنبه های داده های سند را تعیین کند مانند موارد زیر:
- ساختار جمله
- انتخاب کلمه
- نقطه گذاری
- نحو
- قالب بندی
- ویژگی های سند
- طبقه بندی نظرات
این سیستم آموزشی می تواند ارتباطات دریافت داده های سند جدید را به صورت تکراری به روز کند تا مدل طبقه بندی نظرات را تشکیل دهد.
پس از آموزش مدل ، می توان از مدل طبقه بندی نظر برای شناسایی نظرات در اسناد استفاده کرد.
مدل طبقه بندی یاد گرفته شده توسط ماشین محدود به یک دامنه باریک (مانند فرهنگ لغت خاص یا فرهنگ لغت) نمی شود بلکه می تواند ورودی های زبانی را پردازش کند.
مدل طبقه بندی نظر برای سایر زبانها (با تولید مجموعه داده های آموزش برای سایر زبانها) به راحتی قابل گسترش است.
نمایش اطلاعات نظر از اسناد
به دنبال جنبه دیگری از حق ثبت اختراع ، این سیستم می تواند یک قطعه یا خلاصه برای سند ایجاد کند که بر اساس طبقه بندی هایی است که توسط مدل طبقه بندی نظر ایجاد شده است.
این سیستم ممکن است یک فرآیند رتبه بندی را برای تعیین اینکه کدام جمله به عنوان یک قطعه مستقل بهترین عملکرد را دارد ، انجام دهد.
این جمله انتخاب شده باید مربوط به داستان باشد و بدون زمینه متن بخواند.
رتبه بندی می تواند بر اساس:
- خلاصه ای از هر بخش مربوطه
- شناسایی نهادهای مربوطه ذکر شده توسط هر بخش مربوطه
- یک نمره طبقه بندی مربوطه توسط مدل طبقه بندی نظر یاد گرفته شده توسط ماشین به هر بخش مربوطه اختصاص داده می شود
تعیین اهمیت می تواند فقط با نگاه کردن به سند یا با مشاهده خوشه های اسناد انجام شود.
نگاه به خوشه ها به سیستم اجازه می دهد تا نقطه نظرهایی را که در قطعه ها برجسته می شوند ، متنوع کند.
سیستم می تواند یک یا چند الگوریتم جمع بندی سند را برای رتبه بندی قسمت های سند در انتخاب یک قطعه انجام دهد.
الگوریتم جمع بندی سند ممکن است:
- برای هر سند مجموعه ای از قسمت های نامزد را انتخاب کنید
- با توجه به اهمیت بخش ، نظر بخشی
- تنوع قطعه در مقالات موجود در خوشه (به عنوان مثال ، داستان)
این سیستم می تواند الگوریتم استاندارد جمع بندی سند را انجام دهد ، اما ممکن است ورودی به الگوریتم را فقط به بخشهایی محدود کند که به عنوان نظرات مدل طبقه بندی برچسب گذاری شده اند.
الگوریتم جمع بندی می تواند تمام جملات نامناسب را به عنوان قطعه کنار بگذارد ، و سپس متناسب ترین جمله را انتخاب کند ، همانطور که توسط نمرات تولید شده توسط مدل طبقه بندی نشان داده می شود.
یک الگوریتم جمع بندی سند می تواند اهمیت جمله و نظر را برای رتبه بندی مجدد جملات ترکیب کند.
ممکن است:
جملات را بر حسب اهمیت اهمیت نمره * اعتماد به نفس نظر دهید.
در صورتی که هیچ حکمی نظری تلقی نشود ، یک حکم غیر عقاید قابل استرداد است.
این روش انعطاف پذیرترین روش است و امکان اکتشافی اضافی را فراهم می کند (به عنوان مثال ، قطعه را می توان با توجه به الگوریتم جمع بندی به سه قسمت اصلی محدود کرد).
بنابراین ، از فرآیند ثبت اختراع می توان برای انتخاب قطعه هایی استفاده کرد که نظر نویسنده را برای نظرات در یک برنامه جمع آوری / ارائه اخبار منعکس می کنند.
قطعات نظر را می توان در:
- بلوک های نظر (به عنوان مثال ، همراه با نظرات اضافی برای یک خبر خاص)
- در کنار قطعات غیر عقیده ای
- تنها ایستاده
یک هدف می تواند تهیه قطعه هایی باشد که کاربران را برای خواندن یک نظر فریب دهد.
اهداف دیگر عبارتند از:
- روشی برای فیلتر کردن جملاتی که نظرات نویسندگان را روشن می کند
- کنار گذاشتن جملات واقعی و جملات غیر جالب دیگر (به عنوان مثال ، نقل قول ها)
این مدل طبقه بندی نظر همچنین راهی را برای انتخاب تنها جملات خنثی یا واقعی برای مقالات غیر عقیده فراهم می کند (به عنوان مثال ، با حذف جملاتی با عنوان نظر).
جملات نظر مربوطه در مقالات مربوط به یک کل خبر را می توان برای درک اینکه کدام مقاله از یک دیدگاه مشترک برخوردار است ، جمع کرد.
این می تواند درک بهتری از مقاله های جداگانه و مقایسه بین مقاله های مربوط به همان رویداد خبری یا یک داستان اصلی را فراهم کند.
با منزوی کردن دیدگاه / نظرات یک نویسنده ، سیستم می تواند نحوه تقسیم یا تفاوت دیدگاه ها بین چندین نویسنده و روزنامه را تعیین کند تا خوشه بندی ، تنوع بخشی و / یا سایر کارها را انجام دهد.
با خوشه بندی بر اساس بخش های تفکر شده ، می توان درک دقیق تری از مواضع مختلف در مورد یک موضوع را دریافت.
تجزیه و تحلیل عادی احساسات یا تشخیص موقعیت ممکن است یک مجموعه احساسات ثابت و محدود را کشف کند (به عنوان مثال ، به طور کلی “برای” ، “علیه” یا “خنثی”).
خوشه بندی بر اساس نظر ممکن است شش یا هفت موقعیت متداخل اما متمایز درباره یک موضوع خاص را نشان دهد.
تکنیک های شناسایی نظر و انتخاب قطعه شرح داده شده در اینجا مجموعه ای از موقعیت های ثابت و متناسب را برای آموزش فراهم نمی کند اما در عوض می توان خوشه بندی طبیعی و ظریف تری از نظرات را بدست آورد.
بنابراین ، فرآیند ثبت اختراع می تواند از یادگیری ماشین برای خلاصه های بهبود یافته یا “قطعه هایی” از اسناد مانند مقالات خبری برای جستجوگر استفاده کند.
با استفاده از قطعه هایی که بهتر محتوای نظر داده شده را منعکس می کنند (به عنوان مثال ، به جای واقعیت های عمومی یا نقل قول ها) ، کاربر می تواند با سرعت بیشتری ماهیت واقعی سند را درک کند و تشخیص دهد آیا علاقه مند به خواندن کامل سند است.
یک جستجوگر می تواند از بارگیری و خواندن اسنادی که علاقه ای به خواندن آنها ندارد جلوگیری کند.
با شناسایی و مقایسه بخشهایی از اسناد که به عنوان محتوای واقعی تفکر طبقه بندی شده اند (به عنوان مثال ، به جای حقایق عمومی یا نقل قول ها) ، فرآیند ثبت اختراع می تواند با در نظر گرفتن محتوای واقعی محتوای واقعی ، نمایشگرهای اطلاعاتی را با تنوع ، ساختار و سایر ویژگی های بهبود یافته ارائه دهد. اسناد.
جستجوگران با سهولت بیشتری می توانند نمایش متنوع تری از موضع گیری های مختلف موجود در اسناد را بدست آورند و از خواندن مقالاتی که دارای نظرات زائد هستند جلوگیری کنند.
اخبار نظر دور شوید
این حق ثبت اختراع جزئیات بیشتری در مورد چگونگی استفاده از یک رویکرد یادگیری ماشین برای شناسایی اخبار نظر برای نمایش بالقوه با داستان های برتر یا نتایج Google News ارائه می دهد.
من این ایده را دوست دارم که چنین نظراتی توسط افرادی نوشته می شود که لزوماً روزنامه نگار نیستند اما می توانند مصرف کننده باشند یا در صنایعی که با موضوع یک داستان درگیر هستند (مانند کارمند یک شرکت ، یک ورزشکار حرفه ای) ، یا یک دانشمند).
اگر شما درگیر نوشتن اخبار در موضوعات مختلف هستید ، نوشتن نظرات ممکن است راهی برای به اشتراک گذاشتن مطالب شما با گروه بزرگی از افراد باشد. مردم به چنین نظراتی علاقه مند هستند و ارزش اشتراک گذاری را دارند.
دیدن اینکه Google راهی برای شناسایی اخبار نظرات و ترکیب این نظرات در محتوایی مانند داستان های برتر در اخبار پیدا می کند ، خوب است.