محصولات AI کمتر به دلیل اشتباه مدل شکست می خورند، و بیشتر به دلیل اینکه رابط کاربری به کاربران راهی برای خواندن اعتماد سیستم، بازیابی از خطاهای آن یا تصمیم گیری در مورد میزان نظارتی که باید حفظ شود، نمی دهد. تیم های زیادی ویژگی های AI را بدون برنامه روشنی برای هر یک از این لحظات ارسال می کنند، و هزینه بعدا به صورت ویژگی های abandon، اعتماد شکسته یا exposure قوانین نشان داده می شود. کتاب راهبردی طراحی محصول AI با شش سیستم متصل که در تمام چرخه ی محصول کار می کنند، از اولین encounter تا حکومت بلند مدت، این شکاف را بسته می کند.
به گفته گزارش وضعیت AI مک کینزی، 65% سازمان ها اکنون حداقل در یک عملکرد تجاری از AI تولیدی استفاده می کنند، با این حال اعتماد، دقت و توضیح پذیری مانع اصلی برای گسترش این ویژگی ها فراتر از pilots هستند. راهنمای People + AI گوگل و HAX Toolkit مایکروسافت هر دو مشکل اصلی را شناسایی می کنند: تجربیات AI در مرزهای مدل شکست می خورند، نه در هسته ی آن.
کتاب راهبردی این مشکلات مرزی را در شش سیستم - اعتماد، خطاها، آموزش اولیه، کنترل ها، بازخورد، و اعتماد - سازماندهی می کند.هر یک مربوط به لحظه خاصی در تعامل کاربر با AI است و هر یک دارای مجموعه ای از الگوهای طراحی است. تیمی که این شش را به عنوان یک دنباله به جای یک چک لیست درمی یابد، می تواند ویژگی های AI را ارسال کند که کاربران در طول زمان واقعا به آن اعتماد کنند.
بیشتر پذیرش در جریان کاری با ریسک کمی شروع می شود که خطاها در آن به راحتی قابل برگشت هستند، سپس به موارد استفاده با خودمختاری بیشتر گسترش می یابد به میزان قابل اعتماد مدل و راحتی کاربر بهبود می یابد. منحنی بقاء AI این پیشرفت را در دو محور - پیچیدگی زمینه و عواقب شکست - رسم می کند. این به مدیران کمک می کند تا ببینند که ویژگی های فعلی آنها کجا قرار دارند و کجا مرز توانایی آینده قرار دارد.
چگونه اعتماد مدل را به سطح بیاوریم
اعتماد اولین چیزی است که کاربران می خوانند وقتی AI یک نتیجه را پیشنهاد می کند. وقتی سیستم با قطعیت بیش از حد نمایش می دهد، کاربران بیش از حد اعتماد می کنند. وقتی هیچ چیز نمایش نمی دهد، کاربران بدترین را فرض می کنند. اولین سیستم در کتاب بازی به تیم ها انتخاب ساختارمندی می دهد که چگونه اطمینان مدل را برای مناسب بودن با لحظه، کاربر و میزان ریسک تصمیم به سطح بیاورند.
تحقیقات گروه نیلسن نورمن نشان می دهد که کاربران یا خروجی های AI را بدون انتقاد قبول می کنند یا کاملاً آنها را رد می کنند، با بسیار کمی میانه رو. هزینه اعتماد به نسبت ضعیف محسوس است. در پشتیبانی تصمیم بالینی، اعتماد بیش از حد به خطاهای تشخیصی مرتبط شده است، در حالی که اعتماد کمتر از حد منافع مدل را روی میز می گذارد.
چارچوب چهار راه برای ارتباط اعتماد را ارائه می دهد. امتیازات عددی (83٪) به کارشناسانی که بر اساس این شماره عمل می کنند مناسب است. برچسب های دسته بندی - بالا، متوسط، پایین - برای بیشتر کاربران در بیشتر لحظات مناسب است اما ممکن است تغییرات را پنهان کند. لیست های بهترین برای طبقه بندی های مبهم خوب کار می کنند اما ممکن است انتخاب فلج کننده باشد. توضیحات استدلال برای لحظات با ریسک بالا مناسب است اما ممکن است برای خواندن در لحظه بیش از حد طولانی شود. هر گزینه خطر خاص خود را دارد و انتخاب درست بستگی به تخصص کاربر و هزینه یک خطا دارد.
سپس چارچوب کالیبراسیون اعتماد نقشه کاربران را در یک طیف از کم اعتماد تا بیش از حد اعتماد می کشد. کاربران کم اعتماد هر پیشنهاد را دوباره بررسی می کنند یا اتوماسیون ایمن را زودتر از موعد قطع می کنند.کاربرانی که بیش از حد به AI متکی هستند، تصمیمات بالا ریسک را کنترل نمی کنند یا کاملاً تأیید را واگذار می کنند. حالت میانی - تکیه مناسب - کاربرانی را توصیف می کند که نظارت می کنند و وقتی موقعیت از آن می خواهد، مداخله می کنند. مداخلات کالیبراسیون شامل آموزش اعتماد تدریجی و نشانه های دیداری اعتماد در سمت کم تکیه کردن، و تأیید انسانی اجباری یا محدودیت های اجرای خودکار در سمت بیش از حد تکیه کردن است.
چگونه با خطاهای AI به طور سیستماتیک برخورد کنیم
هر سیستم AI شکست می خورد. تفاوت بین محصولاتی که از شکست جان سالم به در می برند و آنهایی که کاربران را از شب به روز از دست می دهند، به این بستگی دارد که آیا تیم برای شکست از پیش برنامه ریزی کرده است یا خیر. سیستم دوم به مدیران محصول روشی برای تعریف خطاها در سطح مناسب انتزاع و مجموعه ساختارمندی از الگوهای بازیابی را ارائه می دهد که جریان کاربر را حفظ می کند.
یک اشتباه رایج این است که خطاها را یا بیش از حد گسترده ("شناسایی راننده شکست خورد") یا بیش از حد باریک ("شکست در شناسایی راننده که عینک آفتابی در غروب آفتاب می پوشد") تعریف کنیم. تعریف های گسترده امکان تشخیص را ندارند. تعریف های باریک به یک رویداد بیش از حد منطبق می شوند.سطح درست - "تشخیص راننده در نور خورشید و پوشش صورت کاهش می یابد" - شرایط شکست تکرار شونده را تشخیص می دهد که مهندسان می توانند آن را تشخیص دهند، اندازه گیری کنند و کاهش دهند.
سه اصل طراحی سیستم خطا را میکند. نقشه خطاهای متکرر را قبل از استقرار تعریف کنید و مسیرهای تشخیص، جایگزینی و بازیابی را تعریف کنید. حفظ امکان دخالت انسانی برای اینکه کاربران بتوانند خطاها را اصلاح کنند، دوباره امتحان کنند، ارتقا دهند یا تصمیمات AI را زمانی که اعتماد کم است دور بزنند. انسان ها را در حلقه تصمیمات حیاتی نگه دارید تا آنها قابل بازبینی، قابل قطع و قابل حسابرسی باشند. این اصول با دستورالعمل های Microsoft HAX برای تعامل انسان-AI هماهنگ هستند، که همان سه گانه خطا، دخالت و نظارت را تأکید می کنند.
هنگامی که خطاها تعریف شدند، سوال بعدی این است که سیستم چگونه رفتار می کند وقتی یک خطا رخ می دهد. راهنمای بازی پنج الگوی شکست با آرامش را ارائه می دهد. Soft Handoff شکست را از قبل اعلام می کند و کنترل را به تدریج انتقال می دهد. Manual Escape یک مسیر تک ضربه به یک جایگزین غیر-AI می دهد. Explain on Retry به کاربر می گوید چرا تلاش اول شکست خورد وقتی دوباره سعی می کند. Visible Recovery وضعیت سیستم را در طول بازیابی قابل مشاهده نگه می دارد به جای اینکه صفحه نمایش ساکت باشد.Safe Fallback به تجربه ای کاهش یافته اما ایمن تغییر می کند تا به شکست کامل.
چگونه کاربران را به ویژگی های AI معرفی کنیم
مدل های ذهنی برای AI در سی ثانیه اول استفاده شکل می گیرند و به مدت چند ماه باقی می مانند. اگر کاربران انتظار زیادی داشته باشند، اولین خطا اعتماد آنها را می شکند. اگر انتظار آنها کم باشد، هرگز ویژگی هایی را که واقعا به آنها کمک می کند کشف نمی کنند. سیستم سوم آموزش را در سراسر سفر کاربر گسترش می دهد به جای فشرده سازی در جلسه اول.
بیشتر نرم افزارها آموزش را به عنوان یک رویداد یکباره در زمان ثبت نام می دانند. محصولات AI به روش متفاوتی نیاز دارند زیرا رفتار مدل همیشه قابل پیش بینی نیست، موارد لبه در طول زمان خود را نشان می دهند و کاربران با توسعه اعتماد خود به موارد استفاده پیشرفته تر می رسند. تحقیقات گروه Nielsen Norman در مورد افشای تدریجی نشان می دهد که رابط های کاربری که پیچیدگی را در مراحل مختلف نشان می دهند، در نرم افزارهای پیچیده به اتمام وظیفه بیشتری می رسانند و محصولات AI تقریبا دقیقا به همین الگو می خورند. نتیجه یک استراتژی آموزش است که برای تمام عمر محصول اجرا می شود تا ده دقیقه اول.
این چارچوب پنج لحظه آموزش را تعریف می کند. روز 1 با توضیح قابلیت ها، بیان واضح محدودیت ها و توصیف نقش های نظارت، انتظارات را تعیین می کند. استفاده اولیه اعتماد را از طریق استدلال سطحی، برجسته کردن نتایج موفق و تقویت استفاده صحیح ایجاد می کند. موارد لبه باعث بازنشانی ذهنی می شود که رفتار غیرمعمول را توضیح می دهد، مرزهای سیستم را نشان می دهد و محافظت های جدید را معرفی می کند. لحظات پیشرفته با باز کردن قابلیت های جدید و کاهش بار نظارت، خودمختاری را گسترش می دهد. نگهداری بلند مدت انتظارات را با بهبود مدل و بازیابی از شکست های گذشته اصلاح می کند. هر لحظه الگوهای طراحی خود و تن صدای محتوا را حمل می کند.
چگونه به کاربران کنترل متناسب بدهیم
کنترل دکمه ای است که تصمیم می گیرد چقدر از اختیارات کاربر حفظ شود و چقدر AI بر عهده بگیرد. خیلی زیادی اتوماسیون در یک زمینه با ریسک بالا منجر به وابستگی خطرناک می شود. خیلی کم اتوماسیون در یک زمینه با ریسک کم ارزش مدل را از بین می برد و کاربران را ناامید می کند.سیستم چهارم به تیم ها کمک می کند تا هر تصمیم AI را در نقطه درست روی نردبان خودکارسازی قرار دهند و کنترل های درست را در عمق درست در دسترس قرار دهند.
نردبان خودکارسازی تصمیمات AI را در چهار سطح سازماندهی می کند. سطح 1 پیشنهاداتی را که کاربر می تواند قبول یا رد کند، مانند پیشنهادات Netflix یا Spotify را پوشش می دهد. سطح 2 پیشنهاداتی را که نیاز به تأیید دارند، از جمله ایمیل های طراحی شده، تأیید هزینه ها، و تولید کد را پوشش می دهد. سطح 3 کنترل مشترک را پوشش می دهد، جایی که AI عمل می کند و انسان ها نظارت می کنند، مانند کمک به حفظ خط یا نظارت بر تقلب. سطح 4 اجرای خودکار در حوزه های با ریسک بالا مانند معاملات خودکار یا درمان پزشکی را پوشش می دهد، جایی که عواقب شکست شدید است و نقش انسان به بررسی تغییر می کند بجای تأیید.
چارچوب قرارگیری کنترل همراه تصمیم می گیرد که هر کنترل کجا در رابط کاربری ظاهر می شود. کنترل هایی که کاربران به طور مکرر یا در لحظات حیاتی نیاز دارند - مکث و توقف، انتخابگر حالت AI، حجم و سکوت - همیشه قابل مشاهده هستند.کنترل هایی که رفتار را تحت تاثیر قرار می دهند اما نیازی به دید مداوم ندارند - ترجیحات شخصی سازی، تنظیمات پیشنهاد، قوانین اطلاع رسانی - یک منو عمیق هستند. کنترل های موارد لبه، تشخیص ها، یا کاربران قدرت - ترجیحات به اشتراک گذاری داده ها، انتخاب مدل، برنامه های خودکار - پشت پیش فرض های منطقی در تنظیمات پیشرفته پنهان هستند. این ساختار سه سطحی از ایجاد هرج و مرج در رابط کاربری جلوگیری می کند در حالی که کنترل های حیاتی در دسترس می مانند.
چگونه هر تعامل را به یک سیگنال بازخورد تبدیل کنیم
بیشتر محصولات AI فقط بازخورد صریح را جمع آوری می کنند - رتبه بندی ها، شکایات، بلیط های پشتیبانی - و حجم بسیار بزرگتری از سیگنال های ضمنی را که کاربران بدون اینکه بفهمند آن را تولید می کنند، از دست می دهند. سیستم پنجم هر عمل کاربر را به عنوان یک سیگنال یادگیری احتمالی می بیند و به تیم ها یک حلقه ساختار یافته از رفتار خام به بهبود مدل می دهد.
بازخورد ضمنی شامل اضافه کردن، پیشنهادات رد شده، جلسات رها شده، و دوباره سوال کردن است. بازخورد صریح شامل رتبه بندی های انگشت، نظرسنجی های کامل شده، و شکایات مستقیم است. هر دو نوع مهم هستند.مهندسان Netflix به صورت علنی توصیف کرده اند که سیستم توصیه آنها عمدتاً بر سیگنال های غیرمستقیم - آنچه کاربران پخش می کنند، می گذرانند و دوباره تماشا می کنند - تکیه می کند زیرا بازخورد صریح برای رسیدن به شخصی سازی در مقیاس بیش از حد نادر و مغرضانه است.
چارچوب حلقه های بازخورد این سیگنال ها را از طریق چهار مرحله به تغییرات مدل و محصول تبدیل می کند. جمع آوری سیگنال ها از رد کردن، رفتار استفاده، شکایات، و رتبه بندی ها. شناسایی الگوهایی مانند شکست اعتماد، خوشه های اصطکاک، حوادث ایمنی، و تغییرات ترجیحات. اندازه گیری نتایج در برابر رضایت، قابلیت اطمینان، پذیرش، و دقت. پیاده سازی تغییرات از طریق گارد های جدید، آموزش مجدد، به روزرسانی سیاست ها، و بهبود UX. حلقه به طور مداوم اجرا می شود، و خروجی های آن به سیستم های اطمینان، خطا، و کنترل که قبلاً در چارچوب توصیف شده اند، بازمی گردد.
چگونه اعتماد را در محصول ایجاد کنیم
اعتماد محصول تجمعی از هر سیستم دیگری در چارچوب است.یک تیم می تواند نشانگرهای اعتماد کامل، الگوهای شکست با ظرافت، و حلقه های بازخورد غنی را ارسال کند و باز هم کاربران را از دست بدهد اگر محصول در موارد موافقت، شفافیت، یا پاسخگویی شکست بخورد. سیستم ششم به تیم ها یک ساختار لایه ای برای اعتماد در هر سطح، از تعامل فردی تا شهرت عمومی شرکت، می دهد.
هرم اعتماد پنج اصل را از عملیاتی تا نهادی تکه تکه می کند. رضایت نامه متناظر کاربران را برای اجازه مرتبط با اقدامات خاص، در لحظه ظهور ارزش، می خواهد. کنترل کاربر موافقت را قابل برگشت می کند و کنترل ها را آسان پیدا می کند. مستندات مدل توانایی های سیستم را توضیح می دهد و محدودیت های شناخته شده را منتشر می کند. افشای متناظر داده های مربوطه را با زبان ساده در داخل محصول به سطح می آورد. پاسخگویی عمومی نتایج را به صورت آزاد گزارش می دهد و حوادث اصلی را از طریق گزارشات اعتماد و داشبوردهای ایمنی افشا می کند. هرم به دلیل اینکه لایه های پایین باید کار کنند قبل از اینکه لایه های بالاتر قابل اعتماد شوند، سلسله مراتبی است.
راهنما با یک نقشه راه مرتب شده که یک سازمان را از آزمایش های اولیه به عملیات بومی AI حرکت می دهد، به پایان می رسد.Q1 پوشش دادن به بررسی AI: شناسایی گردش کارهای با ارزش بالا و آزمایش ابزارهای داخلی. Q2 پوشش دادن به تصمیمات تقویت شده AI: پذیرش توصیه های AI و درک مبتنی بر بازخورد جاسازی شده. Q3 پوشش دادن به ایجاد کمکی AI: معرفی گردش کارهای پیش نویس و کاهش تلاش تولید دستی. هدف Q4 عملیات بومی AI است: گردش کارهای خودکار با ریسک کم و اجرای خودکار گسترده. نقشه راه به رهبران کمک می کند تا سرمایه گذاری را به گونه ای مرتب کنند که توانایی، حکومت و اعتماد کاربر به جای جداگانه، با هم بالغ شوند.
این شش سیستم به عنوان یک دنباله کار می کنند، نه یک چک لیست. تیمی که اعتماد را بدون برنامه ای برای خطاها به سطح می برد، کاربران را در اولین شکست از دست می دهد. تیمی که خطاها را بدون حلقه های بازخورد غنی تعریف می کند، همان اشتباهات را تکرار می کند. تیمی که کنترل ها و بازخورد را بدون یک معماری اعتماد زیربنایی می سازد، پس از افزایش میزان ریسک، پذیرش را متوقف خواهد دید.سازمان های AI بالغ، طراحی محصول را به عنوان یک رشته از سیستم های همپوشان به جای مجموعه ای از ویژگی ها می بینند و سرمایه گذاری را به گونه ای ترتیب می دهند که اطمینان، بازیابی، نظارت و مسئولیت پذیری با هم بالغ شوند. کتاب بازی طراحی محصول AI این رشته را به چیزی تبدیل می کند که تیم ها می توانند برنامه ریزی، اندازه گیری و ارسال کنند. همچنین به رهبران واژه نامه مشترکی برای گفتگو با مهندسین، حقوقی ها و شرکای سیاست می دهد، که لحظه ای که یک ویژگی از مقیاس آزمایشی به مقیاس اصلی منتقل می شود، ضروری می شود. طراحی محصول برای AI دیگر نگرانی UX تنها نیست؛ این یک توانایی استراتژیک است که تصمیم می گیرد که آیا سرمایه گذاری AI ترکیب می شود یا متوقف می شود.