विषय
अपडेट, 12 जुलाई 2019 (7:15 AM ET): इस सप्ताह की शुरुआत में, बेल्जियम ब्रॉडकास्टर वीआरटी एनडब्ल्यूएस Google पर ऑडियो ट्रांसक्रिप्शन प्रथाओं पर ढक्कन हटा दिया, मानवीय ठेकेदार भागीदारी के साथ जुड़े गोपनीयता चिंताओं पर प्रकाश डाला। कल प्रकाशित एक ब्लॉग पोस्ट में, Google ने आलोचना का जवाब दिया है।
Google ने ऑडियो ट्रांसक्रिप्शन के लिए अपने दृष्टिकोण का बचाव किया है, यह बताते हुए कि कार्यरत भाषा विशेषज्ञ उत्पाद विकसित करने के लिए महत्वपूर्ण थे। Google ने दोहराया कि ठेकेदार केवल थोड़ी संख्या में अनाम ऑडियो क्लिप पर काम करते हैं, और कहा कि यह प्रक्रिया के दौरान "उपयोगकर्ता की गोपनीयता की रक्षा करने के लिए सुरक्षा उपायों की एक विस्तृत श्रृंखला" का उपयोग करता है।
Google द्वारा दुर्घटना के लिए भेजे जाने वाले वार्तालापों के बारे में, Google ने कहा: "समीक्षकों को निर्देशित किया जाता है कि वे पृष्ठभूमि की बातचीत या अन्य शोरों का लेन-देन न करें, और केवल Google को निर्देशित किए गए स्निपेट्स को स्थानांतरित करें।"
कंपनी ने माना कि "झूठी स्वीकार" घटनाएं होती हैं जहां एक उपकरण ठीक Google हॉट वाक्यांश का गलत अर्थ लगाएगा और रिकॉर्डिंग शुरू करेगा। हालाँकि, Google ने कहा कि ऐसा होने से रोकने के लिए उसके पास "सुरक्षा के एक नंबर" थे, और यह केवल "शायद ही कभी" होता है।
दुर्भाग्य से, Google का वर्णन नहीं है कि ये सुरक्षा किसी भी विवरण में क्या हैं। इसके अलावा, ये झूठी स्वीकार्यता 1000 या 135 रिकॉर्डिंग में हुई वीआरटी एनडब्ल्यूएस समीक्षा की गई, जिसका अर्थ है कि यह लगभग 10 प्रतिशत समय हो सकता है।
अंत में, Google ने कहा कि वह हाल ही में डेटा लीक की जांच कर रहा था वीआरटी एनडब्ल्यूएस, जिसने इसकी नीतियों का उल्लंघन किया, और भविष्य में इस प्रकार के लीक को रोकने के लिए कार्रवाई करेगा।
अपने ब्लॉग पोस्ट में, Google ने ऑडियो ट्रांसक्रिप्शन प्रक्रिया में मानवीय भागीदारी के बारे में अपनी गोपनीयता नीतियों में जानकारी की कमी पर चर्चा नहीं की।
इसका कारण यह है कि भाषा से संबंधित उत्पादों पर काम करने के लिए भाषा विशेषज्ञों की आवश्यकता होगी, इसलिए मुझे संदेह है कि मानव ऑपरेटर अभी यहां रहने के लिए हैं। यदि आप इसके साथ ठीक नहीं हैं, तो यह आपके कनेक्ट किए गए उपकरणों को खोदने का समय हो सकता है।
मूल कवरेज, 11 जुलाई 2019, 11:05 पूर्वाह्न ET: Google के सहायक वॉयस ट्रांसक्रिप्शन कार्य (के माध्यम से) के बंद दरवाजों के पीछे जाने पर बेल्जियम के एक प्रसारक ने प्रकाश डाला है कगार)। प्रसारक, वीआरटी एनडब्ल्यूएस, तीन अनाम स्रोतों से बात की और प्रतिलेखन प्रक्रिया की जांच करते हुए 1,000 से अधिक रिकॉर्डिंग सुनी।
वीआरटी एनडब्ल्यूएस सीखा कि Google मानव ठेकेदारों को सेवा में सुधार करने के लिए कुछ ऑडियो को स्थानांतरित करने के लिए नियुक्त करता है। हालांकि, इनमें अक्सर व्यक्तिगत रूप से पहचान योग्य, निजी विवरण शामिल होते हैं। वीआरटी एनडब्ल्यूएस का कहना है कि यह संवेदनशील जानकारी के आधार पर कुछ लोगों से संपर्क करने में सक्षम था - जैसे पते - रिकॉर्डिंग में शामिल।
इसके अलावा, ब्रॉडकास्टर ने जिन नमूनों की बात सुनी, उनमें से 153 को उपयोगकर्ता द्वारा स्पष्ट रूप से "ओके, गूगल" हॉट वाक्यांश दिए बिना दर्ज किया गया था।
इन रिकॉर्डिंगों में कभी-कभी संवेदनशील चर्चाओं को शामिल किया जाता है जिसमें प्यार, बच्चे, स्वास्थ्य, पैसा आदि शामिल हैं वीआरटी एनडब्ल्यूएस सूत्रों ने कहा कि उन्होंने एक रिकॉर्डिंग सुनी जिसमें स्पष्ट संकट में एक महिला की आवाज शामिल थी।
आप नीचे दी गई बात पर वीडियो रिपोर्ट देख सकते हैं लेकिन आपको अंग्रेजी अनुवाद के लिए कैप्शन को सक्षम करना होगा।
क्या हमें यह पहले से पता नहीं है?
Google उपयोगकर्ताओं से एकत्र किए गए डेटा के बारे में यथोचित रूप से पारदर्शी प्रतीत होता है, और हम पहले से ही जानते हैं कि यह हमारी आवाज़ की रिकॉर्डिंग को बचाता है।यदि आप कभी भी Google सहायक का उपयोग करते हैं, तो आप अपनी सभी व्यक्तिगत रिकॉर्डिंग सुनने के लिए यहां का आनंद ले सकते हैं आवाज और ऑडियो गतिविधि).
क्या अधिक है, यह हाल ही में सामने आया है कि अमेज़ॅन के कर्मचारी गूगल के समान ही एलेक्सा रिकॉर्डिंग सुनते हैं।
हालाँकि, Google उन मानव ठेकेदारों के बारे में स्पष्ट नहीं है जो रिकॉर्डिंग सुन रहे हैं या तब क्या होता है जब कोई Google उत्पाद यह सोचता है कि उसने "ओके Google" या "हे Google" सक्रियण वाक्यांश को स्पष्ट रूप से नियोजित नहीं किया है।
उपरोक्त लिंक किए गए Google के डेटा संग्रह पृष्ठ में, इनमें से किसी भी कारक का कोई उल्लेख नहीं है।
मनुष्य क्यों सुन रहे हैं?
Google और अमेज़ॅन जैसी कंपनियां आवाज सुनने वाले एल्गोरिदम या ग्राहक अनुभव जैसी चीज़ों को बेहतर बनाने के लिए मानव श्रोताओं पर भरोसा करती हैं।
कंपनियां दावा करती हैं कि इस प्रक्रिया के लिए केवल बहुत कम नमूनों का उपयोग किया जाता है, हालांकि, और उन नमूनों की पहचान की जानकारी रखने वाले ठेकेदारों को आपूर्ति नहीं की जाती है। फ़ाइलों के लिए कोई नाम या स्थान डेटा संलग्न नहीं है, बस ऑडियो है।
लेकिन यह इस संभावना को छूट नहीं देता है कि बोलने वाला व्यक्ति रिकॉर्डिंग के दौरान संवेदनशील जानकारी का खुलासा करता है - कुछ ऐसे मामलों में विशेष रूप से परेशान जहां रिकॉर्डिंग गलती से हुई।
वायर्ड के एक बयान में, Google के एक प्रवक्ता ने कहा कि कंपनी रिकॉर्डिंग के "लगभग 0.2 प्रतिशत" को स्थानांतरित करने के लिए दुनिया भर के भाषा विशेषज्ञों का उपयोग करती है। कंपनी ने बाद में एक ब्लॉग प्रविष्टि पोस्ट की जो इस नीति को आगे बढ़ाती है।
प्रवक्ता ने यह भी कहा कि Google यह समीक्षा करेगा कि वह अपनी नीतियों को कैसे स्पष्ट कर सकता है कि उपयोगकर्ता डेटा का उपयोग अपनी भाषण तकनीक को बेहतर बनाने के लिए कैसे किया जाता है। उपरोक्त वीडियो रिपोर्ट में, Google को यह भी कहा गया है कि Google सहायक जैसे उत्पाद प्रदान करने के लिए इस तरह का काम आवश्यक है।
भले ही, Google ने लाखों होम उत्पाद और अरबों एंड्रॉइड फोन बेचे हों; उद्धृत किए गए 0.2 प्रतिशत आंकड़े का अर्थ है कि संभवतः हमारी लाखों रिकॉर्डिंग - संभवतः दुर्घटना द्वारा दर्ज की गई है, शायद हमारी निजी जानकारी भी शामिल है - मानव ऑपरेटरों द्वारा सुनी जा रही है।
मुझे लगता है कि आप इस तरह के एक सहायक-सक्षम उपकरण खरीदने का इरादा रखते हैं या नहीं। शायद समय-समय पर "माइक्रोफोन बंद" स्विच का भी उपयोग करें।
आगे पढ़िए: Google होम हब बनाम अमेज़ॅन इको शो 2: स्मार्ट डिस्प्ले की लड़ाई