摘 要:本文基于大數據和數據挖掘技術提出了消費者在線評論質量評價的方法,利用此方法研究了松木家具用戶在線評論的質量。首先,通過抓取電商平臺的買家在線評論得到商品評價;其次經過篩選測算分析數據,得到產品質量合格情況與消費者更關注的質量特性;最后,比較用戶感知評價結果與國家質量監督抽檢結果之間的差異。
關鍵詞:松木家具 電商平臺 評論質量 感知合格率
中圖分類號:F724.6 文獻標識碼:A 文章編號:2096-0298(2018)08(b)-162-02
1 緒論
1.1 研究意義
隨著國內電商平臺的蓬勃發展,消費者在進行購買活動之后可以對商品進行在線評價。而在線評論的質量在一定程度上也能反映商品的質量,因此對評論質量的研究引起了國內外學者的廣泛重視。國內外學者把研究目標大多聚集在在線評價概括匯總和垃圾評論檢測這兩個部分,而缺乏對某個具體商品進行在線質量測評。因此,本文在理論與實踐方面都具有重要的意義。在理論方面,本文的研究可以為“產品質量監督”方面的研究提供新的方向,而在實踐方面,此方法可有效避免“抽檢成本高、樣品數量少以及較難發現的未知異常情況”等問題,還可以與傳統的隨機抽檢方案相配合,有效維護消費者的合法權益與人身安全。
1.2 國內外的研究發展情況
通過現有文獻的來看,國內外學者已經圍繞信息本身(即評論的質量、數量和時效性),信息源(即發布的電商平臺、發布者),和信息接收者(即消費者知識、消費者的參與程度)對在線評論的因素和影響進行了廣泛的研究。評論質量的評估越來越受到重視。文獻[1]在評價Amazon產品的買家評論質量中,對各種特征及詞典句法進行SVM回歸實驗。最終發現評論的單位,長度和產品評級是影響評價在線評論質量的主要特征。文獻[2]提供了一種根據評論有用性自動排列評論的算法,并對Amazon的圖書展開研究。利用一般評價和最好評價之間的差異來比較評價的質量。文獻[3]提出一種運用復雜網絡的評論有用性理論分析,通過研究評論文本的語義關聯,分析評論的有用程度和用戶需求之間的關系,最終確定了其能夠清晰地描述用戶評論中的需求并能準確的,高覆蓋率的獲取用戶的需求。
2 研究的技術路線與方法
整個過程包括采集數據、數據預處理、質量屬性提取、擴充特征屬性、情感極性分析以及文本量化6個關鍵步驟。
2.1 采集數據及處理
通過把京東商城的松木家具按照銷量順序排列,在京東商城銷量排名前30的松木家具中隨機抽取11款松木家具,提取了買家在線評論共計63969條作為總數據源,然后對采集的評論數據進行數據預處理。將數據預處理分為三個過程:首先,利用Excel將數據去重,就是指在采集到的京東買家評論里查找并刪除重復的數據,只保留唯一的買家評論。其次,利用中文分詞器GOOSEEKER過濾掉數據中所有停用詞,并對數據進行分詞以及詞性標注處理。最后,從所有分詞中進行篩選所需要的與產品質量相關的詞語。最終得到了精煉的買家評論9294條。
2.2 擴充特征屬性
利用預處理好的買家評論數據,用Excel把數據按照一列中選定的分詞出現的次數多少進行排序,可得到每個選定分詞在整個數據中出現的頻率,篩選出頻率大于9的名詞與動詞,把這些詞按照語義分為6個特征屬性集,對產品特征屬性詞進行擴充,通過網絡上查詢同義詞完成。在特征屬性詞擴充之后,還需標注情感傾向在特征屬性集中的每個詞中,并作出每個詞的極性分析(1-正向情緒,0-中性情緒,-1-負向情緒),構建出松木家具的特征詞典。
2.3 文本的量化
表1中f1~f6分別代表了松木家具的外表、尺寸、材料、殘留溶劑、物理性質和功能性這6個質量屬性。采用文本量化的分析方法,統計出量化數據,并將文本數據轉化為數字數據,最終利用買家評論數據對松木家具的產品質量進行評價。本文中精煉的買家評論一共有9294條,通過量化后得出有7989條評論認為松木家具的質量是合格的,有1305條評論認為松木家具的質量是不合格的。由此得出,松木家具的質量合格率為85.96%,與國家質量監督抽查合格率90.9%相對比,大約低了5個百分點。
3 分析結果與討論
本研究中通過上述方法研究,對于松木家具的產品質量有幾點認識。
討論1:抽查合格率和感知合格率兩者之間是有可比性的。
抽查合格率是國家及地方各級人民政府, 依照GB/T3324-2008《木家具通用技術條件》,GB18584-2001《室內裝飾裝修材料 木家具中有害物質限量》,《木家具質量檢驗及質量評定》[6]等標準、對產品規范地進行程序化的檢測,從而得到產品質量的合格率。感知合格率是消費者購買并使用了某產品,對于該產品的質量好壞作出主觀的評價程度。為了更好的分析感知合格率與抽查合格率之間的關系,研究兩者的可比性。本文中將把消費者評論中的對產品質量的主觀評價與政府的最終抽檢結果進行對比,將用戶感知的6個松木家具的質量特性合格情況與國家標準用語的進行比對,最終可得知用戶感知的松木家具主觀評價標準與國家質量安全標準對產品合格率的判定較為接近,由此得出抽查合格率和感知合格率兩者之間是有可比性的。表2為用戶評價的6個松木家具的質量特性合格情況與國家標準用語的對照。
由表2對比可知, 用戶評價的6個松木家具的質量特性合格情況與國家標準用語相接近,可以利用買家的在線評價來推測松木家具的質量。
討論2:用戶的感知合格率和國家的抽查合格率的相似關聯度為99.81%。
關鍵詞:松木家具 電商平臺 評論質量 感知合格率
中圖分類號:F724.6 文獻標識碼:A 文章編號:2096-0298(2018)08(b)-162-02
1 緒論
1.1 研究意義
隨著國內電商平臺的蓬勃發展,消費者在進行購買活動之后可以對商品進行在線評價。而在線評論的質量在一定程度上也能反映商品的質量,因此對評論質量的研究引起了國內外學者的廣泛重視。國內外學者把研究目標大多聚集在在線評價概括匯總和垃圾評論檢測這兩個部分,而缺乏對某個具體商品進行在線質量測評。因此,本文在理論與實踐方面都具有重要的意義。在理論方面,本文的研究可以為“產品質量監督”方面的研究提供新的方向,而在實踐方面,此方法可有效避免“抽檢成本高、樣品數量少以及較難發現的未知異常情況”等問題,還可以與傳統的隨機抽檢方案相配合,有效維護消費者的合法權益與人身安全。
1.2 國內外的研究發展情況
通過現有文獻的來看,國內外學者已經圍繞信息本身(即評論的質量、數量和時效性),信息源(即發布的電商平臺、發布者),和信息接收者(即消費者知識、消費者的參與程度)對在線評論的因素和影響進行了廣泛的研究。評論質量的評估越來越受到重視。文獻[1]在評價Amazon產品的買家評論質量中,對各種特征及詞典句法進行SVM回歸實驗。最終發現評論的單位,長度和產品評級是影響評價在線評論質量的主要特征。文獻[2]提供了一種根據評論有用性自動排列評論的算法,并對Amazon的圖書展開研究。利用一般評價和最好評價之間的差異來比較評價的質量。文獻[3]提出一種運用復雜網絡的評論有用性理論分析,通過研究評論文本的語義關聯,分析評論的有用程度和用戶需求之間的關系,最終確定了其能夠清晰地描述用戶評論中的需求并能準確的,高覆蓋率的獲取用戶的需求。
2 研究的技術路線與方法
整個過程包括采集數據、數據預處理、質量屬性提取、擴充特征屬性、情感極性分析以及文本量化6個關鍵步驟。
2.1 采集數據及處理
通過把京東商城的松木家具按照銷量順序排列,在京東商城銷量排名前30的松木家具中隨機抽取11款松木家具,提取了買家在線評論共計63969條作為總數據源,然后對采集的評論數據進行數據預處理。將數據預處理分為三個過程:首先,利用Excel將數據去重,就是指在采集到的京東買家評論里查找并刪除重復的數據,只保留唯一的買家評論。其次,利用中文分詞器GOOSEEKER過濾掉數據中所有停用詞,并對數據進行分詞以及詞性標注處理。最后,從所有分詞中進行篩選所需要的與產品質量相關的詞語。最終得到了精煉的買家評論9294條。
2.2 擴充特征屬性
利用預處理好的買家評論數據,用Excel把數據按照一列中選定的分詞出現的次數多少進行排序,可得到每個選定分詞在整個數據中出現的頻率,篩選出頻率大于9的名詞與動詞,把這些詞按照語義分為6個特征屬性集,對產品特征屬性詞進行擴充,通過網絡上查詢同義詞完成。在特征屬性詞擴充之后,還需標注情感傾向在特征屬性集中的每個詞中,并作出每個詞的極性分析(1-正向情緒,0-中性情緒,-1-負向情緒),構建出松木家具的特征詞典。
2.3 文本的量化
表1中f1~f6分別代表了松木家具的外表、尺寸、材料、殘留溶劑、物理性質和功能性這6個質量屬性。采用文本量化的分析方法,統計出量化數據,并將文本數據轉化為數字數據,最終利用買家評論數據對松木家具的產品質量進行評價。本文中精煉的買家評論一共有9294條,通過量化后得出有7989條評論認為松木家具的質量是合格的,有1305條評論認為松木家具的質量是不合格的。由此得出,松木家具的質量合格率為85.96%,與國家質量監督抽查合格率90.9%相對比,大約低了5個百分點。
3 分析結果與討論
本研究中通過上述方法研究,對于松木家具的產品質量有幾點認識。
討論1:抽查合格率和感知合格率兩者之間是有可比性的。
抽查合格率是國家及地方各級人民政府, 依照GB/T3324-2008《木家具通用技術條件》,GB18584-2001《室內裝飾裝修材料 木家具中有害物質限量》,《木家具質量檢驗及質量評定》[6]等標準、對產品規范地進行程序化的檢測,從而得到產品質量的合格率。感知合格率是消費者購買并使用了某產品,對于該產品的質量好壞作出主觀的評價程度。為了更好的分析感知合格率與抽查合格率之間的關系,研究兩者的可比性。本文中將把消費者評論中的對產品質量的主觀評價與政府的最終抽檢結果進行對比,將用戶感知的6個松木家具的質量特性合格情況與國家標準用語的進行比對,最終可得知用戶感知的松木家具主觀評價標準與國家質量安全標準對產品合格率的判定較為接近,由此得出抽查合格率和感知合格率兩者之間是有可比性的。表2為用戶評價的6個松木家具的質量特性合格情況與國家標準用語的對照。
由表2對比可知, 用戶評價的6個松木家具的質量特性合格情況與國家標準用語相接近,可以利用買家的在線評價來推測松木家具的質量。
討論2:用戶的感知合格率和國家的抽查合格率的相似關聯度為99.81%。