
问题描述:有很大的数据,需要提取出来相同字符串(特征 最多的)来分组。
如:SAMSUNG-SGH-X468_1
SAMSUNG-SGH-G508_1
YULONG-COOLPAD2017
SAMSUNG-SGH-E788_1
SAMSUNG-SGH-D828_1
PSAMSUNG-GT-S7120U
SAMSUNG-GT- U6320C
SANMSUNG-GT-S5630C
SCH-W629 INFRAWARE
SAMSUNG-SGH-I8510C
SAMSUNG-SGH-CC01I_CMCC
SAMSUNG-GT-E1120C_CMCC
SAMSUNG-GT-E1110C_CMCC

SAMSUNG-SGH-L708E_CMCC
SAMSUNG-SGH-J808E_CMCC
SAMSUNG-SGH-E788E-CMCC
SAMSUNG-SGH-I908E_CMCC
SAMSUNG-SGH-I728_CMCC_U1
SAMSUNG-SGH-I718PLUS_CMCC
SAMSUNG-SGH-P318PLUS_CMCC
提取出来SAMSUNG ,YULONG-COOLPAD2017,PSAMSUNG-GT-S7120U,SCH-W629 INFRAWARE 4组
不一定都是开头特征,有的会在中间,结尾。
如:
NOKIA7610SUPERNOVA
NOKIA6110NIGATOR
NOKIA6210NIGATOR
NOKIA6630 UNTRUSTED

NOKIA5330XPRESSMUSIC
NOKIAN95 MOZILLA/5.0
NOKIA5610XPRESSMUSIC
NOKIA5220XPRESSMUSIC
NOKIA5310XPRESSMUSIC
USER-AGENT: NOKIA7650
NOKIA5310XPRESSMUSIC_CMCC
MOZILLA/5.0 (SYMBIANOS/9.2; U; SERIES60/3.1 NOKIAN95
MOZILLA/5.0 (SYMBIANOS/9.2; U; SERIES60/3.1 NOKIAN81-3
MOZILLA/5.0 (SYMBIANOS/9.1; U; SERIES60/3.1 NOKIAE71-1
MOZILLA/5.0 (SYMBIANOS/9.3; U; SERIES60/3.2 NOKIAN79-1
MOZILLA/5.0 (SYMBIANOS/9.2; U; SERIES60/3.1 NOKIAN95_8GB
有什么好的算法啊。
--
FROM 61.148.97.*
本文来自电脑杂谈,转载请注明本文网址:
http://www.pc-fly.com/a/sanxing/article-21427-1.html
思想退化到了腐男的地步
因为还有中国和这样的国家能制衡美国