Pytanie Czy w Pythonie występuje ciąg podłańcuchowy "zawiera"?


Szukam string.contains lub string.indexof metoda w języku Python.

Chcę zrobić:

if not somestring.contains("blah"):
  continue

2885
2017-08-09 02:52


pochodzenie
Odpowiedzi:


Możesz użyć in operator:

if "blah" not in somestring: 
  continue

4372
2017-08-09 02:56

Jeśli to tylko wyszukiwanie podłańcuchowe, możesz użyć string.find("substring").

Musisz być trochę ostrożny find, index, i in chociaż, ponieważ są to wyszukiwania podłańcuchowe. Innymi słowy, to:

s = "This be a string"
if s.find("is") == -1:
  print "No 'is' here!"
else:
  print "Found 'is' in the string."

To by się drukowało Found 'is' in the string. Podobnie, if "is" in s: oceni na True. To może, ale nie musi być to, co chcesz.


460
2017-08-09 02:55+1 za wyróżnienie wątków związanych z wyszukiwaniem podciąganym. oczywistym rozwiązaniem jest if ' is ' in s: który powróci False jak można się spodziewać (prawdopodobnie). - aaronasterling
@Aaronasterling Oczywiste może być, ale nie do końca poprawne. Co jeśli masz interpunkcję lub jest na początku lub na końcu? A co z wielką literą? Lepszym rozwiązaniem byłoby wyszukiwanie wyrażenia regularnego bez rozróżniania wielkości liter \bis\b (granice słów). - Bob
@JamieBull Jeszcze raz, musisz rozważyć, czy chcesz wprowadzić interpunkcję jako separator dla słowa. Dzielenie miałoby w dużym stopniu taki sam efekt jak naiwne rozwiązanie sprawdzania ' is 'w szczególności nie złapie This is, a comma' lub 'It is.'. - Bob
@ JamieBull: Bardzo wątpię, czy jakiekolwiek prawdziwe wejście zostało podzielone s.split(string.punctuation + string.whitespace) rozdzieliłby się nawet raz; split nie jest jak strip/rstrip/lstrip rodzina funkcji, dzieli się tylko wtedy, gdy widzi wszystkie separatory znaków, w sposób ciągły, w tej samej kolejności. Jeśli chcesz podzielić się klasami postaci, powrócisz do wyrażeń regularnych (w którym momencie szukasz r'\bis\b' bez dzielenia jest prostszą i szybszą drogą). - ShadowRanger
'is' not in (w.lower() for w in s.translate(string.maketrans(' ' * len(string.punctuation + string.whitespace), string.punctuation + string.whitespace)).split() - ok, punkt wzięty. To jest teraz śmieszne ... - Jamie Bull


if needle in haystack: jest normalnym użyciem, jak mówi Michael Michael - polega na in operator, bardziej czytelny i szybszy niż wywołanie metody.

Jeśli naprawdę potrzebujesz metody zamiast operatora (np. Zrobić dziwne rzeczy key= dla bardzo osobliwego rodzaju ...?), to by było 'haystack'.__contains__. Ale ponieważ twój przykład jest do użycia w ifChyba nie masz na myśli tego, co mówisz ;-). Nie jest to dobra forma (ani czytelna, ani wydajna), aby bezpośrednio używać specjalnych metod - są one raczej używane przez operatorów i wbudowane elementy, które je delegują.


125
2017-08-09 03:19

Zasadniczo chcesz znaleźć podciąg w łańcuchu w pythonie. Istnieją dwa sposoby wyszukiwania podciągu w ciągu znaków w Pythonie.

Metoda 1: in operator

Możesz użyć Pythona in operator, aby sprawdzić podłańcuch. Jest to bardzo proste i intuicyjne. To powróci True jeśli podciąg został znaleziony w łańcuchu innym False.

>>> "King" in "King's landing"
True

>>> "Jon Snow" in "King's landing"
False

Metoda 2: str.find() metoda

Druga metoda polega na użyciu str.find() metoda. Tutaj nazywamy .find() metoda w łańcuchu, w którym znajduje się podciąg. Przekazujemy podłańcuch do metody find () i sprawdzamy jego wartość zwracaną. Jeśli jego wartość jest różna od -1, w łańcuchu znaleziono podciąg, inaczej nie. Zwrócona wartość jest indeksem, w którym znaleziono podłańcuch.

>>> some_string = "valar morghulis"

>>> some_string.find("morghulis")
6

>>> some_string.find("dohaeris")
-1

Poleciłbym użyć pierwszej metody, ponieważ jest bardziej Pythoniczna i intuicyjna.


98
2018-05-26 17:46

Czy w Pythonie ciąg zawiera metodę podłańcuchową?

Tak, ale Python ma operatora porównania, którego powinieneś użyć, ponieważ język zamierza używać go, a inni programiści oczekują, że go użyjesz. To słowo kluczowe to in, który jest używany jako operator porównania:

>>> 'foo' in '**foo**'
True

Przeciwieństwem (uzupełnieniem), o które pyta pierwotne pytanie, jest not in:

>>> 'foo' not in '**foo**' # returns False
False

Jest to semantycznie takie samo jak not 'foo' in '**foo**' ale jest znacznie bardziej czytelny i wyraźnie określony w języku jako poprawa czytelności.

Unikaj używania __contains__, find, i index

Zgodnie z obietnicą, oto jest contains metoda:

str.__contains__('**foo**', 'foo')

zwraca True. Możesz również wywołać tę funkcję z instancji superstrun:

'**foo**'.__contains__('foo')

Ale nie rób tego. Metody, które zaczynają się od podkreśleń, są uważane za semantycznie prywatne. Jedynym powodem do użycia tego jest przedłużenie in i not in funkcjonalność (np. podklasy str):

class NoisyString(str):
  def __contains__(self, other):
    print('testing if "{0}" in "{1}"'.format(other, self))
    return super(NoisyString, self).__contains__(other)

ns = NoisyString('a string with a substring inside')

i teraz:

>>> 'substring' in ns
testing if "substring" in "a string with a substring inside"
True

Należy również unikać następujących metod łańcuchowych:

>>> '**foo**'.index('foo')
2
>>> '**foo**'.find('foo')
2

>>> '**oo**'.find('foo')
-1
>>> '**oo**'.index('foo')

Traceback (most recent call last):
 File "<pyshell#40>", line 1, in <module>
  '**oo**'.index('foo')
ValueError: substring not found

Inne języki mogą nie mieć żadnych metod bezpośredniego testowania podłańcuchów, a więc musiałbyś używać tych metod, ale w Pythonie znacznie efektywniej jest używać inoperator porównania.

Porównywanie wydajności

Możemy porównać różne sposoby osiągnięcia tego samego celu.

import timeit

def in_(s, other):
  return other in s

def contains(s, other):
  return s.__contains__(other)

def find(s, other):
  return s.find(other) != -1

def index(s, other):
  try:
    s.index(other)
  except ValueError:
    return False
  else:
    return Trueperf_dict = {
'in:True': min(timeit.repeat(lambda: in_('superstring', 'str'))),
'in:False': min(timeit.repeat(lambda: in_('superstring', 'not'))),
'__contains__:True': min(timeit.repeat(lambda: contains('superstring', 'str'))),
'__contains__:False': min(timeit.repeat(lambda: contains('superstring', 'not'))),
'find:True': min(timeit.repeat(lambda: find('superstring', 'str'))),
'find:False': min(timeit.repeat(lambda: find('superstring', 'not'))),
'index:True': min(timeit.repeat(lambda: index('superstring', 'str'))),
'index:False': min(timeit.repeat(lambda: index('superstring', 'not'))),
}

A teraz widzimy, że za pomocą in jest znacznie szybszy niż inne. Mniej czasu na wykonanie równoważnej operacji jest lepsze:

>>> perf_dict
{'in:True': 0.16450627865128808,
 'in:False': 0.1609668098178645,
 '__contains__:True': 0.24355481654697542,
 '__contains__:False': 0.24382793854783813,
 'find:True': 0.3067379407923454,
 'find:False': 0.29860888058124146,
 'index:True': 0.29647137792585454,
 'index:False': 0.5502287584545229}

90
2017-11-25 22:33Dlaczego należy unikać str.index i str.find? Jak inaczej sugerowałbyś, aby ktoś znalazł indeks podłańcucha zamiast tego, czy istnieje, czy nie? (czy masz na myśli unikanie używania ich w miejsce zawartych - więc nie używaj s.find(ss) != -1 zamiast ss in s?) - coderforlife
Dokładnie tak, choć intencją stojącą za wykorzystaniem tych metod może być lepiej rozwiązane przez eleganckie wykorzystanie re moduł. Nie znalazłem jeszcze zastosowania dla str.index lub str.find się w jakimkolwiek kodzie, który napisałem jeszcze. - Aaron Hall♦


Nie, nie ma żadnych string.contains(str) metoda, ale jest in operator:

if substring in someString:
  print "It's there!!!"

Oto bardziej złożony przykład pracy:

# Print all files with dot in home directory
import commands
(st, output) = commands.getstatusoutput('ls -a ~')
print [f for f in output.split('\n') if '.' in f ]

61
2017-09-30 18:59Nie fanem parsowania ls, ale rozumiem, dlaczego dałeś ten przykład. Wciąż ... wolałbym widzieć os.walk. - Josh Detwiler


in Łańcuchy i listy w języku Python

Oto kilka przydatnych przykładów, które mówią same za siebie in metoda:

"foo" in "foobar"
True

"foo" in "Foobar"
False

"foo" in "Foobar".lower()
True

"foo".capitalize() in "Foobar"
True

"foo" in ["bar", "foo", "foobar"]
True

"foo" in ["fo", "o", "foobar"]
False

Zastrzeżenie. Listy są iterables i in metoda działa na iterabelach, a nie tylko na łańcuchach.


31
2018-04-28 18:52Czy lista może być iterowalna, aby wyszukać jedną z list w jednym ciągu? Dawny: ["bar", "foo", "foobar"] in "foof"? - CaffeinatedCoder
@CaffeinatedCoder, nie, wymaga to zagnieżdżonej iteracji. Najlepiej zrobić, dołączając do listy za pomocą potoków "|" .join (["bar", "foo", "foobar"]) i kompilując z niej wyrażenie regularne, a następnie dopasowując na "foof" - firelynx
Zorientowałem się wcześnie, że można to również zrobić za pomocą generatora, co pozwoliło mi uniknąć regexu. Dzięki za alternatywę! - CaffeinatedCoder
any ([x in "foof" dla x w ["bar", "foo", "foobar"]]) - Izaak Weiss
@IzaakWeiss Twoja linijka działa, ale nie jest czytelna i wykonuje iterację zagnieżdżoną. Odradzam robienie tego - firelynx


Najwyraźniej nie ma nic podobnego do porównania wektorowego. Oczywistym sposobem na zrobienie tego w Pythonie byłoby:

names = ['bob', 'john', 'mike']
any(st in 'bob and john' for st in names) 
>> True

any(st in 'mary and jane' for st in names) 
>> False

21
2017-07-17 13:19To dlatego, że istnieje bajillionowy sposób tworzenia Produktu ze zmiennych atomowych. Możesz je umieścić w krotce, liście (która jest formą produktów kartezjańskich i pochodzą z domniemanej kolejności), lub mogą być nazwane właściwościami klasy (bez kolejności a priori) lub wartościami słownikowymi, lub mogą być plikami w katalog lub cokolwiek innego. Kiedy tylko możesz jednoznacznie zidentyfikować (iter lub getitem) coś w "kontenerze" lub "kontekście", możesz zobaczyć "kontener" jako rodzaj wektora i zdefiniować na nim binarne operacje. en.wikipedia.org/wiki/... - Niriel
@Ufos domyślam się, że bardziej oczywistym sposobem na zrobienie tego jest użycie any() lub all(). Lubić : any([st in 'bob and john' for st in names]) >>> True - mgc
@mgc, zmieniono na any, dzięki. - Ufos
Nie potrzebujesz wewnętrznych nawiasów kwadratowych w żadnym - python.org/dev/peps/pep-0289 - Eamonn M.R.