系统监控和故障排除

Erfahren Sie, warum die 系统监控和故障排除 ein wesentlicher Bestandteil der Aufgaben eines IT-Teams ist.


什么是系统监控和故障排除?

系统监控和故障排除 是IT团队任务的重要组成部分. Obwohl Compliance-Frameworks wie NIST und ITIL Richtlinien zur Überwachung anbieten können, 这些标准的应用并不明确, 实施监控战略可能看起来势不可挡。. Die nachfolgenden Abschnitte geben einen Überblick über die verschiedenen Aspekte einer Überwachung Ihrer IT-Umgebung.

Zu überwachende Datentypen

Ein Ansatz zur Überwachung Ihrer Umgebung ist die Unterteilung der Daten in drei Kategorien.

Zunächst wären da die Logdaten, 写入日志文件, unabhängig davon, 无论是常见的结构还是简单的文本. Die Logdaten bieten eine ausführliche Aufzeichnung der Transaktionen in Ihrer gesamten IT-Umgebung. 其次,有资产数据,即直接从资产中提取的数据。. Hierbei handelt es sich um einfache Ressourcenmesswerte wie die CPU und den Arbeitsspeicher bis hin zu Angaben über die auf einem bestimmten IT-Asset laufenden Prozesse und Anwendungen. 资产数据可能特别有用, 当需要对事件进行监控时, 不包含在标准日志文件中的文件. 最后,还有网络数据, zu denen die Daten über die jeweilige Netzwerkleistung einschließlich Bandbreite, 网络连接和路由行为很重要.

同时监控所有三种数据类型的一个成熟 IT-Betrieb von großer Bedeutung ist, geht es bei der Systemüberwachung in der Regel um die Analyse von Logdaten und Asset-Daten.

Zu überwachende Systeme

您可以潜在地监视许多不同的系统, und welche Sie am Ende auswählen, 取决于您的环境. Zu den Optionen gehören:

Server: 服务器监控包括广泛的系统范围, darunter Server, die Anwendungen hosten, Active Directory域控制器, Dateifreigabe- und E-Mail-Server. Die meisten Server bieten jedenfalls ansatzweise eine Ereignisprotokollierung, ganz gleich, ob es ein Windows-, Linux- oder Mac-Rechner ist.

Datenbanken: 许多数据库提供不同级别的协议。, um Administratoren beim Debugging und der Bestimmung bevorstehender Probleme zu helfen. Zu den typischen Ereignissen der Datenbanken gehören langsame Abfragen und SQL-Zeitüberschreitungen, Zeilenbegrenzungen, 内存限制和缓存问题.

Anwendungen: 这些应用程序包括第三方应用程序, die Sie erworben haben, als auch solche, die intern entwickelt wurden. Einige Anwendungen von Drittanbietern schreiben Logs an ihren Host, die dann gesammelt werden können. 内部开发的应用程序也应该这样构建。, 能够记录重要事件. Überprüfen Sie, ob diese Anwendungen kundenorientiert oder mitarbeiterorientiert sind. Obwohl die Überwachung der Anwendungsleistung ganz unabhängig von der Nutzergruppe von Bedeutung ist, empfiehlt es sich, 更详细地记录面向客户的应用程序和服务.

Cloud-Services: Cloud-Services, 特别是基础设施即服务,如AWS和Azure, 对系统监控计划至关重要. Diese Dienste bieten ggf. von sich aus Log-Dateiansichten, aber es sollte auch möglich sein, 记录和存储这些服务之外的日志. Die Erfassung und Speicherung Ihrer Protokolle an einem einzigen Ort erleichtert es, 稍后找到这些信息.

Container: Die Containerisierung wird dank der Dienste wie Docker zu einem beliebten Ansatz bei der Planung und beim Hosting von Anwendungen und Infrastrukturen. 日益分化, kurzlebigerer und, 与物理计算机相比, 更多的代码依赖基础设施 die Container-Überwachung 在系统状态中扮演越来越重要的角色.

Workstations: Wenn Software oder Prozesse auf dem Rechner eines Mitarbeiters in Konflikt stehen oder Ihr Netzwerk mit Paketen überfluten, muss sichtbar sein, 在员工的工作站上运行什么. Es ist wichtig, dies ferngesteuert zu tun, da die Aufspürung des physischen Assets zeitaufwändig oder nicht möglich sein kann.

监测事件和指标

Fehler: Die Protokollierung von Anwendungs- und Systemfehlern liegt auf der Hand und der Suchbegriff „Error“ (Fehler) ist bei der IT-Recherche immer ein guter Ausgangspunkt. 一些系统按类型对错误进行分类, 它为将要发生的事情提供了线索.

CRUD Ereignisse: Es ist in der Regel sinnvoll, festzuhalten, wann Informationen geschrieben, gelesen, aktualisiert oder gelöscht wurden, um später Probleme, besonders jene in Anwendungen, beheben zu können. 尽管这些事件往往不是问题的直接迹象。, können sie bei der Rückverfolgung eines Problems hervorragende Informationen liefern.

Transaktionen: “交易”通常指重大事件,如购买。, Abonnements, Stornierungen und Einsendungen. Individuelle Transaktionen sollten aufmerksam auf fehlgeschlagene oder unvollständige Transaktionen überwacht werden. Je nach System enthalten Fehlercodes bisweilen wichtige Informationen über die Ursache des Transaktionsproblems. Bestimmte Systeme wie Microsoft SQL Server bieten ein dediziertes Transaktionsprotokoll, 包含这些信息的地方. In anderen Systemen müssen Sie diese Daten eventuell eigenständig zusammentragen.

访问请求和权限更改: Die Protokollierung aus einem Dienst wie Active Directory kann einen wichtigen Einblick in das Nutzerverhalten in Ihrer Umgebung bieten. Die Überwachung und Erfassung von Daten über Dinge wie Berechtigungsänderungen ist hilfreich, um zu verhindern, 允许用户访问未经授权的管理员权限. Diese Art der Überwachung ist häufig notwendig, um bestimmte Compliance-Standards zu erfüllen.

Systemmetriken: Systemwerte wie CPU, Arbeitsspeicher und Nutzung des Datenträgers sollten jederzeit aufmerksam überwacht werden, 防止系统崩溃. Dramatische Änderungen dieser Werte könnten einen Ausfall oder einen bevorstehenden Ausfall anzeigen. Auch die Erfassung dieser Messdaten über längere Zeit kann bei der Kapazitätsplanung für die Zukunft helfen.

So geht Überwachung

考虑到要监控的系统范围, Ereignisse und Metriken ist die Zentralisierung Ihrer Datenerfassung an einem einzigen sicheren Ort eine gute Entscheidung, 特别是当系统出现故障时. 收集日志管理解决方案, 协议的集中和组织就绪, damit sie sich leicht finden und visualisieren lassen und Warnungen schnell generiert werden können.

Die Überwachung kann auch über das Log-Management hinaus auf die Überwachung einzelner IT-Assets ausgeweitet werden. Diese Art der Überwachung umfasst die laufende Messung der Ressourcennutzung und die Verfolgung von Software und Prozessen, die auf den Assets laufen. In herkömmlichen Protokollen wird die Softwarenutzung häufig nicht festgehalten, 但是可以提供关于系统错误原因的重要信息. IT-Asset-Daten nicht nur messen, sondern auch speichern zu können, 让您全面了解您的IT环境.

Zeitpunkt der Überwachung

简而言之,系统监控应该是全天候的。, 如果你想让你的系统随时可用. 通常监控可以在后台运行, 不需要一直看. Jedoch gibt es einige Fälle, 您应该关注系统数据, u. a.:

Systemaktualisierungen: Wenn ein System aktualisiert wird, besteht das Risiko, dass das Update fehlschlägt oder die Aktualisierung unerwünschte Komplikationen verursacht.

部署和回滚应用程序: Beim Bereitstellen (oder Rollback) von Code in Anwendungen könnten unerwartete Probleme auftreten, 即使所有的单个测试和功能测试都成功完成.

Migrationen: Datenmigrationen sind häufig komplex und bringen Probleme wie fehlerhafte Datentypen, 验证问题和更多.

Spitzentransaktionszeiten: In bestimmten Unternehmen kommt es regelmäßig zu Zeiträumen mit erhöhten Transaktionen, wie E-Commerce-Unternehmen während der Vorweihnachtszeit oder in einem Aktionszeitraum. Die in diesen Spitzenzeiten auftretenden Probleme könnten erhebliche Folgen haben, 如果它们不被迅速注意到.

IT系统监控和故障排除依赖于许多因素。. 将您的IT环境分解为系统和事件, die überwacht werden sollten, kommen Sie der Bestimmung der geeigneten Überwachungsstrategie und -lösung für Ihr Unternehmen einen Schritt näher.

Erfahren Sie mehr über SecOps

来自Rapid7博客的最新消息